Analyser des séquences d'ADN
Un petit billet "boîte à outils" sur les séquences d'ADN, en attendant un billet plus long et moins technique sur le séquençage en général. Tout ceci ne sera utile qu'aux personnes souhaitant analyser des séquences au laboratoire ou à la maison (non, ce n'est pas la même chose) en l'absence d'outils attitrés.
Première étape, facultative pour les chanceux qui n'ont pas recours au séquençage artisanal: le séquenceur vous a fourni un chromatogramme, soit des pics plus ou moins réguliers permettant d'identifier les nucléotides le long de la séquence. Comme il est hors de question de faire cela à la main, vous pouvez télécharger Chromas (PC) et Edit View (Mac). Ces deux logiciels permettent (i) d'extraire du chromatogramme la séquence sous forme de lettres ATGC (ii) de sélectionner la partie fiable de la séquence, celle où le chromatogramme présente de jolis pics de couleur bien marqués, sans signal parasite.
Ensuite, il peut être nécessaire de manipuler ses séquences, de les aligner, d'en obtenir le brin antiparallèle, de les assembler en contigs, etc. Des logiciels gratuits comme DNA Strider (Mac) et Bioedit (PC) permettent d'effectuer assez simplement ces opérations. L'analyse de la séquence peut s'arrêter là, si par exemple on cherche à valider une construction génétique dont la séquence est connue. En revanche, si la séquence correspond à un gène a priori inconnu, il faudra avoir recours à un programme appelé BLAST, qui nécessite une connexion à des bases de données génétiques. Heureusement, BLAST est implémenté dans nombre de site web, et même dans Chromas.
Ainsi, l'institut européen de bioinformatique (EBI) héberge nombre d'outils disponibles gratuitement et directement sur internet, ce qui est appréciable si l'on veut s'affranchir du clivage PC/Mac (sans même parler de Linux!). On peut y traduire ses séquences d'ADN en protéines (Transeq), aligner ses séquences deux à deux en précisant leur type (Align), les "blaster" contre la base de données pertinente (BLAST), car il est inutile de chercher des séquences bactériennes dans une base de gènes humains... En explorant l'onglet "Tools" en haut de l'écran, vous trouverez certainement votre bonheur. Le site 123genomics est même plus complet, proposant un large choix d'algorithmes pour une même analyse, notamment dans la recherche de motifs protéiques ou de promoteurs. Je le recommande à tout utilisateur un tant soit peu aguerri sur EBI.
J'ai pour ma part une petite préférence pour le Biology Workbench, qui propose gratuitement des services bioinformatiques sous réserve de la création d'un compte. Immense avantage, on peut y stocker les séquences sur lesquelles on travaille pour les retrouver ensuite, que l'on change d'ordinateur ou de système d'exploitation. On peut y aligner de multiple séquences grâce au programme ClustalW et ainsi tracer des arbres phylogénétiques. A utiliser impérativement si le laboratoire n'a aps de logiciel équivalent et si l'on doit régulièrement faire des analyses de séquences. Seul regret, Biology Workbench manque peut être d'outils pour ceux qui souhaitent tirer des propriétés biochimiques de leurs séquences de protéines; il faut donc compléter avec Expasy Tools ou 123Genomics. Enfin, le Ribosomal Database Project II propose à la fois une base de données d'ARN ribosomaux, mais aussi les outils qui permettent d'en tirer des arbres phylogénétiques. Je me suis servi de ce site pour faire les arbres de mon billet sur la comparaison Escherichia coli / Shigella.
Bien sûr, le net regorge littéralement d'outils divers, le commerce de logiciels chers mais puissants (comme Vector NTI), mais ceci constitue une trousse de secours qui devrait suffire à combler des besoins ponctuels.
Première étape, facultative pour les chanceux qui n'ont pas recours au séquençage artisanal: le séquenceur vous a fourni un chromatogramme, soit des pics plus ou moins réguliers permettant d'identifier les nucléotides le long de la séquence. Comme il est hors de question de faire cela à la main, vous pouvez télécharger Chromas (PC) et Edit View (Mac). Ces deux logiciels permettent (i) d'extraire du chromatogramme la séquence sous forme de lettres ATGC (ii) de sélectionner la partie fiable de la séquence, celle où le chromatogramme présente de jolis pics de couleur bien marqués, sans signal parasite.
Ensuite, il peut être nécessaire de manipuler ses séquences, de les aligner, d'en obtenir le brin antiparallèle, de les assembler en contigs, etc. Des logiciels gratuits comme DNA Strider (Mac) et Bioedit (PC) permettent d'effectuer assez simplement ces opérations. L'analyse de la séquence peut s'arrêter là, si par exemple on cherche à valider une construction génétique dont la séquence est connue. En revanche, si la séquence correspond à un gène a priori inconnu, il faudra avoir recours à un programme appelé BLAST, qui nécessite une connexion à des bases de données génétiques. Heureusement, BLAST est implémenté dans nombre de site web, et même dans Chromas.
Ainsi, l'institut européen de bioinformatique (EBI) héberge nombre d'outils disponibles gratuitement et directement sur internet, ce qui est appréciable si l'on veut s'affranchir du clivage PC/Mac (sans même parler de Linux!). On peut y traduire ses séquences d'ADN en protéines (Transeq), aligner ses séquences deux à deux en précisant leur type (Align), les "blaster" contre la base de données pertinente (BLAST), car il est inutile de chercher des séquences bactériennes dans une base de gènes humains... En explorant l'onglet "Tools" en haut de l'écran, vous trouverez certainement votre bonheur. Le site 123genomics est même plus complet, proposant un large choix d'algorithmes pour une même analyse, notamment dans la recherche de motifs protéiques ou de promoteurs. Je le recommande à tout utilisateur un tant soit peu aguerri sur EBI.
J'ai pour ma part une petite préférence pour le Biology Workbench, qui propose gratuitement des services bioinformatiques sous réserve de la création d'un compte. Immense avantage, on peut y stocker les séquences sur lesquelles on travaille pour les retrouver ensuite, que l'on change d'ordinateur ou de système d'exploitation. On peut y aligner de multiple séquences grâce au programme ClustalW et ainsi tracer des arbres phylogénétiques. A utiliser impérativement si le laboratoire n'a aps de logiciel équivalent et si l'on doit régulièrement faire des analyses de séquences. Seul regret, Biology Workbench manque peut être d'outils pour ceux qui souhaitent tirer des propriétés biochimiques de leurs séquences de protéines; il faut donc compléter avec Expasy Tools ou 123Genomics. Enfin, le Ribosomal Database Project II propose à la fois une base de données d'ARN ribosomaux, mais aussi les outils qui permettent d'en tirer des arbres phylogénétiques. Je me suis servi de ce site pour faire les arbres de mon billet sur la comparaison Escherichia coli / Shigella.
Bien sûr, le net regorge littéralement d'outils divers, le commerce de logiciels chers mais puissants (comme Vector NTI), mais ceci constitue une trousse de secours qui devrait suffire à combler des besoins ponctuels.
Partager cet article
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article
C
M
M
U