Comment faire pour créer des arbres phylogénétiques

March 27

Comment faire pour créer des arbres phylogénétiques


Les arbres phylogénétiques sont un outil bioinformatique compliqué, très technique utilisée par les biologistes pour déterminer la relation évolutive entre les différentes espèces. En particulier, la phylogénétique examine les différences ou les similitudes dans les gènes entre les espèces et vise à établir les deux espèces provient réellement d'un ancêtre commun. «L'arbre» ​​est essentiellement une représentation graphique de cette relation évolutive. Les arbres phylogénétiques sont difficiles à construire et ne devraient pas être tenté par les débutants, les non-scientifiques ou des étudiants sans orientation adéquate d'un scientifique qualifié ou expert. Avancé (niveau collégial) la connaissance de la génétique et la biologie computationnelle est nécessaire.

Instructions

1 Mettre sur pied un ensemble de données de gènes. Cela nécessite l'accès à des référentiels tels que GenBank, EMBL ou DDBJ à partir de laquelle les séquences nucléotidiques peuvent être téléchargés, ainsi que la connaissance de la façon de les utiliser. Utilisez mot-clé ou d'une séquence-similarité des recherches pour trouver un groupe de séquences qui sont liées. Télécharger le format "FASTA" ou d'un document de texte pour chaque gène sélectionné et compiler celles-ci en un seul fichier.

2 Alignez les séquences dans l'ensemble de données. Effectuer plusieurs alignements de séquences en utilisant des outils de biologie computationnelle disponibles dans votre établissement, comme VectorNTI, ClustalX, BioEdit, CLCBio Workbench et ainsi de suite. Notez que certains de ces outils sont très compliqués à utiliser et très coûteux à utiliser (licences de site peuvent coûter plus de plusieurs milliers de dollars), de sorte que la formation préalable peut être obligatoire. Effectuer un alignement de séquences progressives où les séquences sont ajoutées une par une et les nucleotides similaires sont jumelés (c.-à-aligné) jusqu'à ce que l'alignement est établi. Cela doit être extrêmement précis dès le début. Les erreurs ici seront amplifiés dans l'arbre phylogénétique final.

3 Vérifiez l'alignement. Toutes les parties de l'alignement doivent être inclus dans la construction de l'arbre phylogénétique; par exemple, supprimer les lacunes insérées lors de la construction de l'alignement. Également supprimer des alignements flous, mal alignées ou ambiguës. Si le gène étudié en fait produit une protéine, examiner si elle serait plus approprié pour convertir l'alignement de la séquence nucléotidique dans un alignement de séquences de protéines. Cela dépendra de la quantité de données qui doit être obtenu à partir de l'arbre (les séquences d'acides aminés seront plus informative). On notera que les plus alignées les séquences sont les unes aux autres, plus ils sont liés évolutionnaire (c.-à-courte "distance évolutive" d'une espèce à l'autre).

4 Décider si l'arbre doit être construit par «distance-matrice" ou la méthode "de données discrètes". La méthode distance matrice est plus simple et moins complexe, ce qui nécessite que la distance entre les séquences alignées pour construire l'arbre le plus approprié. La méthode de données discrètes rompt l'alignement en plusieurs parties et tente de monter chacun d'eux sur l'arbre, et à cause de cela, fournit beaucoup plus d'informations pour une analyse ultérieure; cependant, ils prennent beaucoup plus de temps que les arbres de la matrice à distance.

5 Chargez les séquences alignées dans un paquet de phylogénie. Plusieurs logiciels bon marché ou open-source sont disponibles et sont la norme de l'industrie, tels que PHYLIP, Mega et PAUP. ClustalX peut être utilisé pour des arbres plus simples. Utilisation de ClustalX par exemple, supprimer les lacunes de l'alignement, puis corriger les erreurs d'alignement ou de multiples substitutions. Vérifiez que le format de sortie correcte ( "noeuds", pas "branches") est sélectionné. Réglez le logiciel "Boostrap arbre NJ," qui effectuera les calculs compliqués nécessaires à l'assemblage de l'arbre.

6 Présenter les données calculées comme un arbre. Le package phylogeney aura calculé les distances qui représentent le degré de similitude (fermer) ou différentes (loin) séquences sont de l'autre entre les différentes espèces. Cela peut être utilisé pour dessiner un arbre, avec des branches représentant ces distances et les nœuds aux extrémités des branches pour désigner l'espèce ou gène. Dessinez ce à l'échelle pour donner une bonne représentation visuelle de distance évolutive entre les espèces.

Conseils et avertissements

  • construction de l'arbre phylogénétique est une procédure très complexe et intense de calcul. Il est préférable de demander un bioinformaticien formés pour fournir une formation en orientation ou pratique. Des erreurs dans la formation de l'arbre sont extrêmement fréquentes, mais ne peuvent pas être résolus manuellement et nécessiteront une expertise de pointe en biologie computationnelle.