Vraag:
Wat is de beste manier om rekening te houden met GC-inhoudsverschuiving bij het construeren van een op nucleotiden gebaseerde fylogenetische boom?
Iakov Davydov
2017-05-18 23:52:28 UTC
view on stackexchange narkive permalink

Laten we zeggen dat ik een fylogenetische boom wil construeren op basis van orthologe nucleotidesequenties; Ik wil geen eiwitsequenties gebruiken om een ​​betere resolutie te krijgen. Deze soorten hebben verschillende GC-inhoud.

Als we een eenvoudige benadering gebruiken zoals maximale waarschijnlijkheid met JC69 of een ander klassiek nucleotidemodel, zullen geconserveerde eiwitcoderende sequenties van verre soorten met vergelijkbare GC-inhoud kunstmatig samen clusteren. Dit zal gebeuren omdat GC-inhoud voornamelijk de wiebelende codonposities zal beïnvloeden, en ze zullen er op nucleotideniveau hetzelfde uitzien.

Wat zijn mogelijke manieren om dit te verhelpen? Ik heb tot dusver de volgende opties overwogen:

  1. Het gebruik van eiwitsequentie. Dit kan natuurlijk, maar we verliezen veel informatie over de korte afstand. Niet van toepassing op niet-coderende sequenties.

  2. Hercoderen. Bij deze benadering kunnen C en T worden gecombineerd tot een enkele pyrimidinetoestand Y (G en A kunnen in sommige implementaties ook worden gecombineerd). Dit klinkt interessant, maar ten eerste verliezen we hier ook wat informatie. Wiskundige eigenschappen van het resulterende proces zijn niet duidelijk. Als resultaat wordt deze benadering niet algemeen gebruikt.

  3. De derde codonpositie uitsluiten van de analyse. Weer wat informatie over korte afstanden kwijtraken. Ook zijn niet alle synonieme substitutie specifiek voor de derde codonposities, dus we verwachten nog steeds enige vertekening. Niet van toepassing op niet-coderende sequenties.

In theorie zou het mogelijk moeten zijn om een ​​model te hebben dat verschuivingen in GC-inhoud toelaat. Dit zal een Markov-proces zijn dat niet in de tijd omkeerbaar is. Voor zover ik begrijp, zijn er enkele rekenproblemen bij het inschatten van de waarschijnlijkheid van dergelijke modellen.

Ik zou er alleen aan willen toevoegen dat ik denk dat er een belangrijke veronderstelling is in de opzet hier: "Ik wil geen eiwitsequenties gebruiken om een ​​betere resolutie te hebben". We kunnen hier 'beter' ontleden - het is waarschijnlijk nauwkeuriger maar ook meer bevooroordeeld, het laatste om alle redenen die u uiteenzet.
Voor het geval je misschien geïnteresseerd bent, heb ik enkele van de benaderingen die je noemt getest, plus een paar andere hercoderingsschema's (http://dx.doi.org/10.6084/m9.figshare.732758) in de volgende artikelen: http: // arxiv.org/abs/1307.1586 en http://dx.doi.org/10.1093/molbev/msu105
Drie antwoorden:
#1
+5
Leo Martins
2017-05-19 03:38:52 UTC
view on stackexchange narkive permalink

Er zijn modellen die rekening houden met heterogeniteit in de compositie, zowel onder de maximale waarschijnlijkheid als onder de Bayesiaanse. Hoewel het substitutieproces niet in de tijd omkeerbaar is, worden de berekeningen vereenvoudigd door aan te nemen dat de instantane snelheidsmatrix kan worden opgesplitst in een 'evenwichtsfrequentievector' (niet homogeen) en een symmetrische, constante wisselkoers matrix.

Ik denk dat al je suggesties ook geldig zijn, en ik herinner me dat hercodering met succes werd gebruikt om de GC-content bias te verminderen (voorbeelden in de verwijzingen hierboven en hier).

#2
+3
bli
2017-05-19 14:18:46 UTC
view on stackexchange narkive permalink

Het volgende artikel uit 2004 beschrijft een manier om compositorische veranderingen in de boom te modelleren, in een Bayesiaans raamwerk: https://doi.org/10.1080/10635150490445779

Een python pakket dat dit implementeert ("p4"), en verbeteringen die in de loop der jaren zijn toegevoegd, is hier beschikbaar: https://github.com/pgfoster/p4-phylogenetics

Om te beginnen , kunt u hier nuttige voorbeelden vinden: http://p4.nhm.ac.uk/scripts.html

Dit is gebruikt in een paar grootschalige fylogenetische analyses.

#3
+1
Michael
2019-04-09 14:49:39 UTC
view on stackexchange narkive permalink

Het antwoord is dat het logDet-algoritme is ontwikkeld om GC% -clustering te omzeilen.

In die tijd was er alleen een afstandsmethode beschikbaar / geïmplementeerd, dus het was niet erg krachtig. De berichten hier impliceren dat er een Bayesiaanse of ML-benadering beschikbaar is en deze houden nauw verband met het model.

Originele publicatie hier

Heeft u een publicatie of webpagina in gedachten? Kunt u het koppelen?
Link hierboven verstrekt. Gaat een lange weg terug ... naar 1996


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...