Vraag:
Verwachte allelfrequentieverdeling van SNV's in echte NGS-gegevens
German Demidov
2017-05-22 15:47:44 UTC
view on stackexchange narkive permalink

Ik heb een enorme hoeveelheid van ~ 20x menselijke WGS-samples, uitgelijnd, en alle SNV's die met GATK zijn aangeroepen onder standaard kiembaanparameters ingesteld.

Wat ik moet doen is het modelleren van de SNV's Allelfrequentie ( AF) voor verschillende onderliggende kopienummers. Ik kan beter een speelgoedvoorbeeld geven. Voor bepaalde genomische regio X:

Als X wordt gepresenteerd door 2 kopieën voor de specifieke monsters, verwachten we dat AF super dichtbij 1 of 0,5 is.

Als X wordt weergegeven door 4 exemplaren, verwacht ik dat een bepaalde AF in de buurt van 0,25, 0,5, 0,75 of 1 ligt.

Natuurlijk kan ik voor deze doeleinden Binominale distributie gebruiken. Zoals we weten, is de verdeling echter niet precies binominaal vanwege vertekening van uitlijning / sequentiebepaling en ligt de mediane AF voor alle heterozygote SNV's dichter bij 0,48 maar niet bij 0,5 zoals we zouden verwachten. Een ander ding: voor hoge kopieaantallen verwachten we hogere dekkingen. En GATK gebruikt verschillende filters, dus ik neem aan dat we SNV's met AF zoals 0,125 niet zullen zien (in het geval dat het segment ploïdie 8 heeft) - ondanks de superhoge dekking daar kan GATK deze "rare" AF afwijzen.

Ik heb verschillende artikelen gelezen waarin SNV's AF's worden gemodelleerd (en ik ben het ermee eens dat Beta Binomial Distribution vrij nauwkeurig kan zijn), maar ik was er niet genoeg van overtuigd dat ik de specifieke modellering moest gebruiken. Uit uw ervaring (in het geval dat u SNV's belt), welke probabilistische verdeling moet ik gebruiken? Hoe moet ik de parameters voor elk van hen schatten (moet ik verwachten voor CN4 AF = 0,5 vaker dan AF = 0,75 of vice versa, hoe kan ik dit schatten op basis van gegevens)?

UPD: Voor de eenvoud kunnen we zeggen dat we veel eerder geïdentificeerde regio's hebben met ploïdie die verschillen van CN2, en ik kan deze coördinaten van hier nemen. Dus ik kan min of meer "begeleid" leren gebruiken voor het schatten van parameters.

Een antwoord:
#1
+4
winni2k
2017-06-04 06:17:18 UTC
view on stackexchange narkive permalink

Ik heb niet genoeg ervaring om te beantwoorden welke probabilistische verdeling moet worden gebruikt.

Deze vraag vraagt ​​echter ook hoe de parameters van de verdelingen moeten worden geschat. Als een binominale verdeling wordt gekozen, dan is Heng Li's paper getiteld "Een statistisch raamwerk voor SNP-oproepen, mutatie-ontdekking, associatie-mapping en populatie-genetische parameterschatting op basis van sequentiegegevens" 1 waarschijnlijk de definitieve. Sectie 2.3.1 van dat artikel beschrijft een EM-algoritme voor het schatten van allelfrequenties uit meerdere steekproeven onder de aanname van het Hardy-Weinberg-evenwicht voor willekeurige maar constante ploïdie.

Idealiter gebruiken zelfs de meest populaire tools zoals GATK ook het EM-algoritme voor het record om de waarschijnlijkheid in te schatten, terwijl samtools zowel de EM- als de Brent-methode gebruikt. De echte problemen met het opzetten van ploïdie apriori, maar ik ben op dit moment niet op de hoogte van tools die ploïdie inschatten en vervolgens die informatie gebruiken voor SNV-oproepen en de AF achterhalen. Ik weet dat tools zoals ABSOLUTE de kracht hebben om de ploïdie te schatten, maar dan moet je ze gebruiken als input voor je latere SNP-oproepen. Maar ik denk dat de meeste tools meestal werken met de aanname met ploïdie set apriori. Dit is waar ik vanaf nu aan denk.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...