Vraag:
Single-sample vs. gezamenlijke genotypering
llevar
2017-05-17 18:02:17 UTC
view on stackexchange narkive permalink

Ik probeer de voordelen van gezamenlijke genotypering te begrijpen en zou het op prijs stellen als iemand een argument zou kunnen geven (idealiter wiskundig) dat duidelijk het voordeel zou aantonen van genotypering van gewrichten versus enkelvoudige monsters.

Dit is wat ik heb verzameld uit andere bronnen (Biostars, GATK-forums, enz.)

  • Gezamenlijke genotypering helpt FDR onder controle te houden, omdat fouten van individueel genotypeerde monsters worden opgeteld en versterkt bij het samenvoegen van sets (door Heng Li op https://www.biostars.org/p/10926/)

Als iemand dit begrijpt, kunt u dan verduidelijken wat het verschil in de algehele FDR-snelheid tussen de twee scenario's (nogmaals, idealiter met een voorbeeld)

  • Grotere gevoeligheid voor laagfrequente varianten - Door informatie over alle monsters te delen, maakt gezamenlijk bellen het mogelijk om 'Rescue'-genotype-oproepen op locaties waar een koerier een lage dekking heeft, maar andere monsters binnen de oproepset hebben een zelfverzekerde variant op die locatie. (van https://software.broadinstitute.org/gatk/documentation/article.php?id=4150)

Ik begrijp niet hoe de aanwezigheid van een zelfverzekerde variant op dezelfde locus bij een ander individu kan de genotypering van een individu met een lage dekking beïnvloeden. Is er een geldig argument dat iemand in staat stelt om reads van een andere persoon te beschouwen als bewijs van een bepaalde variant in een derde persoon? Wat zijn de aannames voor een dergelijk argument? Wat als die persoon uit een andere populatie komt met totaal verschillende allelfrequenties voor die variant?

Na het lezen van verschillende artikelen (of methodebeschrijvingen) die de nieuwste haplotype-bewuste SNP-aanroepmethoden beschrijven (HaplotypeCaller, freebayes , Platypus) lijkt het algemene kader te zijn:

    1. Bepaal een prior op de allelfrequentieverdeling op een interessante plaats met behulp van een (of combinatie) van: niet-informatieve prior, populatiegenetica model-gebaseerde prior zoals Wright Fisher, prior gebaseerd op gevestigde variatiepatronen zoals dbSNP, ExAC, of gnomAD.
    1. Maak een lijst met plausibele haplotypes in een regio rond de locus van interesse met behulp van lokale assembly.
    1. Selecteer het haplotype met de hoogste waarschijnlijkheid op basis van eerdere gegevens en leest gegevens en leid het locusgenotype dienovereenkomstig af.

Op welk (e) punt (en) in de bovenstaande procedure kan informatie tussen samples worden gedeeld of gepoold? Moet men de AFS van een grootschalige hulpbron zoals gnomAD niet veel meer vertrouwen dan de verdeling die wordt verkregen uit andere steekproeven die nominaal deel uitmaken van hetzelfde "cohort", maar misschien weinig met elkaar te maken hebben vanwege bijvoorbeeld een verschillende afkomst?

Ik wil echt de rechtvaardigingen en voordelen van multi-sample genotypering begrijpen en zou uw inzichten op prijs stellen.

Twee antwoorden:
#1
+10
user172818
2017-05-17 19:08:22 UTC
view on stackexchange narkive permalink

Stel dat u sequencen naar 2x dekking. Stel dat op een locatie monster S één referentiebasis en één alternatieve basis heeft. Het is moeilijk te zeggen of dit een sequentiefout of een heterozygoot is. Stel nu dat je 1000 andere samples hebt, allemaal op 2x de leesdiepte. Een van hen heeft twee ALT-bases; 10 van hen hebben een REF en een ALT. Het is meestal onwaarschijnlijk dat al deze monsters dezelfde sequentiefout hebben. Dan kun je beweren dat sample S een het heeft. Multi-sample calling helpt de gevoeligheid van niet zo zeldzame SNP's te verhogen. Merk op dat het hier gaat om de aanname van foutonafhankelijkheid. Voorgeslacht heeft slechts een klein indirect effect.

Calling met meerdere steekproeven bestraft zeer zeldzame SNP's, in het bijzonder eenlingen. Als je alleen om varianten geeft, is dit voorgoed. Het naïef combineren van oproepen met één steekproef levert een hoger foutenpercentage op. Multi-sample calling helpt ook bij het filteren van varianten in een later stadium. Voor een steekproef die is gesequenced tot 30x dekking, zou u bijvoorbeeld niet weten of een site op een diepte van 45x wordt veroorzaakt door een mogelijke CNV / mismapping of door statistische fluctuaties. Als u 1000 30X-samples op een diepte van 45X ziet, weet u gemakkelijk dat u naar een CNV / systematische mismapping kijkt. Meerdere samples versterken de meeste statistische signalen.

Oudere methoden voegen alle BAM's samen bij het aanroepen van varianten. Dit is nodig omdat een enkele steekproef met lage dekking niet genoeg gegevens heeft om verborgen INDEL's te herstellen. Deze strategie is echter niet zo eenvoudig massaal te parallelliseren; het toevoegen van een nieuw sample triggert opnieuw bellen, wat ook erg duur is. Omdat we tegenwoordig voornamelijk sequencing met hoge dekking doen, doet het oude probleem met INDEL-bellen er nu niet toe. GATK heeft deze nieuwe single-sample calling pipeline waarin je gVCF's per sample in een later stadium combineert. Een dergelijke strategie voor het combineren van monsters is misschien de enige verstandige oplossing als u te maken heeft met 100.000 monsters.

De zogenaamde op haplotype gebaseerde variantcalling is een aparte vraag. Dit type benadering helpt om INDEL's te bellen, maar is niet erg relevant voor multi-sample calling. Van de drie variant-bellers in uw vraag, gebruiken alleen GATK (en Scalpel die u niet hebt genoemd) ook montage in het algemeen. Freebayes doet dat niet. Platypus doet het, maar slechts in beperkte mate, en werkt in de praktijk niet goed.

Ik denk dat je het echt wilt hebben over op imputatie gebaseerd bellen. Deze benadering verbetert de gevoeligheid met LD verder. Met voldoende samples kun je de LD tussen twee posities meten. Stel dat u op positie 1000 één REF ziet lezen en geen ALT leest; op positie 1500 zie je één REF-aflezing en twee ALT-aflezingen. Je zou geen SNP's aanroepen op positie 1000, zelfs niet als je meerdere samples gebruikt. Als u echter weet dat de twee posities sterk met elkaar verbonden zijn en de dominante haplotypes REF-REF en ALT-ALT zijn, weet u dat het onderzochte monster waarschijnlijk een ontbrekend ALT-allel heeft. LD draagt ​​signalen over tussen sites en vergroot de kracht om correcte genotyperingsoproepen te doen. Desalniettemin, aangezien we tegenwoordig voornamelijk sequencing met hoge dekking doen, hebben op imputatie gebaseerde methoden slechts een klein effect en worden ze zelden toegepast.

Bedankt, een paar vervolgacties (uitgesplitst over verschillende opmerkingen): de bovenste alinea klinkt meer als variant-oproepen dan als genotypering, wat enigszins onhaalbaar is in de context van grootschalige onderzoeken met een hoge dekking of lopende klinisch gerichte sequencing. Zie je dezelfde logica die van toepassing is op genotypering, d.w.z. afhankelijk van het feit dat er een variant op de locus is? Waar ik mee worstel is het begrijpen, afgezien van batch-effectdetectie, waarom zouden we informatie over AFS uit een ietwat willekeurige verzameling monsters (genetisch gezien) meer vertrouwen dan een grote bron van monsters zoals gnomAD?
Ik begrijp niet waarom "Het naïef combineren van oproepen met een enkele steekproef een hoger foutenpercentage oplevert." Kun je een voorbeeld uitwerken of een voorbeeld geven in de context van genotypering?
tov. naar haplotype of assembly-based calling is het gewoon een weerspiegeling van het feit dat de beste methoden lijken te redeneren over een regio rond een locus, niet alleen de locus zelf, en ik probeer erachter te komen waar in een dergelijke methode informatie uit meerdere monsters kan worden gebruikt . Specifiek in de context van sequencing van het hele genoom met een hoge dekking, waarbij periodiek meerdere batches monsters arriveren voor analyse en er niet noodzakelijk een definitieve monstergrootte is.
De bovenste alinea gaat over het bepalen van het * genotype * van monster S - het is genotypering. Als je de site-allelfrequentie kent (AFS is hier de verkeerde formulering) in een grotere populatie, heb je een betere prior. Deze prior is minder nauwkeurig voor alle populaties, maar beter dan een voorafgaande visser. Al deze theorieën zijn alleen bruikbaar voor lowCov. Voor highCov heeft de waarschijnlijkheid van het genotype een veel groter effect dan eerdere informatie en informatie over steekproeven.
Voor de rest moet u afzonderlijke vragen stellen. Het samenvoegen van meerdere onderwerpen onder deze ene vraag is moeilijk voor jou, voor mij en voor lezers om te begrijpen.
Hoe dan ook ... Wat betreft assembly-based calling, heb ik al gezegd dat het weinig te maken heeft met multi-sample calling. Over het combineren van oproepen met één sample, heb ik in de bovenste paragraaf al uitgelegd dat het gezamenlijk overwegen van meerdere samples helpt bij genotypering - wat betekent dat het niet gebruiken van de info genotypering schaadt. Trouwens, de kern van uw vraag is een mix van variantcalling en genotypering (bijv.FDR gaat over variantcalling), wat verwarring veroorzaakt bij mij en Devon hieronder.
#2
+2
Devon Ryan
2017-05-17 18:13:19 UTC
view on stackexchange narkive permalink

Het voordeel van aanvullende steekproeven zie je in punt 1. De waarschijnlijkheid van een variantoproep is een functie van (1) de diepte van de dekking die een bepaalde variant ondersteunt (waarbij overwegingen met betrekking tot mapping / basiskwaliteit worden genegeerd) en (2) de waarschijnlijkheid dat die variant bestaat, gegeven achtergrondkennis. Met weinig diepgang en geen achtergrondkennis, wordt aangenomen dat slecht gedekte varianten sequentiefouten zijn. Het toevoegen van meer voorbeelden kan dan dienen om de achtergrondkennis van een functie te vergroten.

Bedankt Devon, de vraag is specifiek gericht op genotypering, d.w.z. je moet al denken dat er een variant is.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...