Vraag:
Wat is een goede pijplijn om exomes in het publieke domein als controles te gebruiken?
carsweshau
2017-06-21 07:20:34 UTC
view on stackexchange narkive permalink

Ik probeer momenteel associatie-analyse met een extreem kleine set van exomen van patiënten (n = 10), zonder dat controle of ouderlijke exomen beschikbaar zijn. Het downloaden van de ExAC VCF van variant sites ( http://exac.broadinstitute.org/downloads) of de 1000G geïntegreerde aanroepsets ( http://ftp.1000genomes.ebi.ac.uk /) en dit te combineren met onze samengevoegde VCF's voor patiënten is niet gelukt (ik vermoed dat de aanpak om te proberen zulke grote VCF's die zijn gegenereerd uit verschillende pijplijnen, nogal naïef is).

Kijkend naar de primaire literatuur, die ik heb verzameld, zou het mogelijk moeten zijn om deze bronnen te gebruiken om de statistische kracht voor onze analyse te vergroten. Mijn vraag is: hoe neem ik deze grote .vcf's met veel monsters en voeg ze met succes samen met onze patiënt .vcfs, zodat de gecombineerde VCF stroomafwaarts kan worden gebruikt om analysepakketten uit te voeren? (PODKAT, PLINK, enz.)

Een antwoord:
Dan
2017-06-21 14:26:48 UTC
view on stackexchange narkive permalink

Ik begrijp dat je de SNP-frequentie op de achtergrond wilt gebruiken als een prior voor invoer in je SNP-aanroepalgoritme?

Ik weet niet zeker of een ingeblikt algoritme dit doet, maar een snelle Google laat zien enkele veelbelovende links op:

Bedankt voor het antwoord - ter verduidelijking heb ik aanvullende details nodig over hoe ik mijn priors correct kan toewijzen met behulp van deze openbare middelen om gezamenlijk meerdere monsters te analyseren (onze exomes van onze patiënten en de populatiecontroles). De eerste link raakt dit, maar ik weet niet zeker hoe ik deze aanpak moet implementeren. De derde link zou nuttig zijn, behalve dat onze dekking prima is en in plaats daarvan missen we de steekproefomvang die ze hebben met verschillende ordes van grootte (slok)!
Ja, ik ken geen tools die dit doen met bestaande gegevens. Wat u / kunt / kunt doen, is uw gegevens opnieuw analyseren in de context van de andere gegevens in een enkele multi-sample-oproep. Dit lijkt een hack TBH, maar zou moeten werken.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...