Ik probeer momenteel associatie-analyse met een extreem kleine set van exomen van patiënten (n = 10), zonder dat controle of ouderlijke exomen beschikbaar zijn. Het downloaden van de ExAC VCF van variant sites ( http://exac.broadinstitute.org/downloads) of de 1000G geïntegreerde aanroepsets ( http://ftp.1000genomes.ebi.ac.uk /) en dit te combineren met onze samengevoegde VCF's voor patiënten is niet gelukt (ik vermoed dat de aanpak om te proberen zulke grote VCF's die zijn gegenereerd uit verschillende pijplijnen, nogal naïef is).
Kijkend naar de primaire literatuur, die ik heb verzameld, zou het mogelijk moeten zijn om deze bronnen te gebruiken om de statistische kracht voor onze analyse te vergroten. Mijn vraag is: hoe neem ik deze grote .vcf's met veel monsters en voeg ze met succes samen met onze patiënt .vcfs, zodat de gecombineerde VCF stroomafwaarts kan worden gebruikt om analysepakketten uit te voeren? (PODKAT, PLINK, enz.)