Vraag:
Hoe converteer ik het .vcf-bestand (geïmputeerd) met GT: GP-indeling naar GT: DS?
Nilufer
2017-06-29 20:45:09 UTC
view on stackexchange narkive permalink

Ik heb de gegenotypeerde gegevens van impute2-uitvoer in .gen-indeling (geïmputeerd naar 1000G P3). Het bestand heeft genotype posterieure kansen (GP: 3 waarden per variant). Ik heb .gen naar .vcf geconverteerd met qctools en het .vcf-bestand heeft het GT: GP-formaat. Ik moet het .vcf-bestand met GT: GP-indeling converteren naar GT: DS. Genotype-doseringen worden aanbevolen voor gebruik in qtltools / fastqtl-analyse. Ik kan echter geen tool vinden die het .vcf-formaat zou behouden en GP naar DS zou converteren. Alle hulp wordt zeer op prijs gesteld!

Drie antwoorden:
Tim
2017-06-29 21:57:57 UTC
view on stackexchange narkive permalink

Je kunt dit doen in Hail.

Hier is de ruwe code om het te doen (0.1 versies).

Setup:

  van hail import * hc = HailContext ()  

Importeer het .gen-bestand. VCF werkt ook:

  dataset = hc.import_gen ('src / test / resources / example.gen', 'src / test / resources / example.sample')  

Wijs het genotype-schema opnieuw toe en exporteer naar VCF:

  dataset.annotate_genotypes_expr ('g = {GT: g.call (), DS: g.dosage ()}') \ .export_vcf ('/ tmp / out.vcf.bgz')  

Bekijk de aan de slag-pagina als je het wilt uitproberen!

Ik moet er rekening mee houden dat je mogelijk QTL-analyses in Hail kunt doen, afhankelijk van de methode die je wilt gebruiken. Bekijk blogpost hier.

Hannah
2017-07-25 00:52:44 UTC
view on stackexchange narkive permalink

Hm, ik wist niet dat de plug-in bestond, dus schreef ik mijn eigen script om GP om te zetten naar kleine alleldosering op github. Misschien vindt iemand anders het nuttig :) https://github.com/7methylg/VCF-GP-to-DS

winni2k
2017-06-30 17:44:22 UTC
view on stackexchange narkive permalink

Er is de doseerplug-in voor bcftools, maar deze geeft alleen door tabs gescheiden waarden weer. Het zou niet zo moeilijk zijn om de plug-in uit te breiden om in plaats daarvan een VCF met de DS-tag uit te voeren, maar het is nog niet gedaan. De kans is groot dat de ontwikkelaars van bcftools reageren op een functieverzoek...

In ieder geval is deze code:

  curl https: //raw.githubusercontent.com/samtools/bcftools/develop/test/convert.vcf > convert.vcfbcftools + dosering convert.vcf > output.tsvhead -2 output.tsv 

heeft de output:

  # [1] CHROM [2] POS [3] REF [4] ALT [5] NA00001 [6] NA00002 [7] NA00003 [8] NA00004 [9] NA00005 [ 10] NA00006 [11] NA00007 [12] NA00008 [13] NA00009 [14] NA00010X 2698560 GA 0,1 0,0 0,1 0,2 0,3 0,2 0,2 ​​0,2 ​​0,2 ​​0,2 ​​0,1  

Dit maakt gebruik van bcftools versie 1.3.1 .

Hier is een fragment uit de bcftools-handleiding voor de doseerplug-in:

dosering

print genotype dosering. Standaard zoekt de plug-in naar PL, GL en GT, in die volgorde.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...