Vraag:
Gegeven een VCF van een menselijk genoom, hoe beoordeel ik de kwaliteit dan tegen bekende SNV's?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

Ik ben op zoek naar tools om de kwaliteit van een VCF die ik heb van een menselijk genoom te controleren. Ik zou de VCF willen vergelijken met algemeen bekende varianten in andere menselijke genomen, bijv. hoeveel SNP's zijn er al in openbare databases, of er toevoegingen / verwijderingen zijn op bekende posities, lengteverdeling tussen invoegen / verwijderen, andere SNV's / SV's, enz.? Ik vermoed dat er middelen zijn uit eerdere projecten om te controleren op bekende SNP's en InDels door menselijke subpopulaties.

Welke middelen bestaan ​​hiervoor en hoe doe ik dat?

Drie antwoorden:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

Om (tenminste enkele van) uw doelen te bereiken, zou ik de Variant Effect Predictor (VEP) aanbevelen. Het is een flexibele tool die verschillende soorten annotaties biedt op een .vcf-invoerbestand. Ik ben het ermee eens dat ExAC de de facto gouden standaardcatalogus is voor menselijke genetische variatie in coderingsregio's. Om de frequentieverdeling van varianten per globale subpopulatie te zien, moet u ervoor zorgen dat naast de 1000 genomen ook "ExAC-allelfrequenties" is aangevinkt. VEP ExAC

Uitvoer in de webbrowser: VEP_ExAC_res

Als u de geannoteerde .vcf downloadt, worden frequenties staat in het veld INFO :

  ## INFO = <ID = CSQ, Number =., Type = String, Description = "Consequentie-annotaties van Ensembl VEP. Formaat : Allel | Consequence | IMPACT | SYMBOOL | Gen | Feature_type | Feature | BIOTYPE | EXON | INTRON | HGVSc | HGVSp | cDNA_positie | CDS_positie | Eiwit_positie | Aminozuren | Codons | Bestaande_variatie | AFSTAND | STRAND | VLAGGEN | SYMBOL_SGNOUR | | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_NFE_AF | ExAC_OTH_AF | ExAC_SAS_AF | CLIN_SIG | SOMATIC | pheno | MOTIF_NAME | MOTIF_POS | HIGH_INF_POS | MOTIF_SCORE_CHANGE 

De eerder genoemde Annovar kan ook annoteren met ExAC-allelfrequenties. Ten slotte moeten we de nieuwste bron van het hele genoom noemen, gnomAD.

Zeer goede suggestie. Ik heb begrepen dat ExAC ca. 123K exomen en gnomAD hebben nu ongeveer 15K genomen
Dit zijn allemaal geweldige antwoorden, maar aangezien dit de favoriet van de gemeenschap lijkt te zijn, zal ik markeren als "het antwoord". Maar toekomstige lezers: kijk alstublieft naar de anderen!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

De grootste catalogus met proteïne coderende varianten is beslist ExAC (> 65.000 individuen). Ze publiceerden ook een blogpost waarin ze beschrijven hoe de cijfers in de paper kunnen worden gereproduceerd (het is een goed begin om vertrouwd te raken met de dataset).

Voor het geheel -genome varianten Ik zou kijken naar de gegevens die zijn gecreëerd door het 1000 genomes -project (de nieuwste release heeft meer dan 3000 individuen). De geïntegreerde variantoproepsets kunnen worden gedownload via de portal en de catalogus van SV's is hier te vinden.

In dit papier (ook 1000 genomen-project) ze spreken over niet-nauwkeurige plaatsing van SV's door SV-bellers. Dit zou ik in gedachten houden bij de vergelijking van je genoom met de bekende varianten.

Bedankt voor de hulp. Ik ben een beetje in de war door de hyperlink bij `guide` die het benodigde perl-script beschrijft. Met behulp van dit script, zal dit een VCF creëren van een geaggregeerde ~ 2,5K individuen?
Het script is onderdeel van [VCFtools] (http://vcftools.github.io/), ze linken naar de handleiding van het pakket in plaats van naar de broncode, er wordt van je verwacht dat je het pakket installeert, niet alleen om het script te downloaden. Ik ontdekte ook dat ze een portaal op de welpage zijn begonnen, dus heb ik het antwoord bewerkt.
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

U kunt het beste programma's gebruiken die u een volledige annotatie bieden van varianten die in uw VCF aanwezig zijn. Twee voorbeelden zijn snpEff en Annovar. Deze programma's werken op bekende varianten die verschillende bronnen beschouwen en geven u informatie over elk item in uw bestand, waarop u kunt filteren om te proberen de effecten van elke variant te begrijpen.

Er is nu toegang tot gnomAD met ANNOVAR, wat best gaaf is.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...