Vraag:
variant die ChIP-seq-stijlgegevens aanroept: samtools mpileup met minimale filters
719016
2017-05-26 18:23:01 UTC
view on stackexchange narkive permalink

Ik draai samtools mpileup (v1.4) op een bam-bestand met een zeer schokkerige dekking (gegevens in ChIP-seq-stijl). Ik wil een first-pass-lijst krijgen van posities met SNV's en hun frequentie zoals gerapporteerd door de leestellingen, maar wat ik ook doe, ik krijg steeds alle SNV's uitgefilterd omdat ze niet slagen voor QC.

Wat is de magische parameterset voor een eerste lijst van SNV's en frequenties?

EDIT: dit is een vraag die ik op "de andere" website heb gepost, maar daar geen antwoord kreeg.

Zou u een andere beller kunnen proberen om het te controleren? Iets als [varscan] (http://dkoboldt.github.io/varscan/)?
@nuin Ik mag het proberen, staat Varscan het uitschakelen van de filtering toe?
Kun je enkele voorbeelden toevoegen van commando's die je hebt geprobeerd?
@719016 Probeer dit [commando] (http://dkoboldt.github.io/varscan/using-varscan.html#v2.‌ 3_pileup2snp), en verander opties zoals _-- min-coverage _, _-- min-reads2_ en _-- min-avg-qual_. Dit zal u ook helpen om te controleren of uw probleem samtools-gerelateerd of BAM-bestand gerelateerd is
ben gewoon een beetje bang dat als de diepte niet hoog is en ook ChIP-Seq-gegevens vertekeningen hebben, het geen SNP's met een hoge betrouwbaarheid zijn. Het hele punt van HC SNP is ook de leesdiepte, wat niet zozeer is in traditionele ChIP-Seq
Ja, misschien moet het bellen worden beperkt tot toppen in de buurt van de piek, en vervolgens steekproef met steekproef vergelijken op de subset van dergelijke SNV's
Twee antwoorden:
#1
+7
burger
2017-05-27 06:16:16 UTC
view on stackexchange narkive permalink

Ik heb dit in het verleden gebruikt voor ChIP-seq-gegevens en het genereerde SNV's:

  samtools mpileup \ - niet-gecomprimeerd --max-depth 10000 --min-MQ 20 --ignore -RG --skip-indels \ - fasta-ref ref.fa file.bam \ | bcftools call --consensus-caller \ > out.vcf  

Dit was samtools 1.3 voor het geval dat een verschil maakt.

Ik heb het met deze parameters laten werken. Bedankt!
#2
+5
user172818
2017-05-29 19:47:27 UTC
view on stackexchange narkive permalink

Een andere benadering is htsbox. U kunt een kandidatenlijst krijgen met:

  htsbox pileup -Cvcf ref.fa -q20 -Q20 -s5 file.bam > out.vcf  

Hier , -q stelt minimale kaartkwaliteit in, -Q stelt minimale basiskwaliteit in, -v voert alleen varianten uit -c output VCF, -C geeft je basistellingen op beide strengen en tenslotte heeft -s5 ten minste 5 hoogwaardige basen nodig om een ​​allel op te roepen. Het is handig wanneer uw gegevens niet voldoen aan de aannames van typische variant-aanroepers.

Waarom niet samtools + bcftools of varscan? Transparantie en snelheid. Deze opdrachtregel telt eenvoudigweg op basis van de parameters die u gebruikt. Er zijn geen aanvullende bewerkingen van toepassing. En daarom is het meer dan een orde van grootte sneller dan samtools mpileup of varscan. Het is vermeldenswaard dat samtools standaard BAQ gebruikt, waardoor af en toe FP's worden verminderd. BAQ is echter niet helemaal nodig om Illumina langer te lezen en het doet tegelijkertijd pijn aan de gevoeligheid.

Ik ga htsbox zeker proberen, zoals je zegt dat het werkt door simpelweg te tellen op basis van de parameters.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...