Vraag:
Hoe snel mutaties bepalen in een gelezen SAM-bestand?
rraadd88
2017-05-18 08:14:29 UTC
view on stackexchange narkive permalink

Na DNA-sequentiebepaling heb ik een sam-bestand gegenereerd door een fastq-bestand uit te lijnen. Voordat ik bekende variante aanroepprogramma's gebruik (bijv. Annovar enz.), Wil ik wat reads kiezen en weten welke soorten mutaties er zijn.

Is er een snelle manier om dit te doen?

U kunt mismatches visualiseren met zoiets als [IGB] (https://wiki.transvar.org/display/igbman/Visualizing+read+alignments#Visualizingreadalignments-Loadsequencedatatoviewmismatches)
Drie antwoorden:
#1
+8
Scott Gigante
2017-05-18 08:24:19 UTC
view on stackexchange narkive permalink

Voor kwalitatieve analyse kunt u waarschijnlijk beter iets minder gedetailleerd gebruiken, zoals IGV of IGB. Als je echter echt naar een paar reads wilt kijken:

Als je bereid bent om sequentiefouten te negeren, kun je de CIGAR-string of de MD-tag inspecteren, die beide informatie geven over de uitlijning van een enkele gelezen.

De CIGAR-string geeft details over invoegingen, verwijderingen, knipsels, overeenkomsten en mismatches. Van Genome Analysis Wiki,

De sequentie die wordt uitgelijnd met een referentie, kan extra basen hebben die niet in de referentie staan ​​of er kunnen basen ontbreken die in de referentie voorkomen. De CIGAR-string is een reeks basislengtes en de bijbehorende bewerking. Ze worden gebruikt om zaken aan te geven zoals welke bases uitgelijnd zijn (ofwel een match / mismatch) met de referentie, worden verwijderd uit de referentie en zijn invoegingen die niet in de referentie staan. Bijvoorbeeld:

  RefPos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Referentie: CCATACTGAACTGACTAA CRead: ACTAGAATGGC TWij de bovenstaande uitlijning krijgt : POS: 5CIGAR: 3M1I3M1D5M  

Het meest voorkomende gebruik van de CIGAR-string maakt gebruik van M (match / mismatch), I (invoeging), D (verwijdering), S (soft clipping) en H (hard knippen). Merk op dat = (match) en X (mismatch) beschikbaar zijn als alternatieven voor de minder informatieve M, maar ze worden minder vaak gebruikt.

De MD-tag geeft specifieke details over mismatches en verwijderingen. Van de SAMtools tags specificatie,

Het MD-veld is bedoeld om SNP / indel-aanroep te bereiken zonder naar de referentie te kijken. Een string ‘10A5 ^ AC6’ betekent bijvoorbeeld dat er vanaf de meest linkse referentiebasis in de uitlijning 10 overeenkomsten zijn gevolgd door een A op de referentie die verschilt van de uitgelijnde leesbasis; de volgende 5 referentiebases zijn overeenkomsten gevolgd door een verwijdering van 2 bp uit de referentie; de verwijderde reeks is AC; de laatste 6 bases zijn wedstrijden. Het MD-veld moet overeenkomen met de CIGAR-string.

Merk op dat geen van beide u enig idee zal geven van structurele varianten in korte reads, en geen van beide zal bijzonder leesbaar (of nuttig zijn, vanwege het hogere foutenpercentage) in lange leesbewerkingen.

#2
+7
dariober
2017-05-21 22:47:47 UTC
view on stackexchange narkive permalink

Ik heb een programma geschreven, ASCIIGenome, dat ik handig vind in gevallen waarin je snel genomische gegevens wilt bekijken. Het is een genoombrowser voor de opdrachtregel.

Om alleen reads te zien die mismatches bevatten, kunt u de interne functie awk gebruiken. Om te filteren op leesbewerkingen waarbij de NM-tag (aantal mismatches)> 0 is:

  ASCIIGenome -fa genome.fa aln.bam ... [h] voor hulp: awk 'getSamTag (" NM ") > 0 ' 

De weergave op het terminalscherm kan er ongeveer zo uitzien: enter image description here

Evenzo, om alleen leest met indels die je kunt gebruiken awk '$ 6 ~ "D | I"'

Ik hoop dat dit helpt en voel je vrij om bugs &-problemen te melden.

Dat is echt cool. Ik vind het leuk.
#3
+4
gringer
2017-05-18 21:23:10 UTC
view on stackexchange narkive permalink

samtools mpileup kan dit snel doen:

  samtools mpileup -f reference.fasta -uv input.sam > varianten.vcf  

Dit levert een VCF-geformatteerd bestand op met informatie over welke varianten zijn gezien in het SAM-bestand, geaggregeerd voor alle toegewezen leesbewerkingen.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...