Vraag:
Genoomassemblage van foutgevoelige uitlezingen
gagro
2017-10-22 17:20:58 UTC
view on stackexchange narkive permalink

Ik begrijp hoe ik een genoom moet samenstellen uit foutloze uitlezingen. Ik heb als volgt geïmplementeerd:

Construeer een gerichte overlapgrafiek met uitlezingen als hoekpunten en randen als maximale overlap tussen twee hoekpunten. Randen vertegenwoordigen de lengte van de overlappende maximale deelstring van een lees-achtervoegsel met een ander leesvoorvoegsel. Zoek het pad dat alle hoekpunten slechts één keer bezoekt in de overlappingsgrafiek. Met een kleine grafiek kunnen we een hebzuchtige benadering gebruiken: Kies altijd vanaf het eerste patroon het maximumgewicht en sla de kortste algemene supersnoer op die door dit pad wordt gespeld in de resulterende string. De resulterende string gespeld door pad is de kortste algemene supersnoer van alle reads, dat wil zeggen samengesteld genoom.

Bijvoorbeeld

  AACTAG CTAGAT  

Geeft de AACTAGAT als resultaat

Laten we nu zeggen dat twee foutgevoelige reads maximaal één fout (mismatch) hebben:

  AACTAG CTCGAT  

Zoals je kunt zien, heeft tweede lezing een vervanging in het derde teken van 'A' naar 'C' .

Dus hoe zou het geassembleerde genoom eruit moeten zien voor de foutgevoelige reads? Moet ik A of C gebruiken voor de resulterende tekenreeks? Of mis ik iets?

Opmerking: ik heb bijvoorbeeld korte teksten gebruikt vanwege de eenvoud. Ik werk met een veel groter aantal reads die 100 nucleotiden lang zijn en hoogstens één substitutie van karakter hebben. Dus dat is een grote overlappingsgrafiek. Ik weet dat ik De Bruijn-grafiek kan gebruiken, maar kan ik een hebzuchtige benadering gebruiken (zoals in een foutloos voorbeeld)?

Twee antwoorden:
user172818
2017-10-22 19:13:23 UTC
view on stackexchange narkive permalink

Voor korte reads is de typische en meest gebruikte oplossing het corrigeren van wegvolgordefouten vóór de montage. U kunt fouten corrigeren met k-mer spectrum, een trie of multi-alignment. Er zijn veel artikelen over dit onderwerp.

Foutcorrectie alleen lost niet alle sequentiefouten op. Resterende fouten kunnen leiden tot bellen en tips in de overlap / de Bruijn-grafiek. U kunt ze identificeren door de lokale topologie van de assemblagegrafiek te inspecteren.

Dus wat zou de oplossing zijn van het foutgevoelige voorbeeld hierboven?
Geen oplossing voor uw voorbeeld. U kunt alleen fouten identificeren met voldoende dekking.
gringer
2017-10-22 23:47:50 UTC
view on stackexchange narkive permalink

Het is gebruikelijk dat monteurs een dekkingsdrempel hebben om er zeker van te zijn dat er voldoende leesbewerkingen zijn in dezelfde regio om een ​​contig correct samen te stellen.

U kunt geen ideale oplossing vinden vanuit een situatie waarin de consensussequentie is dubbelzinnig. Als uw overlap representatief was (bijv. Een heterozygote variant in een diploïde genoom, gebaseerd op enkele tientallen reads van 100 bp, in plaats van 6 bp), dan zou de resulterende assembly een bel hebben in de assembly-grafiek op het variantpunt.

  A / \ AACT GAT \ / C  

Een conservatieve assembler zou twee geassembleerde contigs kunnen produceren die overeenkomen met deze twee paden, AACTAGAT en AACTCGAT. Een hebzuchtige assembler zou maar één pad kiezen en dat gebruiken. Volgende assemblagestappen kunnen proberen om naar bellen te zoeken en de geassembleerde contigs te annoteren met afwijkende locaties.

Voor alle reguliere korte-read-overlappers: als er een mismatch is, wordt de overlapping volledig gemist. Je krijgt geen bubbel. Gewoonlijk heb je minimaal 4 reads nodig om een ​​bel te zien en de bel is niet enkelvoudig gebaseerd in de string / overlap-grafiek.
Ja, voor het specifieke voorbeeld dat werd gegeven, zou er geen luchtbel worden gevormd. Ik ging ervan uit dat de uitlezingen representatief waren voor iets met een betere dekking (bijv. Overlap van 50 lange reeksen, waarbij de helft een variant had en de helft niet)


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...