Ik begrijp hoe ik een genoom moet samenstellen uit foutloze uitlezingen. Ik heb als volgt geïmplementeerd:
Construeer een gerichte overlapgrafiek met uitlezingen als hoekpunten en randen als maximale overlap tussen twee hoekpunten. Randen vertegenwoordigen de lengte van de overlappende maximale deelstring van een lees-achtervoegsel met een ander leesvoorvoegsel. Zoek het pad dat alle hoekpunten slechts één keer bezoekt in de overlappingsgrafiek. Met een kleine grafiek kunnen we een hebzuchtige benadering gebruiken: Kies altijd vanaf het eerste patroon het maximumgewicht en sla de kortste algemene supersnoer op die door dit pad wordt gespeld in de resulterende string. De resulterende string gespeld door pad is de kortste algemene supersnoer van alle reads, dat wil zeggen samengesteld genoom.
Bijvoorbeeld
AACTAG CTAGAT
Geeft de AACTAGAT
als resultaat
Laten we nu zeggen dat twee foutgevoelige reads maximaal één fout (mismatch) hebben:
AACTAG CTCGAT
Zoals je kunt zien, heeft tweede lezing een vervanging in het derde teken van 'A' naar 'C' .
Dus hoe zou het geassembleerde genoom eruit moeten zien voor de foutgevoelige reads? Moet ik A of C gebruiken voor de resulterende tekenreeks? Of mis ik iets?
Opmerking: ik heb bijvoorbeeld korte teksten gebruikt vanwege de eenvoud. Ik werk met een veel groter aantal reads die 100 nucleotiden lang zijn en hoogstens één substitutie van karakter hebben. Dus dat is een grote overlappingsgrafiek. Ik weet dat ik De Bruijn-grafiek kan gebruiken, maar kan ik een hebzuchtige benadering gebruiken (zoals in een foutloos voorbeeld)?