Alle lang gelezen sequencingplatforms zijn gebaseerd op sequentiebepaling van één molecuul, wat hogere foutpercentages per base veroorzaakt. Om deze reden werd een polijststap toegevoegd aan de genoomassemblagepijplijnen - het in kaart brengen van ruwe reads naar de assemblage en het corrigeren van details van de assembly.
Ik heb een behoorlijke PacBio RSII-dataset van een enkel individueel genoom van sterk heterozygote niet-modelsoorten . De montage ging goed, maar toen ik probeerde de montage op te poetsen met pijlkoker, kon het niet convergeren over een paar iteraties en ik wed dat dit komt door een te grote divergentie van haplotypes.
Is er een andere manier om een genoom met dergelijke eigenschappen te polijsten, is er bijvoorbeeld een manier om lange reads op haplotype te scheiden, zodat ik met slechts één haplotype zou kunnen polijsten?