Hoe om te gaan met heterozygositeit tijdens het polijsten van genoomassemblage op basis van lange reads?

Vraag:

Kamil S Jaron

2017-05-21 16:49:59 UTC

view on stackexchange narkive permalink

Alle lang gelezen sequencingplatforms zijn gebaseerd op sequentiebepaling van één molecuul, wat hogere foutpercentages per base veroorzaakt. Om deze reden werd een polijststap toegevoegd aan de genoomassemblagepijplijnen - het in kaart brengen van ruwe reads naar de assemblage en het corrigeren van details van de assembly.

Ik heb een behoorlijke PacBio RSII-dataset van een enkel individueel genoom van sterk heterozygote niet-modelsoorten . De montage ging goed, maar toen ik probeerde de montage op te poetsen met pijlkoker, kon het niet convergeren over een paar iteraties en ik wed dat dit komt door een te grote divergentie van haplotypes.

Is er een andere manier om een genoom met dergelijke eigenschappen te polijsten, is er bijvoorbeeld een manier om lange reads op haplotype te scheiden, zodat ik met slechts één haplotype zou kunnen polijsten?

Twee antwoorden:

roblanf

2017-05-22 08:36:12 UTC

view on stackexchange narkive permalink

Een paar mogelijkheden:

Falcon

Probeer falcon en falcon-unzip. Deze zijn precies ontworpen voor uw probleem en uw gegevens: https://github.com/PacificBiosciences/FALCON

Niet Falcon

Als je denkt dat je haplotypes hebt verzameld (wat redelijk lijkt te verwachten bij voldoende dekking), zou je de twee haplotypes moeten kunnen zien door gewoon alle paarsgewijze uitlijningen van je contigs te doen. Haplotypes zouden moeten verschijnen als paren contigs die VEEL meer op elkaar lijken (zelfs met veel divergentie tussen haplotype) dan andere paren. Zodra u al deze paren heeft, kunt u er eenvoudig een van elk paar selecteren om te polijsten.

Ik heb inderdaad beide haplotype-sequenties. Ik kreeg ze met behulp van de tool [haplomerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). Maar deze tool produceert een chimere haploïde assemblage, daarom zijn het niet echt correct gefaseerde haplotypes. Falcon-unzip is inderdaad software die zou kunnen werken. Het was toen te jong om het te proberen, maar ik zou het nu nog een kans kunnen geven.

gringer

2017-05-22 13:12:38 UTC

view on stackexchange narkive permalink

U kunt ook een kijkje nemen op Canu. Het is ontworpen voor assemblage die lang wordt gelezen (zowel PacBio als Nanopore), hoewel niet specifiek voor complexe populatie-sequencing. Het probeert een genoom te strippen in zijn unieke componenten, en genereert paden van die componenten die goed ondersteund worden door de reads.

Met betrekking tot polijsten lijkt het zo te zijn dat polijsten niet convergeren, en er zullen veel varianten zijn die alleen tussen twee mogelijkheden oscilleren. Voor mij en tenminste één andere persoon bij London Calling dit jaar, was er in principe geen winst in nauwkeurigheid bij het polijsten na de derde iteratie. Ik gebruikte mijn eigen foutcorrectie-algoritme, maar zij gebruikten het meer "standaard" polijsten met Pilon. Voor wat het waard is, gebruikte het WGS-consortium met nanogaatjes Racon voor het polijsten van hun Canu-assemblages.

Ik heb het genoom eigenlijk geassembleerd met Canu, ik heb ~ 2x haploïde grootte van het genoom, die ik heb samengevouwen tot haplotypes met behulp van [HaploMerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). weet dat de vergadering wereldwijd goed is. Het moet gewoon gepolijst worden.

Oh ja. Sorry, ik keek naar het eerste antwoord en ging ervan uit dat dit alleen maar om montage ging. Ik realiseer me nu dat de vraag * polijsten * was, in plaats van montage.

@gringer Ik probeerde ook een zeer heterozygote genoomassemblage (gegenereerd door canu) te polijsten met behulp van Racon (Quiver zou haplotypes laten instorten), maar ik kon geen bevredigende output krijgen (in feite zijn er geen statistieken veranderd). enig advies?

Mijn algemene aanbeveling op dit moment zou zijn om nanopolish in methyleringsmodus te gebruiken om te corrigeren, waarna Pilon met Illumina leest om * alleen * de homopolymeerfragmenten te corrigeren (d.w.z. geen SNP-correctie en geen lange-afstands-steigers). Gebaseerd op dit: https: //github.com/rrwick/Basecalling-comparison#methylation

ⓘ

Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.

info - legalese