Vraag:
Hoe kan ik een lang gelezen assembly verbeteren met een repetitief genoom?
gringer
2017-05-25 16:46:36 UTC
view on stackexchange narkive permalink

Ik probeer momenteel een genoom samen te stellen van een knaagdierparasiet, Nippostrongylus brasiliensis . Dit genoom heeft wel een bestaand referentiegenoom, maar is sterk gefragmenteerd. Hier zijn enkele continuïteitsstatistieken voor de steigers van het huidige Nippo-referentiegenoom (samengesteld uit Illumina reads):

  Totale sequenties: 29375 Totale lengte: 294.400206 Mb Langste sequentie: 394.171 kb Kortste sequentie: 500 b Gemiddelde lengte: 10.022 kbMedian Lengte: 2.682 kbN50: 2024 sequenties; L50: 33.527 kbN90: 11638 sequenties; L90: 4.263 kb  

Dit genoom is hoogstwaarschijnlijk moeilijk te assembleren vanwege de zeer repetitieve aard van de genomische sequenties. Deze repetitieve reeksen zijn er in (ten minste) drie klassen:

  1. Tandemherhalingen met een herhaaleenheid -lengte groter dan de leeslengte van Illumina-sequencers (bijv. 171 bp)
  2. Tandemherhalingen met een cumulatieve lengte groter dan de fragmentlengte van Illumina-sequencers, of de sjabloonlengte voor gekoppelde leesbewerkingen (bijv. 20kb)
  3. Complex (dwz niet- repetitieve) sequentie die op meerdere plaatsen in het genoom voorkomt

Canu lijkt redelijk goed om te gaan met de eerste twee soorten herhalingen, ondanks de overvloed aan repetitieve structuur in het genoom. Hier is de samenvatting die door Canu is gemaakt op een van de vergaderingen die ik heb geprobeerd. Merk op dat ongeveer 30% van de reads ofwel een overspanning of een lange herhaling bevat:

  categorie leest% read length feature size of dekkingsanalyse -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- midden ontbreekt 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (slecht trimmen) midden -bult 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (slecht trimmen) no-5-prime 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (slecht trimmen)
no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (slecht trimmen) lage dekking 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (eenvoudig te monteren, potentieel voor consensus van mindere kwaliteit) uniek 636875 60,76 6240,20 + - 3908,44 25,22 + - 8,49 (eenvoudig te monteren, perfect, ja) herhaal-vervolg 48398 4,62 4099,55 + - 3002,72 335,54 + - 451,43 (potentieel voor consensusfouten, geen impact op montage) herhalingsduif 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (moeilijk te monteren, zal waarschijnlijk niet correct of zelfs helemaal niet monteren) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (lees overspant een grote herhaling, meestal eenvoudig te monteren) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (moet uniek geplaatst zijn, laag potentieel voor consensusfouten, geen impact op montage) uniq-repeat-dove 28248 2,70 12499 .99 + - 8446.95 (beëindigt contigs, mogelijke verkeerde montage) uniq-anchor 5721 0,55 8379,86 + - 4575,71 3166,22 + - 3858,35 (herhaal gelezen, met unieke sectie, waarschijnlijk slecht gelezen)  

Het derde type herhaling bezorgt me echter een beetje verdriet. Met behulp van de bovenstaande assembly, zijn hier de continuïteitsparameters van de geassembleerde contigs:

  Totale sequenties: 3505 Totale lengte: 322.867456 Mb Langste reeks: 1.762243 Mb Kortste reeks: 2.606 kb Gemiddelde lengte: 92.116 kb Gemiddelde lengte: 42.667 kb N50: 417 sequenties; L50: 194,126 kb N90: 1996 sequenties; L90: 35.634 kb  

Het is geen slechte assembly, zeker gezien de complexiteit van het genoom, maar ik denk dat het verbeterd kan worden door de complexe genomische herhalingen aan te pakken op de een of andere manier. Ongeveer 60 MB van de contigs in deze assembly zijn met elkaar verbonden in een enorm web (gebaseerd op de GFA-output van Canu):

60Mb linked structure from Canu GFA

De zich herhalende regio's zijn doorgaans meer dan 500 bp lang, gemiddeld ongeveer 3 kb, en ik heb ten minste één geval gezien dat een reeks van 20 kb lijkt te zijn die in meerdere regio's is gedupliceerd.

De standaardinstellingen van Canu lijken te zijn geven de beste montageresultaten voor de paar parameters die ik heb geprobeerd, met één uitzondering: trimmen. Ik heb geprobeerd een beetje te spelen met de trimparameters, en merkwaardig genoeg lijkt een trimdekking van 5X (met overlap van 500 bp) een meer aaneengesloten montage te geven dan met een trimdekking van 2X (met dezelfde overlap).

Als iemand geïnteresseerd is om deze gegevens zelf te bekijken, zijn de zogenaamde FASTQ-bestanden van Nippo-sequencing-runs hier te vinden. Ik ben nog bezig met het uploaden van de onbewerkte signaalbestanden van nanogaatjes, maar ze zullen in de komende weken beschikbaar zijn in verband met ENA-project PRJEB20824. Er is hier ook een Zenodo-archief met de GFA en montagecontigs.

Heeft iemand nog andere suggesties over hoe ik deze complexe herhalingen zou kunnen oplossen?

Ter verduidelijking: wilt u computationele oplossingen of staat u open voor het opnieuw rangschikken met behulp van specifieke technieken om de montage te verbeteren?
Computationele oplossingen zouden de voorkeur hebben, maar resequencing is niet uitgesloten.
Ik ben in de war met de vraag. Het klinkt alsof je statistieken hebt van een Illumina-assemblage, en ook gegevens van nanogaatjes die geen deel uitmaken van de gerapporteerde statistieken. Dus het voor de hand liggende antwoord lijkt te zijn om b.v. Canu + pilon (of vergelijkbaar) om een ​​betere montage te proberen door beide gegevenstypen te combineren. Maar ik vermoed dat dat niet is wat je zoekt. Kan je verduidelijken?
Ix Canu [deze assembler] (https://github.com/marbl/canu)? Wie doet de contigs van de montage met Illumina eruit? Het lijkt erop dat met nanoPore de montage veel beter is.
Ja, ik kan de Illumina-gegevens gebruiken om de Canu-assembly te corrigeren, maar dat helpt niet bij het oplossen van de "type 3" herhalingen. De regio's lijken voldoende op elkaar dat illumina-uitlezingen worden toegewezen aan meerdere punten in het genoom.
De Illumina-contigs zijn van hoge kwaliteit (d.w.z. ze hebben goede BUSCO-scores, wat wijst op weinig variantfouten), maar vrij kort. Elke snuif aan een herhaling en de contig eindigt. Ik heb meer dan een paar voorbeelden van regio's die een Illumina-read (zelfs 10x gekoppelde reads) zouden doen ineenkrimpen van angst.
Zelfs als Illumina-contigs van hoge kwaliteit zijn, betekent dit niet dat ze goed werken voor zo'n herhaald genoom.
Een antwoord:
#1
+6
user172818
2017-05-30 04:41:53 UTC
view on stackexchange narkive permalink

Je kunt 20kb bijna identieke herhalingen / segdups niet oplossen met 10kb reads. Het enige dat u kunt doen, is uw geluk inzetten op een paar te lange reads die bij toeval enkele eenheden overspannen. Voor afwijkende exemplaren is het de moeite waard om dit artikel te bekijken. Het gebruikt Illumina-reads om k-mers in unieke regio's te identificeren en negeert niet-unieke k-mers in het overlappende stadium. De paper zei dat deze strategie beter is dan het gebruik van standaard overlappers, die ik koop, maar waarschijnlijk kan het ook geen 20 kb segdup oplossen met een handvol mismatches.

Dergelijke mismatch-gebaseerde benaderingen hebben altijd beperkingen en werkt mogelijk niet voor recente segdups / herhalingen. De ultieme oplossing is om lange aflezingen te krijgen, langer dan uw herhaal / segdup-eenheden. De ~ 100 kB gelezen in de recente preprint zal een game-wisselaar voor je zijn. Als je ~ 20kb herhalingen niet tandem zijn, kunnen 10X's ~ 100kb gekoppelde reads ook helpen.

We hebben al een paar keer 100kb gelezen in onze voorbeelden, maar het lijkt erop dat we meer nodig hebben. Er is een DNA-monster naar Canberra gestuurd om de sequentie te bepalen tijdens een Nanopore-training (door een collega), dus hopelijk krijgen we daar goede lange reads uit.
"Een paar" 100kb reads zullen niet veel helpen. U moet het ultra-lange protocol toepassen, dat verschilt van het standaardprotocol.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...