Vraag:
Hoe kan ik structurele varianten (SV's) aanroepen vanuit pair-end short read resequencing data?
Kamil S Jaron
2017-05-18 19:28:48 UTC
view on stackexchange narkive permalink

Ik heb een referentiegenoom en nu zou ik structurele varianten willen noemen van Illumina pair-end whole genome resequencing data (insert size 700bp).

Er zijn veel tools voor SV-oproepen (ik heb hieronder een onvolledige lijst met tools gemaakt). Er is ook een tool voor het samenvoegen van SV-oproepen van meerdere methoden / voorbeelden - SURVIVOR. Is er een combinatie van methoden voor SV-detectie met een optimale balans tussen gevoeligheid en specificiteit?

Er is een benchmarking paper, waarin de gevoeligheid en specificiteit van SV-aanroepen van individuele methoden wordt geëvalueerd met behulp van een gesimuleerd paar -end leest. Er is echter geen uitwerking over de combinatie van methoden.

Lijst met tools voor het aanroepen van structurele varianten:

Ik zal gewoon een opmerking toevoegen, omdat het geen volledig antwoord is. Controleer het Genome in a Bottle-consortium. Er zijn nu discussies over hoe de beste beller (s) te bepalen en een definitie van een standaardset van oproepen voor benchmarking en het testen van nieuwe benaderingen. In mijn werk had ik goede resultaten met Socrates, nu vervangen door [GRIDSS] (https://github.com/PapenfussLab/gridss).
@nuin - Ik wist niets van het Genome in a Bottle-consortium, ziet er interessant uit, maar ik kon geen openbaar verslag van een discussie vinden. Heeft u een link?
Twee antwoorden:
#1
+6
roblanf
2017-05-19 15:18:41 UTC
view on stackexchange narkive permalink

Ik denk dat de beste methode of combinatie van methoden afhangt van aspecten van de gegevens die van de ene dataset tot de andere kunnen verschillen. Bijv. het type, de grootte en de frequentie van structurele varianten, het aantal SNV's, de kwaliteit van de referentie, contaminanten of andere zaken (bijv. leeskwaliteit, sequentiefouten) etc.

Om die reden zou ik nemen twee benaderingen:

  1. Probeer veel methoden, en kijk naar hun overlap
  2. Valideer een subset van aanroepen van verschillende methoden door middel van natte laboratoriumexperimenten - uiteindelijk is dit de enige echte manier om de nauwkeurigheid voor een bepaald geval te kennen.
Wat bedoel je met "Een subset van aanroepen van verschillende methoden valideren"?
Grappig, de review paper (sim data) is het met je eens - alle methoden hebben veel false positives - het is beter om overlap te nemen. De paper "Een geïntegreerde kaart van structurele variatie" (het antwoord van Germain) heeft echter het tegenovergestelde gedaan: elke software tweaken om valse positieven te verminderen en ze dan allemaal te nemen.
Met valideren bedoel ik: ga naar binnen en volg een aantal voorspelde varianten op. Alle bioninformatische methoden zullen veel valse positieven opleveren (en veel valse negatieven, hoewel het natuurlijk moeilijker is om de negatieven te vinden). Dus de enige echte manier om de nauwkeurigheid van uw oproepen te weten, is door onafhankelijke informatie te krijgen, bijv. van opnieuw rangschikken.
#2
+3
German Demidov
2017-05-20 13:33:59 UTC
view on stackexchange narkive permalink

Als u echt toegewijd bent aan het verkrijgen van perfecte resultaten, kunt u de strategie gebruiken die daar wordt beschreven, in 1000GP 3e fase SV-detectiedocument - gebruik deze tools, valideer uw oproepen met IRS-test, voeg oproepen samen in één callset.

Als je geen duizenden uren van mensen wilt besteden zoals tijdens deze papiervoorbereiding, is het vanuit mijn ervaring beter om 1 methode voor insteekafstand met paren en een op leesdiepte gebaseerde methode te gebruiken. Elk van hen bestrijkt "verschillende" regio's in het genoom. (zelfs als ze een enorme overlap hebben, vereist paired-end-detectie dat beide SV-breekpunten zich bevinden binnen de regio's met een goede toewijzing, wat niet altijd het geval is, maar de resolutie van leesdieptemethoden is over het algemeen lager, gepaarde uiteinden werken goed voor verwijderingen / tandem-duplicaties / inversies, maar heb problemen met niet-tandem-duplicaties).

Ik hoop dat het helpt.

Ik ging door de aanvulling van de paper, het is echt gek - het lijkt erop dat er heel weinig overlap is tussen verschillende computationele methoden, maar het False-ontdekkingspercentage is voor niet-inversiesoorten SV's redelijk goed (2 - 10%). Ze hebben echter een enorme populatiedataset gebruikt, ik heb sequencing van 9 individuen inclusief de referentie.
Ja, de overlap is nogal klein, maar dit komt vooral omdat verschillende tools op zoek zijn naar verschillende typen CNV's (zoals ik hierboven heb uitgelegd door Read Depth versus Insert Distance-gebaseerde methoden te vergelijken). Dit is de beste nauwkeurigheid die u kunt krijgen. Als u slechts 9 personen heeft, kunt u CNV's die voorkomen met een frequentie van> 1% in de populatie beter uitsluiten (zie de paper) en vervolgens bijvoorbeeld DELLY en cn.mops gebruiken (slechts een voorbeeld, niet zeker of dit een ideale keuze is, maar beiden zijn redelijk goed).


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...