Vraag:
Hoe overlappende genen tussen twee genoomannotatieversies te berekenen
holmrenser
2017-05-17 16:51:45 UTC
view on stackexchange narkive permalink

Ik heb twee annotaties van hetzelfde genoom gegenereerd met verschillende annotatiepijplijnen. Ik wil overlappende genmodellen identificeren.

Een belangrijk kenmerk van dit genoom is dat er veel 'genen binnen genen' zijn, d.w.z. een genmodel in het intron van een ander genmodel . Daarom wil ik alleen twee genmodellen als overlappend tellen wanneer hun coderende sequentie exon-annotaties elkaar overlappen.

Met iets als bedtools intersect is het eenvoudig om de overlap tussen de gen-level annotaties te berekenen .

Maar: ik weet niet zeker hoe genen moeten worden geselecteerd als overlappend wanneer alleen hun coderende sequentie-exons (CDS-kenmerken) overlappen.

Waarom haalt u de coördinaten van uw CDS-regio's niet uit uw bed / gff-bestanden, en kruisen de bedtools elkaar dan?
Dat zou me nog steeds alleen achterlaten met de overlappende CDS-functies. Uiteindelijk wil ik de _genes_ kennen. Waarom schrijft u uw opmerking niet in een antwoord?
Een antwoord:
#1
+6
Gus
2017-05-17 19:56:36 UTC
view on stackexchange narkive permalink

Kort antwoord: naar mijn mening zou mijn aanpak zijn om de CDS-exons eruit te halen en daar bedtools op uit te voeren.

Nog een paar details: als je de exons eruit haalt, zorg er dan voor dat je ze allemaal ID's toewijst als ze nog niet zijn toegewezen en noteer welke ID's "horen" naar welke genen. Als je exonen krijgt die elkaar overlappen, weet je dat ze coderen en kun je ze terug koppelen aan de genen waar ze vandaan komen.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...