Hoe overlappende genen tussen twee genoomannotatieversies te berekenen

holmrenser

2017-05-17 16:51:45 UTC

view on stackexchange narkive permalink

Ik heb twee annotaties van hetzelfde genoom gegenereerd met verschillende annotatiepijplijnen. Ik wil overlappende genmodellen identificeren.

Een belangrijk kenmerk van dit genoom is dat er veel 'genen binnen genen' zijn, d.w.z. een genmodel in het intron van een ander genmodel . Daarom wil ik alleen twee genmodellen als overlappend tellen wanneer hun coderende sequentie exon-annotaties elkaar overlappen.

Met iets als bedtools intersect is het eenvoudig om de overlap tussen de gen-level annotaties te berekenen .

Maar: ik weet niet zeker hoe genen moeten worden geselecteerd als overlappend wanneer alleen hun coderende sequentie-exons (CDS-kenmerken) overlappen.

Waarom haalt u de coördinaten van uw CDS-regio's niet uit uw bed / gff-bestanden, en kruisen de bedtools elkaar dan?

Dat zou me nog steeds alleen achterlaten met de overlappende CDS-functies. Uiteindelijk wil ik de _genes_ kennen. Waarom schrijft u uw opmerking niet in een antwoord?