Ik heb twee annotaties van hetzelfde genoom gegenereerd met verschillende annotatiepijplijnen. Ik wil overlappende genmodellen identificeren.
Een belangrijk kenmerk van dit genoom is dat er veel 'genen binnen genen' zijn, d.w.z. een genmodel in het intron van een ander genmodel . Daarom wil ik alleen twee genmodellen als overlappend tellen wanneer hun coderende sequentie exon-annotaties elkaar overlappen.
Met iets als bedtools intersect
is het eenvoudig om de overlap tussen de gen-level annotaties te berekenen .
Maar: ik weet niet zeker hoe genen moeten worden geselecteerd als overlappend wanneer alleen hun coderende sequentie-exons (CDS-kenmerken) overlappen.