Vraag:
Feature annotatie: RefSeq vs Ensembl vs Gencode, wat is het verschil?
Plasma
2017-05-17 00:24:16 UTC
view on stackexchange narkive permalink

Wat zijn de feitelijke verschillen tussen verschillende annotatiedatabases?

Mijn lab geeft, om redenen die mij nog onbekend zijn, de voorkeur aan Ensembl-annotaties (we werken met het schatten van transcript / exon-expressies), terwijl sommige software wordt geleverd met RefSeq-annotaties. Zijn er vandaag significante verschillen tussen hen, of zijn ze, in alle opzichten, onderling uitwisselbaar (bijv. Zijn exon-coördinaten tussen RefSeq- en Ensembl-annotaties onderling uitwisselbaar)?

Vijf antwoorden:
#1
+23
Mitra
2017-05-17 14:34:08 UTC
view on stackexchange narkive permalink

Om toe te voegen aan rightskewed antwoord: Hoewel het waar is:

Gencode is een aanvullende set annotaties (de handmatige die door Havana is gemaakt en een geautomatiseerde door Ensembl ),

de annotatiebestanden (GTF) zijn vrij gelijkaardig op een paar uitzonderingen na met betrekking tot het X-chromosoom en Y-par en aanvullende opmerkingen in het Gencode-bestand (zie voor meer informatie FAQ - Gencode ).

Wat zijn de feitelijke verschillen tussen verschillende annotatiedatabases?

Het zijn een paar verschillen, maar de belangrijkste voor mij (en het kan stom zijn) is

dat Refseq is ontwikkeld door de Amerikaanse NCBI en

de ENSEMBL is voornamelijk ontwikkeld door de Europese EMBL-EBI.

Vaak zullen labs of mensen gewoon gaan gebruiken wat hen het meest bekend is (vanwege een cursus of workshop) of omdat ze gaan werken met een van de databases met één specifieke tool en blijf er later bij.

Mijn lab, om nog onbekende redenen ik, geeft de voorkeur aan Ensembl-annotaties (we werken met het schatten van transcript / exon-expressies), terwijl sommige software wordt geleverd met RefSeq-annotaties.

Je lab bestaat misschien voornamelijk uit mensen in Europa of misschien hebben ze ook lees kranten zoals die van Frankish et al. Vergelijking van GENCODE en RefSeq-genannotatie en de impact van referentiegenenet op varianteffectvoorspelling. BMC Genomics 2015; 16 (Suppl 8): S2 - DOI: 10.1186 / 1471-2164-16-S8-S2

Van de Frankish et al. paper paper:

De GENCODE Comprehensive transcripten bevatten meer exonen, hebben een grotere genomische dekking en leggen veel meer varianten vast dan RefSeq in zowel genoom- als exoomdatasets, terwijl de GENCODE Basic-set een hogere mate van overeenstemming met RefSeq en heeft minder unieke kenmerken.

Wat betreft:

Zijn er vandaag significante verschillen tussen beide, of zijn ze, in alle opzichten, onderling uitwisselbaar (zijn exon-coördinaten tussen RefSeq- en Ensembl-annotaties bijvoorbeeld onderling uitwisselbaar)?

Nee. Ik denk niet dat het grote verschillen tussen hen zijn, omdat het globale plaatje hetzelfde moet blijven (hoewel je andere resultaten zult zien als je geïnteresseerd bent in een kleine set genen). ze zijn echter niet rechtstreeks uitwisselbaar . Vooral omdat er veel versies van Ensembl en Refseq zijn gebaseerd op verschillende genoomannotaties (en die zijn in de meeste gevallen ook niet onderling uitwisselbaar).

U kunt echter gemakkelijk vertalen de meeste [1] van uw Refseq-ID's naar ENSEMBL-ID's en vice versa met tools als http://www.ensembl.org/biomart/martview bijvoorbeeld (er zijn ook speciale bibliotheken / API's zoals Biocondutor: biomaRt

[1] Meestal zoals soms, kunnen ze worden geannoteerd in een van de databases, maar hebben ze (nog) geen equivalent in de andere.

BEWERKEN

Goed, zelfs als mensen de neiging hebben zich te houden aan wat ze gewend zijn (en dat de annotaties voortdurend worden uitgebreid en gecorrigeerd), afhankelijk van het onderzoeksonderwerp men zou geïnteresseerd kunnen zijn in het gebruik van de ene database boven de andere:

Van Zhao S, Zhang B.Een uitgebreide evaluatie van ensembl-, RefSeq- en UCSC-annotaties in de context van RNA-seq read mapping en gen kwantificering.BMC Genomics.2015; 1 6: 97. paper:

Bij het kiezen van een annotatiedatabase, moeten onderzoekers in gedachten houden dat geen enkele database perfect is en dat sommige genannotaties onnauwkeurig of helemaal verkeerd kunnen zijn. [..] Wu et al. [27] suggereerde dat bij het uitvoeren van onderzoek dat de nadruk legt op reproduceerbare en robuuste schattingen van genexpressie, een minder complexe genoomannotatie, zoals RefGene, de voorkeur zou kunnen hebben. Bij het uitvoeren van meer verkennend onderzoek zou een meer complexe genoomannotatie, zoals Ensembl, moeten worden gekozen.

[.. ]

[27] Wu P-Y, Phan JH, Wang MD. Beoordeling van de impact van annotatiekeuze van het menselijk genoom op schattingen van RNA-seq-expressie. BMC Bioinformatics. 2013; 14 (suppl 11): S8. doi: 10.1186 / 1471-2105-14-S11-S8.

#2
+11
rightskewed
2017-05-17 07:29:24 UTC
view on stackexchange narkive permalink

Ensembl vs Gencode

https://www.gencodegenes.org/faq.html

De GENCODE-annotatie wordt gemaakt door samen te voegen de handmatige genannotatie van Havana en de geautomatiseerde genannotatie van Ensembl. [...] In praktische termen is de GENCODE-annotatie identiek aan de Ensembl-annotatie.

Verder, voor de GTF-bestandsverschillen:

De enige uitzondering is dat de genen die gemeenschappelijk zijn voor de menselijke chromosoom X- en Y PAR-regio's twee keer in de GENCODE GTF kunnen worden gevonden, terwijl ze alleen voor chromosoom X in het Ensembl-bestand worden weergegeven.

Gencode (Ensembl) vs RefSeq

Gencode is in bijna alle gevallen uitgebreider. Dit is bijvoorbeeld NCBI RefSeq vs Ensembl (v24, release 83) voor BRCA-gen: enter image description here

RefSeq en Gencode zijn in de meeste gevallen niet uitwisselbaar, hoewel RefSeq-annotaties dat wel doen zijn vaak een subset van de Gencode-versies.

Hoe maakt de BRCA-screenshot uw punt? Het is op het eerste gezicht niet erg duidelijk (althans voor mij)
#3
+6
Ian Sudbery
2017-05-17 18:34:35 UTC
view on stackexchange narkive permalink

Om praktisch advies toe te voegen aan wat anderen hebben gezegd:

In praktische zin denk ik dat het grootste verschil tussen RefSeq en Ensembl / GENCODE zit in de afweging tussen gevoeligheid en specificiteit.

Ensembl streeft meer naar het inclusieve doel, inclusief een veel groter aantal transcriptievarianten, waarvan er vele slechts zwak worden ondersteund.

RefSeq ruilt een deel van deze gevoeligheid in voor specificiteit - dat kan heb er meer vertrouwen in dat er een RefSeq-transcript bestaat, maar minder zeker dat de ReqSeq-annotatie alle echte transcripten voor een gen bevat.

Daarom geef ik de voorkeur aan de Ensembl-annotatie, omdat je naar een meest zelfverzekerde set kunt zoeken door alleen de transcripties van Havana (Havana of Ensembl / Havana) te selecteren. Zie: http://www.ensembl.org/Help/Faq?id=152
#4
+1
Zz...zZ
2017-10-04 18:52:40 UTC
view on stackexchange narkive permalink

Hoewel annotaties tussen RefSeq en Gencode niet zo verschillend zijn in de coderende regio's (genen), is Gencode veel rijker in de intergene regio's. Dit zou zeer voordelig kunnen zijn voor epigenetische studies, waar regulering van belang is.

Hoi! Is er een publicatie of ander materiaal dat u zou kunnen koppelen met betrekking tot uw claim? Dat zou heel interessant zijn ...
#5
+1
Max
2019-08-07 15:19:05 UTC
view on stackexchange narkive permalink

De UCSC Genome Browser Genes FAQ behandelt deze vraag in detail: https://genome.ucsc.edu/FAQ/FAQgenes.html#ens

Officieel zijn de genmodellen Ensembl en GENCODE hetzelfde. Op de nieuwste genoomassemblages van mensen en muizen (hg38 en mm10) zijn de identificatoren, transcriptsequenties en exoncoördinaten bijna identiek tussen equivalente Ensembl- en GENCODE-versies (met uitzondering van alternatieve sequenties of fixsequenties).

GENCODE gebruikt de UCSC-conventie om chromosoomnamen vooraf te laten gaan met "chr", bijv "chr1" en "chrM", maar Ensembl noemt deze "1" of "MT". Op het moment van schrijven (Ensembl 89) verschillen een aantal transcripties vanwege conversieproblemen. Bovendien worden ongeveer 160 PAR-genen gedupliceerd in GENCODE, maar slechts één keer in Ensembl. De verschillen zijn van invloed op minder dan 1% van de transcripties. Afgezien van de genannotatie zelf, verschillen de links naar externe databases.

De GENCODE Release History toont de releasedatums en kan worden gekoppeld aan overeenkomstige Ensembl-releases. U kunt de gentranscriptiemodellen downloaden van de website https://gencodegenes.org of van http://ensembl.org. Voor de meeste toepassingen zouden de bestanden die op de GENCODE-website worden verspreid gemakkelijker te gebruiken moeten zijn, aangezien de databasekoppelingen van derden gemakkelijker te ontleden zijn en de sequentie-identificatoren overeenkomen met de UCSC-genoombestanden, althans voor de primaire chromosomen.

Aanvullende informatie over deze vraag is te vinden op de GENCODE FAQ-pagina.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...