Vraag:
Hoofdletters versus kleine letters in referentiegenoom
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

Ik gebruik een referentiegenoom voor mm10-muis gedownload van NCBI en zou graag meer in detail het verschil willen begrijpen tussen kleine letters en hoofdletters, die ongeveer gelijke delen van het genoom vormen. Ik begrijp dat N wordt gebruikt voor 'harde maskering' (gebieden in het genoom die niet konden worden samengesteld) en kleine letters voor 'zachte maskering' in herhalende regio's.

  1. Wat betekent deze zachte maskering eigenlijk? gemeen?
  2. Hoe zeker kan ik zijn over de volgorde in deze regio's?
  3. Wat vertegenwoordigt een kleine letter n?
Drie antwoorden:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

Wat betekent deze zachte maskering eigenlijk?

Veel van de sequenties in genomen zijn repetitief. Het menselijk genoom heeft bijvoorbeeld (ten minste) tweederde repetitieve elementen [1].

Deze zich herhalende elementen worden zacht gemaskeerd door de hoofdletters om te zetten in kleine letters. Een belangrijke use-case van deze soft-gemaskeerde basen zal zijn bij homologie-zoekopdrachten: een atatatatatat zal de neiging hebben om zowel in menselijke als muis genomen te verschijnen, maar is waarschijnlijk niet-homoloog.

Hoe zeker kan ik zijn over de volgorde in deze regio's?

Zoals je kunt doen in posities zonder zachte maskers. Zachte maskering wordt gedaan na het bepalen van delen in het genoom die waarschijnlijk repetitief zijn. Het is niet onzeker of een bepaalde basis 'A' of 'G' is, alleen dat het deel uitmaakt van een herhaling en daarom moet worden weergegeven als een 'a'.

Wat betekent een kleine letter n represent?

UCSC gebruikt Tandom Repeat Finder en RepeatMasker voor het zacht maskeren van potentiële herhalingen. NCBI gebruikt waarschijnlijk TANTAN. 'N's vertegenwoordigen geen sequentie-informatie die beschikbaar is voor die basis. Het vervangen door 'n' is waarschijnlijk een artefact van de software voor herhaalmaskering waar het een 'N' zacht maskeert door een 'n' om aan te geven dat een deel van het genoom waarschijnlijk ook een herhaling is.

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

Informatief antwoord, maar ik denk dat het controversieel is om te zeggen dat het menselijk genoom "(ten minste) tweederde repetitieve elementen" is; de P-clouds-methode die u aanhaalt, is vrij tolerant en de helft is een meer algemeen aanvaarde waarde. En soft-masking houdt niet in dat alle herhalingen in het algemeen worden gemaskeerd, alleen tussenliggende herhalingen en reeksen met een lage complexiteit. Er is ook altijd onzekerheid over de basisoproep en het bouwen van assemblages, en meer nog voor repetitieve sequenties, hoewel mm10 natuurlijk een van de beste assemblages is ...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

Het gebruik van kleine / hoofdletters en N / n letters in genomensequenties is niet volledig gestandaardiseerd en u moet altijd de specificatie van de bron die u gebruikt controleren .

Kleine letters worden meestal gebruikt om 'soft-masked sequences' weer te geven, een conventie die populair is gemaakt door RepeatMasker, waarbij herhalingen tussen elkaar worden weergegeven (die transposons, retrotransposons en bewerkte pseudogenen omvat) en sequenties met een lage complexiteit zijn gemarkeerd met kleine letters. Merk op dat grotere herhalingen, zoals aanzienlijke tandemherhalingen, segmentale duplicaties en duplicaties van hele genen over het algemeen niet worden gemaskeerd.

Er zijn echter andere toepassingen voor kleine / hoofdletters, bijvoorbeeld Ensembl hebben hoofdletters / kleine letters gebruikt om respectievelijk exonische en intronische sequenties weer te geven.

N en n nucleotiden kunnen 'hard masked sequences' vertegenwoordigen ”, Waar afwisselende herhalingen en reeksen met lage complexiteit worden vervangen door N s. Maar N / n s kunnen ook dubbelzinnige nucleotiden vertegenwoordigen, dit is inderdaad de IUPAC -specificatie.

Merk ook af en toe op ( hoewel gelukkig zelden) X / x wordt ook gebruikt om dubbelzinnige nucleotiden of "hard-gemaskeerde sequenties" weer te geven.

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. Nucleotiden met kleine letters duiden gewoonlijk een zachte gemaskeerde sequenties aan. Hoe het genoom precies werd gemaskeerd, kunt u vinden in de FAQ van NCBI:

Zijn repetitieve sequenties in eukaryote genomen gemaskeerd?

Herhalende sequenties in sequentiebestanden van eukaryote genoomassemblages, zoals geïdentificeerd door WindowMasker, zijn gemaskeerd in kleine letters.

De locatie en identiteit van de gevonden herhalingen door RepeatMasker worden ook geleverd in een apart bestand. Deze overspanningen zouden, indien gewenst, kunnen worden gebruikt om de genomische sequenties te maskeren. Houd er echter rekening mee dat veel minder bestudeerde organismen geen goede herhalingsbibliotheken beschikbaar hebben die RepeatMasker kan gebruiken.

  1. IMHO, regio's met een lage complexiteit zijn het is altijd waarschijnlijker dat ze niet in elkaar worden gezet dan sequenties met een hoge complexiteit. Dit zal echter een probleem zijn voor niet-modelorganismen. Ik vermoed dat de betrouwbaarheid van de gebieden met zachte maskers van het muizengenoom erg hoog zal zijn.

  2. Geen idee, lijkt op een artefact.

  3. ol >

    Een voorbeeld van het gebruik van het zachte masker

    Het in kaart brengen van sequenties naar referentie begint meestal met perfecte overeenkomsten van zaden (substrings) van de in kaart gebrachte reads en de referentiesequentie. Zacht gemaskeerde (lage complexiteit) gebieden worden niet gebruikt voor lucifers van zaden, maar ze worden alleen gebruikt voor de verlenging van de uitlijning als er een zaadje in een aangrenzend gebied was. Deze toepassing van softmasking toegepast op het probleem van assemblage van lang lezen wordt beschreven in deze blog.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...