Vraag:
Genenset-verrijkingsanalyse op differentiële fosforyleringssites
CloudyGloudy
2017-05-31 23:06:26 UTC
view on stackexchange narkive permalink

Ik heb:

  • Een lijst van differentieel gefosforyleerde sites in een knock-out-toestand. Sommige genen bevatten maar liefst 70 mogelijke fosforyleringsplaatsen; andere bevatten er maar één.
  • Een lijst met genen die tot een specifieke genenset-annotatie behoren.

Hoe kan ik de differentieel gefosforyleerde eiwitten testen om deze te verrijken? annotatie?

Een paar ideeën die ik heb overwogen:

  1. Negeer het aantal fosforyleringsgebeurtenissen dat in een gen is gedetecteerd en tel het gen eenvoudig als differentieel gefosforyleerd als het bevat ten minste een enkele site die differentieel is gefosforyleerd. Vergelijk de verrijkingsscore voor deze geselecteerde set met de verrijkingsscore voor de set genen die ten minste één site bevatten die niet differentieel is gefosforyleerd. Het probleem hier is dat genen met een groot aantal fosforyleringsplaatsen bijna geen invloed hebben op de verrijkingsscore, aangezien het vrijwel zeker is dat ze ten minste één plaats hebben die differentieel gefosforyleerd is en ten minste één die dat niet is.
  2. Markeer elke kandidaat-fosforyleringsplaats als "in de set" of "niet in de set" op basis van het eiwit waarin het wordt aangetroffen. Voer vervolgens de verrijkingsanalyse uit met behulp van de reeks geannoteerde fosforyleringssites in plaats van de traditionele verrijkingsanalyse die op genniveau wordt uitgevoerd. Het mogelijke probleem met deze benadering is dat het te veel invloed kan uitoefenen op genen met veel potentiële fosforyleringsplaatsen.
  3. Verzamel alle kandidaat-fosforyleringsplaatsen binnen een gen en gebruik een numerieke drempel om te bepalen of het gen differentieel gefosforyleerd is of niet. (Er zijn verschillende manieren waarop dit kan worden gedaan.) Voer vervolgens een verrijkingsanalyse uit met behulp van de resulterende reeks differentieel gefosforyleerde genen. Een mogelijk probleem hier is dat sommige van de fosforyleringsplaatsen functioneel belangrijker kunnen zijn dan andere, dus het is niet duidelijk hoe het relatieve belang van individuele fosforyleringsplaatsen binnen een gen moet worden gewogen.

Ik realiseer me het doel is hier niet wiskundig goed gedefinieerd; Ik ben vooral benieuwd welke aanpak het meest zinvol is gezien de biologische context. Van de bovenstaande benaderingen neig ik momenteel naar benadering 2 omdat deze eenvoudig te implementeren is en ten minste probeert rekening te houden met het variabele aantal fosforyleringsgebeurtenissen binnen een gen.

OPMERKING: ik heb ook genormaliseerde hoeveelheden fosfoproteïne en eiwit voor al deze sites, verkregen uit massa-spec. Dus als de oplossing een alternatieve methode vereist om differentiële fosforylering te berekenen, is dat prima.

Een antwoord:
Iakov Davydov
2017-05-31 23:35:14 UTC
view on stackexchange narkive permalink

Uw dataset ziet er perfect uit voor de SUMSTAT -verrijkingstest.

  1. U moet een statistiek bedenken die uw gen vertegenwoordigt. De eenvoudigste ideeën hier zijn het aantal sites of, waarschijnlijk beter, een deel van de gefosforyleerde sites.
  2. Nu kun je een statistiek berekenen voor elke genenset, bijvoorbeeld de som (SUMSTAT). U kunt ook gemiddelde, som van kwadraten of iets anders hebben.
  3. Krijg een nulverdeling van uw genensetstatistieken door permutaties. U kunt statistieken voor genen willekeurig maken, of gewoon willekeurig gefosforyleerde sites over het genoom toewijzen, waarbij u het totale aantal sites behoudt.

Nu kunt u de p-waarde berekenen door uw waarde te vergelijken met de nulwaarde. -distributie.

U moet op twee dingen letten:

  1. U test meerdere genensets, dwz u voert een statistische test uit voor elke genenset. Corrigeer daarom uw betekenis voor meervoudige tests. Ik raad aan hiervoor FDR te gebruiken.
  2. Pas op voor mogelijke vooroordelen bij het uitvoeren van permutaties. De voor de hand liggende is de genlengte, d.w.z. langere genen hebben een grotere kans om ten minste één site te krijgen. Maar er kunnen andere zijn, zoals GC-inhoud, chromosomen, enz. Je kunt dit overwinnen door meer realistische permutaties te gebruiken, of door te controleren op de mogelijke correlaties. U kunt een paar ideeën opdoen over het bestrijden van vooroordelen uit dit artikel (sorry voor de zelfadvertentie).


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...