Ik heb:
- Een lijst van differentieel gefosforyleerde sites in een knock-out-toestand. Sommige genen bevatten maar liefst 70 mogelijke fosforyleringsplaatsen; andere bevatten er maar één.
- Een lijst met genen die tot een specifieke genenset-annotatie behoren.
Hoe kan ik de differentieel gefosforyleerde eiwitten testen om deze te verrijken? annotatie?
Een paar ideeën die ik heb overwogen:
- Negeer het aantal fosforyleringsgebeurtenissen dat in een gen is gedetecteerd en tel het gen eenvoudig als differentieel gefosforyleerd als het bevat ten minste een enkele site die differentieel is gefosforyleerd. Vergelijk de verrijkingsscore voor deze geselecteerde set met de verrijkingsscore voor de set genen die ten minste één site bevatten die niet differentieel is gefosforyleerd. Het probleem hier is dat genen met een groot aantal fosforyleringsplaatsen bijna geen invloed hebben op de verrijkingsscore, aangezien het vrijwel zeker is dat ze ten minste één plaats hebben die differentieel gefosforyleerd is en ten minste één die dat niet is.
- Markeer elke kandidaat-fosforyleringsplaats als "in de set" of "niet in de set" op basis van het eiwit waarin het wordt aangetroffen. Voer vervolgens de verrijkingsanalyse uit met behulp van de reeks geannoteerde fosforyleringssites in plaats van de traditionele verrijkingsanalyse die op genniveau wordt uitgevoerd. Het mogelijke probleem met deze benadering is dat het te veel invloed kan uitoefenen op genen met veel potentiële fosforyleringsplaatsen.
- Verzamel alle kandidaat-fosforyleringsplaatsen binnen een gen en gebruik een numerieke drempel om te bepalen of het gen differentieel gefosforyleerd is of niet. (Er zijn verschillende manieren waarop dit kan worden gedaan.) Voer vervolgens een verrijkingsanalyse uit met behulp van de resulterende reeks differentieel gefosforyleerde genen. Een mogelijk probleem hier is dat sommige van de fosforyleringsplaatsen functioneel belangrijker kunnen zijn dan andere, dus het is niet duidelijk hoe het relatieve belang van individuele fosforyleringsplaatsen binnen een gen moet worden gewogen.
Ik realiseer me het doel is hier niet wiskundig goed gedefinieerd; Ik ben vooral benieuwd welke aanpak het meest zinvol is gezien de biologische context. Van de bovenstaande benaderingen neig ik momenteel naar benadering 2 omdat deze eenvoudig te implementeren is en ten minste probeert rekening te houden met het variabele aantal fosforyleringsgebeurtenissen binnen een gen.
OPMERKING: ik heb ook genormaliseerde hoeveelheden fosfoproteïne en eiwit voor al deze sites, verkregen uit massa-spec. Dus als de oplossing een alternatieve methode vereist om differentiële fosforylering te berekenen, is dat prima.