Vraag:
Hoe selecteer je de meest representatieve routes uit een genverrijkingsanalyse?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

Ik heb een verrijkingsanalyse uitgevoerd op een cluster van genen. De uitvoer is een lijst met paden en hun p-waarde (de paden zijn geselecteerd omdat p-waarde < 0,05). De lijst is nog steeds vrij lang, dus ik wil deze verkleinen. Voor dat doel heb ik de dobbelsteencoëfficiënt van de paden in een matrix $ p $ x $ p $ berekend, waarbij $ p $ het aantal paden in de lijst is. Ik wil zowel degenen die meer verschillen (ze overlappen minder, hun dobbelsteencoëfficiënt is lager) en de paden die meer representatief zijn voor de meest vergelijkbare paden (dus als er een groep is van 5 paden die meer dan 0,8 overlappen, neem er dan maar één).

Hoe kan ik de paden met de meeste vertegenwoordigers selecteren?

Er is een vergelijkbare tool voor GO, maar deze geeft door over het weggooien van niet-significante GO, terwijl hier alle initiële paden al significant zijn.

Als ik een clustering van de paden doe met behulp van de Dice-coëfficiëntmatrix, weet ik niet waar (of hoe) ik moet knippen.

circular dendrogara

Ik heb geprobeerd de hoogte te gebruiken om de paden te selecteren. Maar ik ben niet zeker van de interpretatie van hoogte.

Sommige andere tools die ik heb gezien, gebruiken een multidimensionale schaalgrafiek, maar ik weet niet zeker of het uitvoeren en knippen op een bepaald punt van de eerste dimensie zou helpen. MDS plot

Gebruikt u p-waarde <0,05 of p-waarde <0,05 / (aantal geteste termen)? U wilt de eerste gebruiken om valse positieven als gevolg van meerdere tests te voorkomen
Ik vermoed dat je genoegen moet nemen met een 'redelijk goede' heuristische oplossing, aangezien er een paar verschillende variabelen zijn in het probleem dat je probeert op te lossen (aantal paden in een groep, gewenste overlap / afstand tussen paden, enz. .) Ik kan me veel mogelijke antwoorden voorstellen.
@CloudyGloudy-correctie voor meerdere tests is al gedaan, sorry dat ik het niet eerder heb genoemd. Ja, ik speelde met het idee om een ​​overlap / afstand van 0,5 te selecteren en die daarboven te houden, maar dat zou buiten de paden blijven die totaal anders zijn dan de andere, maar misschien zou ik die boven 0,75 en die onder 0,25 kunnen selecteren
Drie antwoorden:
#1
+4
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

Dit klinkt als iets dat vatbaar is voor een geclusterde heatmap-plot, een correlatiematrix-plot of iets dergelijks. Heb je gekeken naar een correlatiematrix van de dobbelsteencoëfficiëntmatrix (of misschien gewoon een heatmap-plot van die matrix zonder de correlatiematrix)?

Het corrplot -pakket ziet eruit alsof het nuttig, in het bijzonder de hclust / drawing rectangles-presentatie.

Ik kan echter niet instaan ​​voor dit pakket; het is gewoon iets dat ik heb gevonden door te zoeken naar "R-plotcorrelatiematrix".

Met een heatmap of een correlatieplot kon ik de overeenkomsten tussen de paden waarnemen, zoals ik momenteel doe met het dendrogram en de MDS-plot. De vraag is echter hoe je die meer representatieve paden kunt selecteren. Bedankt voor uw correcties en opmerkingen trouwens.
#2
+3
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

Een manier om vergelijkbare significante routes te groeperen, is door te kwantificeren hoeveel genen de routes overlappen, en dit vervolgens te gebruiken bij het clusteren (heatmap). Ik heb een tool gemaakt in R die de overlapindex tussen GO-termen berekent en deze vervolgens clustert in een heatmap. Overlapindex is de fractie van genen die elkaar overlappen (getal tussen 0-1). Ook Pearson-correlatie kan worden gebruikt voor clustering in plaats van de overlap-index. Mijn pakket ( gogadget) werkt alleen met goseq-analyse, maar je kunt goseq ook gebruiken voor reactome- of kegg-gegevens.

Ik heb deze overlapclustering gebruikt benadering voor verschillende datasets nu, en gewoonlijk kunnen we 200-300 GO-termen terugbrengen tot 10-20 functionele groepen.

Welke overlappingsindex gebruikt het? Er zijn verschillende overlappingsindexen. Ik zou het gebruik van deze benadering in GO afraden, er zijn specifieke methoden om te meten hoe vergelijkbaar twee GO-termen zijn. Zie [GOSemSim] (www.bioconductor.org/packages/GOSemSim/).
De overlapindex wordt bepaald door het aantal overlappende genen gedeeld door het aantal genen in de kleinste van de twee genensets. Het wordt beschreven in [Bioconductor Case studies] (http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf), hoofdstuk 13.3. Dit boek is geschreven door grote namen in de bio-informatica (zoals R. Gentleman en W. Huber).
Bedankt voor de nieuwe overlappingsindex, ik wist het niet. Tussen haakjes, de manier waarop deze gelijkenis tussen genen wordt berekend, is het gebruik van andere overlappingsindexen, dus dit zal niet helpen.
Oké, maar mijn punt is niet welke index ik moet gebruiken, maar de clusteringbenadering (hetzelfde als [gringer] (https://bioinformatics.stackexchange.com/users/73/gringer) suggereert). Als je in de [userguide] (https://sourceforge.net/projects/gogadget/files/gogadget.2.1/) van mijn pakket op pagina 26-28 kijkt, zie je een heatmap. Meestal behaal ik goede resultaten met Ward.D en Euclidean. De boom kan worden gekapt in R, maar je wilt misschien eerst zien en evalueren welke genensets in welke takken zijn geclusterd voordat je de juiste cutoff kunt vinden.
Sorry, mijn laatste opmerking dacht aan een andere vraag. Ja, deze aanpak zou kunnen werken
#3
+2
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

Als u tevreden bent met een meer zelfverzekerde rangschikking van de meest representatieve genensets, in plaats van de lijst noodzakelijkerwijs te verkleinen, kunt u EGSEA proberen. Het maakt gebruik van een ensemble-benadering om een ​​rangorde te geven van de meest relevante genensets, en produceert ook een interactieve HTML-output met statistieken, heatmaps, pathway-kaarten, samenvattingsplots en GO-grafieken waarmee je de output op verschillende niveaus van granulariteit kunt onderzoeken.

Je kunt de paper lezen op bioRxiv of het pakket downloaden van Bioconductor.

De rangschikking is al gedaan, via de p-waarde (je zou kunnen stellen dat een meer uitgebreide test zoals voorgesteld door EGSEA beter zou zijn), maar dit lijkt geen antwoord te geven op hoe je relevante paden kunt selecteren uit de output van EGSEA of andere software. / tools / methodes
Je zou niet moeten rangschikken op p-waarde. De p-waarde is slechts een indicatie of de waargenomen verandering statistisch significant is, niet een indicatie van de omvang van de waargenomen verandering.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...