Vraag:
Kleinste groepsgrootte voor differentiële expressie in limma (bulk RNA-Seq)
gc5
2018-05-24 19:30:03 UTC
view on stackexchange narkive permalink

Ik lees Smyth et al. (ref. 1). Ik wil differentiële expressie-analyse uitvoeren op een bulk RNA-Seq-gegevensset waarin elke groep is samengesteld uit 2 monsters. In de eerder geciteerde paper staat geschreven dat:

Genen moeten worden uitgedrukt in ten minste één groep (of in ten minste drie steekproeven over het hele experiment, waarbij drie als deze is de kleinste groepsgrootte ) die moet worden bewaard voor stroomafwaartse analyse.

Is het mogelijk om limma DE-analyse ook te gebruiken met groepen die uit slechts 2 monsters bestaan? NB. Het is mogelijk dat in deze specifieke dataset de kleinste groepsgrootte 3 is.

Zo nee, welk alternatief moet ik gebruiken?

Update

Ik heb 17 voorbeelden . Mijn idee is om de ene groep te testen versus de rest van de groepen (allemaal samen). De referentiegroep zou dus tenminste uit> 10 monsters bestaan. Wat kan in dit geval een haalbare analyse zijn voor DE?

  1. Smyth, GK, Law, CW, Alhamdoosh, M., Su, S. & Ritchie, ME RNA-seq analyse is eenvoudig als 1-2-3 met limma, Glimma en edgeR. F1000Research 5, 1408 (2016).
Twee antwoorden:
llrs
2018-05-24 19:43:57 UTC
view on stackexchange narkive permalink

Het probleem met de meeste methoden is dat de variantie van het gen voor elke groep wordt gebruikt, die niet kan worden berekend (betrouwbaar) als het monster < = 2 is. Statistisch gezien zou het ook een extreem laag vermogen hebben, dus de conclusies waren niet veel te vertrouwen.

U kunt de "ruwe" fold-verandering ook zelf berekenen (dwz zonder de variantie-schatting en aanpassing). Als u nog een steekproef per groep had, zou u DESeq2 kunnen gebruiken, wat in dergelijke gevallen werd gedacht. Maar uit het papier:

Als er echter twee of minder replica's zijn voor een aandoening, dragen deze monsters niet bij aan de detectie van uitbijter, aangezien er onvoldoende replica's zijn om de uitbijterstatus te bepalen.

Dat maakt me onzeker of het goed zal werken voor slechts twee monsters, omdat het niet helpt om uitschieters genen te detecteren.

Bedankt. Ik heb mijn vraag bijgewerkt. In het bijzonder dacht ik erover om uw suggestie te gebruiken en gewoon de ruwe vouwwisseling te nemen. Is het correct om genen te nemen die als uitschieters worden beschouwd (bijv.> 3 StD) bij het vergelijken van de groep met de rest van de monsters?
Het probleem met zo weinig monsters is dat het moeilijk is om te weten wat een uitbijter is en wat het "normaal" is. Als je 2 tegen 15 vergelijkt, heb je nog steeds twee problemen. 1) je moet nog steeds de variantie berekenen voor de groep van 2, die hetzelfde probleem heeft als aanvankelijk en 2) de vergelijking zal zinvol zijn? Als je ze als verschillende groepen beschouwt, heeft dat een reden, als je ze mengt, zal het je helpen te begrijpen wat de verschillen tussen hen zijn?
U zou de monsters en de relevante gegevens over deze monsters kunnen laten zien (welke groepen, horen ze, of het biologische of technische replica's zijn of de verschillen tussen de condities, ...) om u beter te helpen.
De dataset die ik gebruik, is deze op GEO (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE109125). Er is nog geen citaat en ik heb in de metadata niet gevonden of het biologische of technische replica's zijn. Ik denk echter dat het biologische replica's zijn. De groep is het eerste deel van de voorbeeldnaam (vóór het '#'-teken). De volledige genormaliseerde matrix kan hier worden gedownload: ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE109nnn/GSE109125/suppl/GSE109125%5FGene%5Fcount%5Ftable%2Ecsv%2Egz
Dit klinkt misschien voor de hand liggend, maar kun je in het antwoord enige context geven over waarom de variantie niet betrouwbaar kan worden berekend als de steekproef <= 2 is?
@gc5 Met minder dan 2 heb je geen variantie, en met slechts 2 is het niet goed genoeg, omdat het wordt bepaald door het verschil tussen de punten en het gemiddelde, en als je nog een punt toevoegt, voeg je 33% meer gegevens toe! Maar dat zou een goede vraag zijn voor stats.SE, die een redelijker en gedetailleerder antwoord zou kunnen geven dan ik: \
heathobrien
2018-05-24 21:07:56 UTC
view on stackexchange narkive permalink

Hoewel ik Llopis 'bezorgdheid deel over het schatten van variantie op basis van twee steekproeven, gaat de bewering die je citeerde over het vermijden van valse positieven van genen die slechts in enkele steekproeven tot expressie worden gebracht. Het is vrij gebruikelijk om genen uit te sluiten die tot expressie komen in minder monsters dan de kleinste groep, zelfs als het aantal monsters per groep veel hoger is dan 3.

Goed punt, bedankt. Ik denk ook dat de zin dat in dit specifieke geval betekende.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 4.0-licentie waaronder het wordt gedistribueerd.
Loading...