Vraag:
Hoe twee nul-opgeblazen bedgraph-achtige signalen te correleren?
Ian Sudbery
2017-05-17 21:52:04 UTC
view on stackexchange narkive permalink

Deze vraag heeft betrekking op iCLIP, maar het kan net zo goed ChIP-seq of ATAC-seq of mutatiefrequenties zijn.

Ik heb iCLIP-leestellingen in het transcriptoom en ik wil weten of de signalen gecorreleerd zijn - dat wil zeggen, waar een van hen hoog is, is de andere waarschijnlijk hoog.

Vaak weten we bij het omgaan met dergelijke gegevens (bijv. ICLIP-gegevens) dat de gegevens over het algemeen schaars zijn - dat wil zeggen op de meeste posities zijn beide signalen nul en dit is correct, en ook nul-opgeblazen - dat zijn veel bases die 'zouden moeten' hebben een signaal ontbreekt die gegevens. Dus alleen al het berekenen van de correlatie van de Spearman geeft waarschijnlijk een kunstmatig lage waarde.

Wat zou een manier kunnen zijn om de associatie te beoordelen? Ik moet hieraan toevoegen dat het doel is om de associatie van bindingspatronen binnen genen te beoordelen, in plaats van (of ook) tussen genen.

Dingen die ik heb bedacht:

  • Pas een soort afvlakking toe op de gegevens (bijvoorbeeld een voortschrijdend gemiddelde). Verwijder alle basen met 0 in beide monsters. Bereken de spearmans.
  • Bereken de gemiddelde paarsgewijze afstand tussen elke aflezing in voorbeeld één en elke aflezing in voorbeeld twee. Vergelijk dit met gegevens waarbij de uitlezingen binnen genen zijn gerandomiseerd.

In het eerste geval lijkt het onjuist om alle basen met 0 in beide voorbeelden te verwijderen. Maar als 99,99% van alle basen nul heeft in beide monsters, dan lijkt dit noodzakelijk voor Spearman.

In het tweede geval lijkt het resultaat niet intuïtief te zijn om te interpreteren. En ook het berekenen hiervan zou enorm rekenintensief zijn.

Vier antwoorden:
#1
+4
Devon Ryan
2017-05-17 23:04:17 UTC
view on stackexchange narkive permalink

Eerlijk gezegd zou ik hiervoor multiBigwigSummary en vervolgens plotCorrelation van deepTools gebruiken, maar ik ben een beetje bevooroordeeld. Daar zou het idee zijn om elk gen als een eenheid te beschouwen (je zou in plaats daarvan bakken kunnen gebruiken, maar ik denk niet dat dat net zo goed zou doen wat je wilt), namelijk door de tools een BED- of GTF-bestandsinvoer te geven. Het zou dan het gemiddelde signaal in elk gen / transcript berekenen en je zou de correlatie van je speerman kunnen doen. Functies met 0 in alle voorbeelden kunnen optioneel worden verwijderd ( plotCorrelation --skipZeros ).

Hoewel je zeker de hele 9 yards zou kunnen gaan en vergelijkingen per basis zou kunnen gebruiken, lijkt dat een beetje overdreven en ik vermoed dat het niet echt merkbaar meer informatie zal opleveren (vooral gezien de extra tijdoverhead).

Zie mijn toelichting. - Ik wil kijken naar de ruimtelijke patronen binnen genen, niet ertussen.
@IanSudbery Ah, goed om te weten, mijn antwoord is dan niet van toepassing.
#2
+3
rightskewed
2017-05-17 23:08:39 UTC
view on stackexchange narkive permalink

In plaats van op het basisniveau te werken, zou je waarschijnlijk kunnen werken aan bijvoorbeeld het aantal genen. Kendall's tau, een ordinale associatiestatistiek, kan vervolgens worden gebruikt als een geschikte correlatiemaatstaf.

Als $ X $ en $ Y $ uw iCLIP-replica's zijn, vertegenwoordigt $ i $ gen index en $ (x_i, y_i) $ vertegenwoordigt het aantal RBP-bindingsplaatsen in $ X $ en $ Y $ respectievelijk voor het $ i ^ {th} $ -gen, Kendall's tau wordt gedefinieerd als:

$ $ \ frac {\ text {# (concordante paren)} - \ text {# (dissonante paren)}} {n (n-1) / 2} $$

Waar twee paren $ (x_i , y_i) $ en $ (x_j, y_j) $ zijn concordant als:

  • $ x_i > x_j $ AND $ y_i > y_j $

OF

  • $ x_i < x_j $ AND $ y_i < y_j $

Dienovereenkomstig zijn ze tegenstrijdig als:

  • $ x_i < x_j $ AND $ y_i > y_j $

OF

  • $ x_i > x_j $ EN $ y_i < y_j $
Ik weet niet zeker waarom tex-weergave is uitgeschakeld.
Zie mijn toelichting: ik ben geïnteresseerd in de patronen in genen, in plaats van ertussen. Is tau beter in het omgaan met gegevens waarbij veel waarnemingen nul zijn?
Als het uw interesse is om het patroon in genen te bestuderen, fungeert uw tweede monster dan als een replicaat? Ik weet niet zeker of ik helemaal begrijp wat "in genen" hier zou betekenen.
Nee, ik probeer te bepalen of twee eiwitten vergelijkbaar zijn in genbindingspatronen.
Mathjax-ondersteuning was niet geactiveerd. Het is nu zo dat uw antwoord correct wordt weergegeven.
#3
+3
CloudyGloudy
2017-05-18 01:18:09 UTC
view on stackexchange narkive permalink

Het hangt ervan af of u de piekintensiteiten als binair (het vergelijken van aanwezigheid / afwezigheid van pieken in de sets) of continu (het vergelijken van de relatieve magnitudes van de pieken) wilt behandelen.

Binair

Om te beginnen kan een eenvoudige binaire vergelijking geschikt zijn. U kunt een piekbeller naar keuze gebruiken om pieken in elk monster te identificeren op basis van uw gewenste criteria. Vervolgens kunt u een gelijkenisstatistiek gebruiken, zoals de Jaccard-index, om de mate van overeenstemming tussen de pieken in de twee steekproeven te kwantificeren.

Een mogelijk obstakel is dat het definiëren van de grenzen van uw pieken zullen niet helemaal eenvoudig zijn. Een piek in het ene monster kan bijvoorbeeld twee overlappende pieken hebben in het andere monster, één aan elk uiteinde. Een ruwe oplossing hiervoor is om het genoom in bakken te verdelen (misschien rond de 100-1000 bp, afhankelijk van uw gewenste resolutie). U kunt een piek als aanwezig in een bak behandelen als meer dan de helft van de piek in de bak ligt. Op die manier kunnen bakken in het ene monster direct worden vergeleken met de overeenkomstige bakken in het andere monster. Dit is duidelijk niet de enige manier om dit te doen; er bestaan ​​ook andere geschikte methoden.

Continu

Als u de piekintensiteiten als continu wilt behandelen, kunt u een vergelijkbare binning-methode toepassen door de " score 'van een bak om de gemiddelde piekintensiteit op posities binnen die bak te zijn. Je zou dan alle bakken kunnen weggooien zonder pieken of alleen pieken van lage intensiteit door het hele genoom. Dan zou je de correlatie van de Spearman kunnen berekenen voor de resterende bakken. Ik vermoed dat het moeilijker zal zijn om een ​​sterke correlatie te vinden voor continue intensiteiten, vanwege de hoeveelheid experimentele variabiliteit die inherent aanwezig is.

Als, na het volgen van deze stappen, de correlatie van de Spearman nog steeds 'kunstmatig laag ", zoals u suggereerde, dan is dit waarschijnlijk een probleem met de onderliggende gegevens, niet met de algehele analyse; misschien komen uw twee datasets niet zo goed overeen.

Ik maakte me zorgen over kunstmatig lage waarden toen de meeste waarnemingen 0 waren. Gevallen uitsluiten waarin de waarnemingen in beide signalen 0 waren, "voelde" gewoon niet goed.
@IanSudbery Ik snap het. Je bent dus ook geïnteresseerd in de mate waarin de "non-peaks" het met elkaar eens zijn. Een mogelijkheid is dan om de bakken waar beide waarden nul zijn niet weg te gooien en de Spearman-correlatie te rapporteren. Omdat u echter zei dat de pieken vrij schaars zijn, zullen uw nulwaarden het moeilijk maken om de mate van correlatie tussen de echte positieven te zien. Ik ben het ermee eens dat het niet "juist" is om de nulwaarden in Spearman-correlatiescores uit te sluiten, maar als je in plaats daarvan een metriek gebruikt voor ingestelde snijpunten (zoals de Jaccard-index), zou het uitsluiten van nullen oké zijn.
Kijken naar de kruising lost het schaarste probleem op, maar niet het nul-opgeblazen probleem: signalen van vergelijkbaar uitziende sporen hebben de neiging om dicht bij elkaar te zijn, maar niet recht op elkaar. Eerlijk gezegd begin ik te denken dat je tweede suggestie de beste is die er is.
Dat is waar, maar als u de binning-benadering gebruikt om kruispunten te definiëren in plaats van te zoeken naar strikte overlap, kan dit helpen. (d.w.z. het telt als een kruispunt als dezelfde bak pieken in beide sporen bevat, zelfs als de pieken zelf niet direct overlappen)
#4
+2
Sasha Favorov
2017-05-31 00:18:23 UTC
view on stackexchange narkive permalink

Het is een van mijn favoriete verhalen.

Laat een blik vallen op StereoGene-software, het is voor genomische trackcorrelatie, het wordt beschreven in een voordruk.

U kunt ook voer MACS of een andere piekbeller uit en schat de correlatie van twee intervalreeksen met behulp van het GenomtriCorr -pakket.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 3.0-licentie waaronder het wordt gedistribueerd.
Loading...