Ik denk dat de vraag een beetje dubbelzinnig is, dus excuseer dit antwoord dat een beetje overbodig is van de rest van de gegeven antwoorden.
Zoals anderen al hebben gezegd, als je een volledig genoom wilt opslaan, FASTA
en 2bit
formaten zijn geschikt. Voor een bepaalde context is hg19
ongeveer 900 MB gecomprimeerd voor het FASTA
-bestand en ongeveer 780 MB gecomprimeerd voor het 2bit
-bestand. hg19
is een referentie en is haploïde en vertegenwoordigt dus geen "volledig" menselijk genoom dat normaal gesproken twee allelen zou hebben voor het autosoom (niet-geslachtschromosomen).
Een veel voorkomende formaat voor het weergeven van variantinformatie is Variant Call Format ( VCF
). Het VCF
-formaat vertegenwoordigt verschillen met een referentie (bijvoorbeeld hg19
) die kan worden gebruikt om de originele volledige reeks te herstellen door de referentie en de verschillen gecodeerd in de VCF
-bestand. Ik heb VCF
-bestanden in het bereik van 100 MB gezien, maar er is nog steeds een referentiebestand nodig om de volledige genoomsequentie te herstellen, namelijk het bereik van 800 MB +, zoals hierboven vermeld.
Als u slechts één 'heel genoom' afzonderlijk beschouwt, is het antwoord vrij duidelijk: het 2bit
-formaat nadert waarschijnlijk de entropielimiet van het menselijk genoom en u zult waarschijnlijk niet kunnen doen De reden waarom uw vraag een beetje dubbelzinnig is, is dat zodra u begint met het coderen van meer dan één genoom, bijvoorbeeld een genomen populatie, u de overtolligheid van het genoom zoals gedeeld door de populatie kunt gaan exploiteren. p>
Stel dat u bijvoorbeeld twee "hele genomen" wilt opslaan. U kunt de hg19
-referentie downloaden en twee VCF
-bestanden downloaden die ongeveer 1 GB aan gegevens zouden opleveren (ongeveer 800 MB voor het 2-bits
-bestand en ongeveer 200 MB voor beide VCF
-bestanden). Nu ben je in staat geweest om een "heel genoom" in 500 MB te vertegenwoordigen in plaats van in 800 MB. U kunt een soortgelijk argument zien voor het downloaden van 3 VCF
-bestanden en meer.
De minimale hoeveelheid informatie die nodig is om een genomen populatie weer te geven is, voor zover ik weet, onbekend, maar ik vermoed in het bereik van 2,5 MB tot 5 MB. Zie bijvoorbeeld "Menselijke genomen als e-mailbijlagen" door Christley, Lu, Li en Xie waarin wordt beweerd dat een genoom met 4 MB codeert.
Dingen worden lastig omdat je moet vragen wat je claimt als een "heel genoom". VCF
-bestanden zijn notoir slecht omdat oudere versies van de specificatie alleen verschillen van hoge kwaliteit ten opzichte van referentie opslaan, waardoor secties van hoge kwaliteit worden weggegooid. Als u informatie van lage kwaliteit wilt opslaan, zal de codering nu op rare manieren afhangen van de sequencing-technologie.
Invoegingen, verwijderingen, mobiele invoegelementen, kopie-nummervarianten, andere structurele varianten, enz. Allemaal deze kwestie nog ingewikkelder maken. Genoomgrafieken proberen ten minste enkele van deze problemen aan te pakken, maar de nadruk ligt op het aanroepen van varianten in plaats van op een efficiënte individuele weergave van het hele genoom, hoewel dit in de toekomst misschien kan worden aangepast.