人类基因组大概就像一首mp3那么大


全部的人类基因组序列大致可以放下一张音乐CD(700MB的那种)。这是怎么计算的呢?

人类基因组由23对染色体构成,组成它们的物质是脱氧核糖核酸(DNA)。DNA呈双螺旋结构,由通过氢键相连的碱基对(base pair)链接而成。每条染色体都是这样的碱基对序列,当中包含有遗传信息的片段,称作基因(gene),也包含仅支持蛋白质合成或目前尚未发现功能的片段。DNA中的碱基(nucleotide base)有四种──A(腺嘌呤,adenine),T(胸腺嘧啶,thymine),G(鸟嘌呤,guanine),C(胞嘧啶, cytosine)。由此,碱基对构成染色体,23对染色体构成人类基因组。

碱基对的构成方式是固定的:嘌呤(purine)只和嘧啶(pyrimidine)成对。它们都是有机化合物。嘌呤-嘌呤对在热力学上不合适因为它们的分子距离太远无法形成氢键;嘧啶-嘧啶对也不合适因为它们的分子距离太近会形成静电排斥。因此除了最常见的AT和GC对,只有GT和AC对。但这两者事实上是错误配对,因为氢键的受体和给体模式不匹配。

我们可以如下计算表示人类基因组所需要的信息量:

  • 由于DNA中只有四种碱基,而22 = 4,所以只需要2比特(bit)的信息来表示碱基:00、01、10、11。
  • 人类基因组由3080400000(大约30亿)个碱基构成23对染色体。[1]
  • 8个比特为一个字节(byte)。
  • 1兆字节(megabyte,MB)为210 × 210 = 1048576字节。

所以一条人类基因组可以用2 × 3080400000 / 8 / 1048576 ≈ 734.42MB的信息量来表示。这当中有大量重复的信息,稍加压缩就可以放下一张700MB的CD,一般压缩可以去掉一半。更进一步压缩,这篇文章说他可以把这些信息压缩成大约10MB,差不多是一首稍长些的MP3歌曲的大小。

也许生命的信息本来就是谱成一首歌来传唱的,就像《生命之歌》

你可以在这个页面下载完整的人类基因组序列。

[1] Stewart Scherer. 2008. A Short Guide to the Human Genome. Cold Spring Harbor Laboratory Press.


Leave a Reply

Your email address will not be published. Required fields are marked *