一个致力于人类基因工程的研究小组很快将要宣布一项让人震惊的科学发现:他们相信在人类的DNA中存在的所谓“非代码”基因序列(97%)即是一种地外生物形态的遗传代码。
从霉菌到鱼类到人类,这组非代码基因序列在所有地球生物组织中皆常可见。小组组长Sam Chang教授说,在人类的DNA中,它们(非代码基因)在总的基因数中占有更大的比例。
非代码基因又称作“垃圾DNA”,多年前即被发现,它们的功能仍然是个迷。它们不像正常的基因那样载有合成蛋白、酶及其他人体产生的化学物的信息,非代码基因序列没有任何使用目的。它们不作表述,就是说它们承载的信息无法读取,也没有合成物质,它们根本没有任何功能。我们存在于我们3%的DNA之中。垃圾DNA只是喜欢搭在活跃的功能性基因上面,一代代地往下传承。它们是什么?为什么这些闲置的基因会在我们的基因组里?这些问题不断地被科学家们提出来,却无法找到答案--现在终于被Sam Chang教授和他的小组取得了突破。
要想明白垃圾DNA的起源及意义,Chang教授觉得他首先需要一个对“垃圾”的定义。是否垃圾DNA真的就是垃圾(无用且无意义的),或者由于某种原因它包含了其他DNA所不具有的信息?他的熟友Lipshutz博士是位年轻的理论物理学家,现在转行在华尔街搞衍生证券,他跟他提到了这个问题。“这好办”Lipshutz说“我把你的基因序列用我那个市场数据分析软件分析一下,马上就知道你的那些序列是完全的垃圾,还是'白噪值(空值)'或者里头有什么信息。”
Lipshutz在晚上及周末进行测试,他得以证实了非代码序列并不全是垃圾,它们是有承载信息的。“让我感到惊讶的是,代码与非代码的熵差距没有那么大”,Lipshutz说,“两者都有空值,但绝不是垃圾。如果市场信息能像这样整齐,我可能早得退休了。”
最后Chang教授找到了Adnan Mussaelian博士,他是前苏联共和国的天才编码破译员。可怜的家伙现在靠一个月15块美金的工资苟活,偶尔也给富家子弟上课赚点外块。对他来说有一万美金的研究经费是走了财运,他像一只勤奋的海狸,开始卖力地工作。
Adnan很快肯定了前面那位华尔街伙计的发现:代码的熵显示出的信息几乎是清晰的,这不是什么复杂的加密系统,不像是很难解决的问题。Adnan开始进行差异性密码分析及执行相关的标准密码分析技术。
他在这个项目上花了两个月时间,这时他注意到所有非代码序列都以一段短的DNA序列开头,而在这些垃圾代码的结尾也有类似的代码。 这些部分,生物学家都知道是ALU序列,其遍布于整个人类基因组之中。作为非代码、垃圾序列本身,Alu序列是所有基因中最常见的。
Adnan受过的是密码破译员及电脑程序员的训练,他没有任何的微生物学知识,他把基因代码当作电脑程序代码来研究。在试着类推分析时Adnan将源码放入短序列符号统计程序中进行分析,这个分析工作常用来破解信息。最常见的符号是什么?当然,它是“/”号(这是一个编码常用的注释符号!)在Pascal语言里,这个符号是{ 和 }!当然,在C语言里,在两个斜杠之间的代码永远不会被执行,也是永远没有要被执行的意思;它是代码,但它是注释的代码!
无法抵挡的诱惑使Adnan更进一步地进行类推,他开始比较电脑程序注释与基因代码之间的统计性状的区别。这里头肯定有很大的不同。在统计的结果中应该会显现出来。然而,垃圾DNA与活跃的代码序列没有什么不同。为了确定一下,Adnan在分析中加了一个程序:惊异的是,代码与注释的统计结果几乎是一样的。他检查了一下源代码,明白了原由:在斜杠之间只有很少的注释,将其排除在执行之外,这与C语言码的程序员通常的做法差不多。
从霉菌到鱼类到人类,这组非代码基因序列在所有地球生物组织中皆常可见。小组组长Sam Chang教授说,在人类的DNA中,它们(非代码基因)在总的基因数中占有更大的比例。
非代码基因又称作“垃圾DNA”,多年前即被发现,它们的功能仍然是个迷。它们不像正常的基因那样载有合成蛋白、酶及其他人体产生的化学物的信息,非代码基因序列没有任何使用目的。它们不作表述,就是说它们承载的信息无法读取,也没有合成物质,它们根本没有任何功能。我们存在于我们3%的DNA之中。垃圾DNA只是喜欢搭在活跃的功能性基因上面,一代代地往下传承。它们是什么?为什么这些闲置的基因会在我们的基因组里?这些问题不断地被科学家们提出来,却无法找到答案--现在终于被Sam Chang教授和他的小组取得了突破。
要想明白垃圾DNA的起源及意义,Chang教授觉得他首先需要一个对“垃圾”的定义。是否垃圾DNA真的就是垃圾(无用且无意义的),或者由于某种原因它包含了其他DNA所不具有的信息?他的熟友Lipshutz博士是位年轻的理论物理学家,现在转行在华尔街搞衍生证券,他跟他提到了这个问题。“这好办”Lipshutz说“我把你的基因序列用我那个市场数据分析软件分析一下,马上就知道你的那些序列是完全的垃圾,还是'白噪值(空值)'或者里头有什么信息。”
Lipshutz在晚上及周末进行测试,他得以证实了非代码序列并不全是垃圾,它们是有承载信息的。“让我感到惊讶的是,代码与非代码的熵差距没有那么大”,Lipshutz说,“两者都有空值,但绝不是垃圾。如果市场信息能像这样整齐,我可能早得退休了。”
最后Chang教授找到了Adnan Mussaelian博士,他是前苏联共和国的天才编码破译员。可怜的家伙现在靠一个月15块美金的工资苟活,偶尔也给富家子弟上课赚点外块。对他来说有一万美金的研究经费是走了财运,他像一只勤奋的海狸,开始卖力地工作。
Adnan很快肯定了前面那位华尔街伙计的发现:代码的熵显示出的信息几乎是清晰的,这不是什么复杂的加密系统,不像是很难解决的问题。Adnan开始进行差异性密码分析及执行相关的标准密码分析技术。
他在这个项目上花了两个月时间,这时他注意到所有非代码序列都以一段短的DNA序列开头,而在这些垃圾代码的结尾也有类似的代码。 这些部分,生物学家都知道是ALU序列,其遍布于整个人类基因组之中。作为非代码、垃圾序列本身,Alu序列是所有基因中最常见的。
Adnan受过的是密码破译员及电脑程序员的训练,他没有任何的微生物学知识,他把基因代码当作电脑程序代码来研究。在试着类推分析时Adnan将源码放入短序列符号统计程序中进行分析,这个分析工作常用来破解信息。最常见的符号是什么?当然,它是“/”号(这是一个编码常用的注释符号!)在Pascal语言里,这个符号是{ 和 }!当然,在C语言里,在两个斜杠之间的代码永远不会被执行,也是永远没有要被执行的意思;它是代码,但它是注释的代码!
无法抵挡的诱惑使Adnan更进一步地进行类推,他开始比较电脑程序注释与基因代码之间的统计性状的区别。这里头肯定有很大的不同。在统计的结果中应该会显现出来。然而,垃圾DNA与活跃的代码序列没有什么不同。为了确定一下,Adnan在分析中加了一个程序:惊异的是,代码与注释的统计结果几乎是一样的。他检查了一下源代码,明白了原由:在斜杠之间只有很少的注释,将其排除在执行之外,这与C语言码的程序员通常的做法差不多。