MIT开发DNA资料存储读取技术,一杯咖啡大小的DNA就能存储全世界的资料

人类文明的发展离不开消息传递与交互。随着人类文明从狩猎文明到消息文明的转变,消息改变了人们生活的方方面面,甚至影响了人们的生存,例如我们每天吃饭离不开外卖、购物离不开手机等等。

而随着网络技术的快速发展,人类世界的资料消息也在急剧增长。有统计资料显示,目前全世界每天产生的电子邮件、照片、社群发文、视频等等数字文件超过250万Gb,而全世界总数字文件更是高达10万亿Gb。这些资料大多被保存在巨大的数据中心中,一个存储量为10亿Gb的大型数据中心,占地可达数个足球场,建设和维护成本高达10亿美元。

而随着5G技术的发展,人类消息存储的需求会更加爆炸,在可预见的未来,基于传统硅基存储介质的存储方式将不可避免地陷入资源枯竭的困境。于是,开发新的存储技术就显得尤为重要。

近日,来自美国麻省理工学院生物工程系的马克·巴斯(Mark Bathe)教授带领的研究团队,成功开发出了全新的以DNA为基础的消息存储和读取技术,完成了DNA资料的快速准确检索识别。简单来说,这一技术首先将资料存储在DNA中,然后将每个人信息料文件封装在一个直径6微米的二氧化硅颗粒中,并且通过可显示内容的短DNA串行进行标记,通过这些标记,人们可以快速搜索所需的消息。

该研究以“Random access DNA memory using Boolean search in an archival file storage system”为题发布在最新一期的Nature Materials杂志上。巴斯教授表示,“我们需要新的方案来解决巨量资料的存储问题,DNA的密度实际上比闪存还要高1000倍,理论上一个装满DNA的咖啡杯就可以存储世界上所有的资料。另一个有趣的点在于,一旦你制造出了DNA聚合物,它就不会再消耗任何能量,我们可以将其永久存储。”

我们都知道,所有消息在计算机中都是借助0和1两种代码存储的,而DNA是由A、T、G、C四种碱基组成的。因此,长期以来就有科学家设想,如果将四种碱基中的A、T表示0,G、C表示1,那么DNA也可以存储消息了。

相比于目前常用的以硅基材料为基础的消息存储技术,DNA的特性使其天生就是一种非常理想的存储介质。首先,DNA非常稳定,合成和测序技术目前非常成熟,操作容易。其次,由于DNA密度较高,其资料存储密度远远超过传统资料存储技术,可存储规模更是远远超出现有最大数据中心的容量。直观来说,1立方厘米的DNA存储的资料消息比一万亿张光盘存储量还多。

最后,之前已有科学家证实了使用DNA进行资料存储的可行性,例如在2012年,哈佛大学的乔治·丘奇(George Church)就曾在Science期刊发布论文,将自己的一本大小为659kb的书籍著作存进了DNA中,并将其导入了大肠杆菌进行复制。

然而,目前以DNA为基础的存储技术要想应用到临床还需要解决两个非常重要的问题。例如DNA存储的成本问题,以目前DNA合成的成本计算,在DNA中存入100万Gb的资料,成本高达1万亿美元。

对此,巴斯教授表示,“如果要跟硅基存储竞争,DNA合成的成本需要再下降6个量级。不过,就像过去几十年间硅基存储价格的大幅降低,DNA合成成本预计在未来20年左右就会降到和硅基存储相当”。

除了成本之外,DNA存储所面临的另外一个难题在于,如何从所有存储消息中挑出想要的文件。目前,人们常用的是PCR(聚合酶连锁反应)来检索DNA文件,每个DNA资料文件都包含一个特定的PCR引物结合串行。

不过,这一检索方法有一个致命的缺点,那就是引物和基因靶向串行之间可能存在干扰,脱靶会导致不需要的文件被拉出。此外,PCR检索过程中需要酶,最终也会消耗掉大部分的DNA。

作为替代方法,巴斯教授带领的研究团队开发了一种全新的检索技术。该技术首先将每个DNA文件封装到一个直径6微米的二氧化硅颗粒中,每个颗粒最高容量可达1Gb,同时每个二氧化硅颗粒都被标记上与文件内容相关的DNA条码。

接下来,研究团队验证了上述方法的可行性,他们将狮子、老虎、猫、狗、香蕉、飞机等等20个不同的图像编码到大约3000个核苷酸长度的DNA片段中,相当于大约100 B。每个文件都标有与 “猫” 或 “飞机” 等标签相对应的条形码。

可内容寻址的分子文件系统的写- 访问- 读循环当研究人员想要提取特定图像时,只需加入与他们正在寻找的标签相对应的引物,就能快速找到对应的文件。引物用荧光或磁性粒子标记,便于从样本中读取和识别匹配消息,这种方法允许人们自主删除所需的文件,而不会损坏其他DNA文件。

同时,研究人员使用了来自哈佛医学院史蒂芬·艾利奇(Stephen Elledge)教授开发的100000个串行库中的单链DNA串行,每个串行长约25个核苷酸。如果在每个DNA文件上放置两个这样的标签,可以对100亿个不同的文件进行唯一不重复标记,如果每个文件上有四个标签,则可以唯一不重复标记1万亿亿个不同的文件。通过这种方法,研究团队实现了每秒1 KB的搜索检索速度,目前来看,这一速度仍然太慢。

不过,研究团队表示,目前DNA存储技术比较适合用于存储 “冷” 资料,也就是保存一些不常访问的资料。目前巴斯教授正在成立一家名为Cache DNA的初创公司,致力于长期存储DNA技术的研究。

总的来说,巴斯教授的研究突破了DNA存储技术发展的瓶颈,为DNA存储过程中的消息搜索提供了一种新的解决方案。未来,随着DNA作为存储介质成本的下降,人类基因测序和其他相关技术的发展,DNA存储技术非常有希望替代传统的硅基存储。