
由理大应用生物及化学科技学系副系主任姚钟平(前排中)率领的跨学科研究团队成功在从头设计的非天然蛋白质中完成数据存储及读取,为分子存储领域带来重大突破。理大供图
随着人工智能模型训练、大数据分析及智能设备广泛应用,全球数据量急增,传统硬碟及云端存储面临成本高、容量受限、耗电量大及寿命较短等问题。香港理工大学研究团队提出以工程化蛋白质作为数据存储载体,并首次在从头设计的人工蛋白中,实现由数据写入至读取的完整流程,为AI时代下的大规模、可持续数据存储提供新方向。
这项跨学科研究由理大应用生物及化学科技学系副系主任及教授姚钟平率领,涵盖蛋白质工程、合成生物学、生物化学、分析化学及计算机科学等领域。团队成员包括同系助理教授(研究)伍卓知,以及工程学院副院长(环球事务)兼电机及电子工程学系教授刘重明等。该研究获香港研究资助局“协作研究金”及“研究影响基金”资助。研究成果已刊载于国际期刊《自然通讯》。
现时所有文字、图像及影片等数码档案,最终都以0和1组成的位元串形式储存。分子存储技术的原理,是把位元资讯转换成分子单体序列,再透过测序技术读回数据。DNA是目前较常见的分子存储载体,但由于只由四种核苷酸组成,存储容量较低,亦较易降解。姚钟平团队早前曾开发以多肽作为载体的技术,利用氨基酸种类多、稳定性高的优势,提高存储容量,但受制于分子链较短,存储效率有限,且主要依赖化学合成,成本较高。
相比之下,蛋白质具有更长的氨基酸链,可提供更高的存储效率与容量,亦可透过细菌或动物细胞表达,大规模、低成本制造携带数据的蛋白质,并能以粉末或溶液形式在不同环境下稳定保存。不过,蛋白质存储亦面对两大挑战:一是携数据蛋白的氨基酸序列高度随机,容易影响其稳定性及溶解度,令设计与制备难度大增;二是若要读回数据,必须将整条蛋白序列精准地从头解析,技术要求远高于一般蛋白质鉴定。
为解决问题,团队参考可长时间保存的天然蛋白胶原蛋白的序列特征,设计出具稳定性和抗降解能力的蛋白模板作为“骨架”,再把由多个档案编码而成的氨基酸序列嵌入其中,并成功利用大肠杆菌表达出携数据蛋白质。
在数据读取方面,研究人员利用液相色谱串联质谱,将蛋白分解后所得肽段分离及测序,再配合自行开发的演算法软件,重建完整氨基酸序列,成功把蛋白质还原为位元串。同时,团队加入纠错编码,以修复测序过程中的少量误差,提升读取效率与准确度。
团队指出,与过往的多肽技术相比,今次蛋白质方案在多方面显著提升。姚钟平表示,研究中的蛋白样本存储密度达多肽技术30倍,而成本仅约其一成;此外,DNA在溶液和强酸等条件下会快速降解,但蛋白样本在相当长时间后仍可正确读取数据,显示出极高稳定性。
研究团队亦进一步设计功能化蛋白,实现随机存取及数据加密。团队在携带目标内容的蛋白中加入亲和标签,并在纯化过程中利用相应抗体捕捉目标蛋白,从而在多组数据中读取特定内容;又以此技术存储秘密讯息,证明只有使用正确亲和性化合物,才能成功读取资料。
姚钟平表示,蛋白质具稳定、易保存及高存储容量等特性,极具潜力成为长期大规模数据存储载体,其良好生物相容性亦为将数据存储于活体生物内开拓新方向。团队下一步将进一步提升存储容量及资料读写速度、降低生产成本,并设计更多蛋白模板,拓展相关技术功能。
香港新闻社
有视界·有世界