“面对患者病情突然恶化,医学实习生克里斯腾·陈借助GPT-4成功救治患者、申请保险授权,并为肿瘤复发患者寻找临床试验,”在《超越想象的GPT医疗》一书的序言部分,描绘了这样一个未来场景,生动展示了人工智能技术在医疗领域可能带来的巨大变革。
作为当下科技创新的重要驱动力,人工智能技术在生命科学领域的应用为解决基因组数据分析中的复杂性和高维度问题提供了创新的解决方案,为精准医学的进步提供坚实的科学支撑。
近日,在华大集团生命科学全球新品发布会上,华大基因CEO赵立见宣布了“生成式生物智能范式GBI ALL(Generative Bio-Intelligent)”的崭新理念,并带领华大研发团队正式发布了面向临床的基因检测多模态大模型GeneT(Genetic Transformer)、面向公众的基因组咨询平台ChatGeneT,以及智能化的疾病防控系统13311i。这一系列创新举措的发布标志着华大在推动生命科学数智化进程上迈出了重要一步。
赵立见表示,随着测序技术的飞速发展,当每个人都有机会获得一份专属的个人全基因组数据时,如何从海量的生命数据中高效、精准地解读生命奥秘,已成为行业关注的焦点。SEQ ALL将加速人人基因组时代的到来,而华大基于基因检测大数据,结合先进的AI算法,提出的生成式生物智能GBI ALL创新范式,一定会助推精准医学的全面提升。
解码生命奥秘,GeneT引领罕见病诊断新纪元
GBI ALL理念的核心在于通过生成式生物智能技术,实现对全基因组数据的深度解析。其中,基因检测多模态大模型GeneT是华大基因在AI大模型领域的重大突破,据介绍,GeneT模型在辅助辨识罕见病致病变异方面展现出显著成效。
近年来,在“健康中国”战略的引领下,我国始终秉持“人民至上”发展理念,加速推进罕见病诊疗和防治工作,致力于以更高水平的研究创新与精准医学方面的实践,惠及我国约2000万罕见病患者及其家庭。
早发现、早治疗是减少因“罕”致残的关键。随着基因测序技术的发展,以全基因组测序为代表的分子诊断技术日益在遗传病诊断中发挥着重要作用,助力及时、精准的诊断,为罕见病患者争取更多治疗时间。
据《中国科学报》,GeneT在模拟样本和真实临床样本中分别达到99%和98%的致病变异召回率,同时分析效率最高提升了20倍。研究团队利用公开数据构建的数万例阴性和阳性病例作为训练数据集,并将“基于资深遗传病分析专家们解读思维链构建的提示词”作为模型微调的逻辑基础,引导基础大语言模型学习罕见遗传病致病变异筛选的能力。研究团队对6个不同参数量的大语言模型进行微调,使模型专注于致病变异筛选这一任务,最终打造出GeneT。
华大基因IT副总监梁伦纲介绍,GeneT模型利用超过百万级的高质量数据,构建了百亿级的高质量token,结合解读专家经验,实现了对全基因组数据的精准解读。在真实临床样本的测试中,GeneT模型展现出了极高的准确率,能够从数百万个变异位点中快速筛选出与临床表型相关的致病突变,为临床诊断和治疗提供有力支持。
基因智慧普及大众,引领健康未来
此次发布会除了面向临床的GeneT模型外,华大基因还推出了面向公众的ChatGeneT基因组咨询平台。该平台旨在拉近专业知识与公众之间的距离,通过智能化的咨询系统,为用户提供便捷、准确的基因组解读服务。
当前,在华大基因等企业的普及和推广下,我国基因检测行业迅速驶入发展的快车道。作为行业龙头,华大基因希望通过自己的方法论,把高端的基因检测技术变成人人可及、普惠大众的民生项目。
亿欧智库研报显示,2012年,人体基因组检测费用约为4.25万元,这个价格远超当时中国居民人均可支配收入水平。不过,随着我国自主技术的快速迭代、应用场景的拓宽,以及用户渗透率的提升,基因检测数据量大大提高,检测费用也随之下降,到了2020年,这一数字已经下降至4409元。2023年2月的美国AGBT大会上,华大展示了其旗下产品T20测序仪,标志着人类基因组测序成本首次降至100美元以下,这一突破性的进展意味着,一台机器一年内可以检测多达5万人的基因组,使得曾经遥不可及的基因测序服务,如今能够惠及普通大众。
“基因检测技术的日益成熟,尤其是国产基因测序平台在全球的竞争力逐渐加强,让基因检测成本的进一步下降具备了核心基础。另一方面,这也为基因检测在应用领域打开了非常大的市场空间。”此前赵立见接受时代财经专访时表示。
此次华大基因带来全新产品ChatGeneT基因组咨询平台,更是为用户提供了一种全新的、高效的健康管理工具,有助于提升公众健康水平和生活质量。普通用户可以上传自己的基因检测报告到chatGeneT平台,通过对话方式了解相关疾病的遗传风险及预防建议。
“华大构建了全球领先的免疫细胞图谱,展现多组学交互分析潜力。华大基因自主研发的13311i整合了基因组、转录组、细胞组等多维数据,形成健康指数(Life Index),通过全自动化、模块化和自主可控的生命科学”13311i“数字化工厂,为公众提供更加个性化、精准的健康量化评估,实现对疾病风险的智能化精准防控。”华大生命科学研究院副院长金鑫博士在发布会现场表示,生命的语言ATCG序列本身就是真正天然的自然语言,构建DNA底层语言模型是解码生命奥秘的关键。华大利用长读长测序技术,已解析众多物种基因组,并计划将海量核酸数据融入大模型,以期理解DNA语法、结构及功能元件。通过跨物种、跨个体数据,我们期待发现基因网络共通性,解析非编码DNA潜在功能。
随着生成式生物智能GBI ALL范式更加广泛的实施应用,必将为人人基因组时代的到来打造中国样板,推动基因科技造福人类。赵立见强调,从SEQ ALL到GBI ALL,华大基因正在全面开启生命数智化的新时代。通过不断的技术创新和应用推广,将致力于推动基因组学的普及和发展,为人类的健康事业贡献更多力量。