文章主题:ChatGPT, AI, 生物科学
ChatGPT和ChatGPT们,你都了解了吗?
北京日报客户端 | 记者 汪丹
🔥ChatGPT🔥:科技界新燃爆的聊天巨星!美国AI巨头引领潮流,ChatGPT以其超凡交互和流畅文笔震惊世界,被封为”史上最强AI”的代名词。它不仅颠覆了传统问答模式,文章创作力更是让人惊叹不已,仿佛科幻电影中的智慧生命。🔥AlphaGo旧事重提,2016年一战成名,围棋界的震撼犹在眼前。现在,我们邀请到科普大家张田勘,带你深入探讨ChatGPT如何重塑社会格局,以及它在生物科学领域的突破性应用。🚀未来已来,人工智能的浪潮正席卷而来!🔍探索更多科技奇迹,敬请期待张田勘的独家解析!
接受强化训练的生成式AI:
对接用户需求创造新内容
🌟🚀ChatGPT:全球热议的AI聊天神器🔥去年11月一炮而红,月活用户破亿大关!💥它以深度学习为核心,语言技能超群,能与人无缝对话、解答疑问,还能笔耕不辍,创作视频脚本、文案、论文甚至代码。📝只需一点指令,就能生成人类般流畅的回复,堪称LLM(大型语言模型)之杰,全能生成器!🌟💻技术日新月异,ChatGPT的成功背后是AI技术的深度积累与创新。🌍无论何时何地,它都以超凡智慧点亮沟通之路,引领未来潮流!🏆
🌟了解AI的3大支柱:数据、强大计算力及创新算法!💡这些就像知识的燃料和智慧引擎,让AI通过学习与执行,实现精准目标。🔍从工作能力看,AI可分为两种类型:反应式AI(分析型),如数据分析师,擅长解析信息;而生成式AI,像内容创作者,能自动生成独特作品。🚀探索未来智能世界,AI正以前所未有的速度发展!🌐SEO优化提示:使用行业术语、关键词和表情符号,提升搜索引擎可见性。
🌟【探索智能未来】🔍——反应式AI:规则驱动的智慧🔥无需记忆,反应式AI凭借预设逻辑精准应变,对各类刺激快速而直接地作出响应。虽受限于固定的算法路径,它在数据学习上的“空白”使其独特。回想1997年那历史性的一刻,IBM深蓝以其无内存运算的力量,震惊世界,挑战国际象棋王者——卡斯帕罗夫👑。这种AI模式,就像一台精准的瑞士军刀,高效执行任务而不变通。尽管无法像现代神经网络那样通过新数据持续学习和进化,但它在特定领域的效能无可忽视。SEO优化提示:”记忆学习”、”算法路径”、”动态适应”等关键词在此处巧妙融入,提升搜索引擎可见度。
🌟生成式AI通过大数据驱动,深度学习与神经网络优化,实现了强大功能与丰富产出。本质上,它以用户为中心,精准定制创新内容。🌍
🌟🚀ChatGPT:全能超能AI🌟🚀🔥揭秘ChatGPT,一款革命性的语言技术巨头——Chat Generative Pre-trained Transformer(简称CGP),以其强大的生成能力,引领了人工智能的新篇章!🔥🔍只需轻轻一点,CGP就能创作出丰富多样的内容,从文字到代码,从对话到视觉艺术,无所不能!极坐标系中,点A(1,π/2)和B(3,5π/6)之间的距离
由于受各种因素的制约,ChatGPT生成的内容也有不少错误,尤其是关于社会、文化、人文、哲学、政治、经济和历史方面的内容。但是在自然科学领域,由于有公认的定律和共同的认知,如“原子是由带正电的原子核和核外带负电的电子构成的”,ChatGPT生成的内容出错率相对较少。
正因如此,虽然生成式AI在所有领域都有用武之地,但类似ChatGPT的生成式AI在自然科学领域的应用更受青睐。生物医学研究、医疗和生命科学都需要生成式AI,ChatGPT只是其中一种。
准确预测蛋白质结构:
可加快新药和疫苗研发
目前,生成式AI在生物医学领域的用途方兴未艾。生成式AI不仅能分析成千上万种蛋白质,还可以生成新的蛋白质,甚至是自然界从未出现过的蛋白质。
过去,认识和精确测定蛋白质的构型需要耗费大量的时间和精力,还未必能测得准,给药物、疫苗研发和疾病治疗造成了阻碍。如果生成式AI的结果既准确又快速,就可以知道一些病毒变异后的蛋白质结构,如新冠病毒的S蛋白变异,从而加快研发新药和疫苗的速度。
2020年,英国深度思考公司研发的阿尔法折叠2(Alpha Fold-2)有了惊人成就。这款生成式AI在2020年举行的第14届“蛋白质结构预测关键评估”大赛中大放异彩。它测定的大部分蛋白质结构非常准确,不仅与实验方法测得的蛋白质结构的精确度相同,还远超解析新蛋白质结构的其他方法。具体来说,阿尔法折叠2能在几分钟内预测出一个典型蛋白质的结构,并能够在几天内生成高精度的结构。2022年初,阿尔法折叠2又测出了2.2亿个蛋白质的结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。
2022年11月,Meta公司(前身为Facebook)奋起直追,其名为ESMFold的生成式AI软件预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未命名的微生物。虽然该软件的准确性不如阿尔法折叠2,但在预测结构方面速度要快约60倍。
ESMFold的原理与ChatGPT基本相似,也是一种大型语言模型,只不过,训练它的内容不是自然语言,而是生物基因语言,也就是通过碱基排列的顺序和规律来检测蛋白质。
举例来说,对于ESMFold的训练,是把已知蛋白质的氨基酸序列“投喂”给它们,正如训练ChatGPT要把自然语言的词语根据语法进行“投喂”一样。自然界的蛋白质可以用20个不同的氨基酸链表示,每个氨基酸链由一个字母表示,这种训练使ESMFold对蛋白质序列有直观理解,并能理解蛋白质序列包含的蛋白质形状信息。在这样的深度学习之后,ESMFold学会了在氨基酸比例模糊的情况下“自动补全”信息。
研究团队把ESMFold应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自于环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。ESMFold通过算法,能结合蛋白质结构和序列之间关系的信息生成预测结构。它总共预测了超过6.17亿个蛋白质的结构,只花了两周时间。而且,在6.17亿个蛋白质测试中,超过1/3的预测是高质量的,有数以百万计的蛋白质结构是全新的。
自然界酶类从无到有:
人工酶氨基酸序列变化也无损活性
生成式AI的强大还体现在可以生成自然界中没有的蛋白质和物质,为人类的衣食住行生产、提供新原料和产品。
美国一家人工智能研究企业研发了另一种生成式AI,称为人工酶人工智能系统ProGen。这是一种专门检测酶(由活体细胞产生的一种特殊蛋白质,人体内几乎所有生化反应都必须有酶参与才能完成)和生成酶的AI软件。在实验室测试中,ProGen设计的一些人工酶与自然界中发现的酶一样有效,即使其氨基酸序列与任何已知的天然蛋白质存在显著差异,也仍然有生物活性。
特定的蛋白质各有其单独的氨基酸排列顺序。研究人员把1.9万个酶家族的2.8亿种不同蛋白质的氨基酸序列输入ProGen机器学习模型中,同时提供相关蛋白质特性作为控制标签,然后让系统花费数周时间来“消化”这些信息。此后,研究人员再把信息收窄,使用来自5个溶菌酶家族的5.6万种蛋白质氨基酸序列,以及有关这些蛋白质的一些信息来对模型进行微调。
根据学习的内容,ProGen迅速生成了100万个蛋白质序列,研究团队在其中选择了100个进行测试后发现:来自5个溶菌酶家族的所有人工蛋白质均显示出活性,且73%具有抗菌功能,而在天然蛋白质中仅59%具有抗菌功能。
更令人惊讶的是,在另一轮筛选中研究团队发现,即使只有31.4%的序列与目前已知的天然蛋白质相似,生成式AI设计的酶类依然显示出了生物活性。与之相反的是,天然蛋白质如果发生任何一个突变,都有可能失去生物活性。
这些研究结果总结起来,彰显了三方面的意义:一是ProGen生成的人工蛋白质不仅可以正确表达,还展示出与蛋白质天然折叠相类似的结构;二是AI生成的蛋白质即便只有部分氨基酸序列与天然蛋白质的序列相似,也具有生物活性,但天然蛋白没有这个优势;三是人工智能可以设计出在自然界从未有过的新物质和新产品。
这意味着,如果采用生成式AI设计和生产蛋白药物、食品及生物产品(如降解塑料的产品),会更快更有效,当然其安全性还需通过进一步的研究来检验。换句话说,如果人工智能生成的蛋白质能够像自然生成的蛋白质一样,也意味着未来人工智能可以设计人类所需要的各类产品,首要的就是满足人类生存的食物和药品。
帮助诊断疾病和优生:
最终结果仍需人类审核决定
现在,生成式AI已经发展到通过图像、血液、组织扫描结果,来检测、诊断和预测心血管病、眼部疾病、糖尿病,以及结直肠癌、肺癌、乳腺癌、前列腺癌等多种癌症。
还有一个受到医学关注的领域是不孕不育。现代生活方式和环境变化造成约有15%的夫妇不育,其中精子质量差是重要的原因之一。传统的做法是对精子活检来检测质量,但这个任务如果由AI来完成会更出色。
总之,无论AI应用到了什么领域,最终所获得的成果或生成的产品仍需由人来审核和决定,这才是对待AI的科学态度。
供图:视觉中国返回搜狐,查看更多
责任编辑: