4NPKAVlt8UX health.huanqiu.comarticleAI“联合科学家”重塑科研协作方式/e3pmt7dq2/e3pmt904n◎本报记者 张佳欣2024年春的一天,美国斯坦福大学病理学家托马斯·蒙廷开启了一场前所未有的“实验室会议”——与6位由人工智能(AI)驱动的“虚拟科学家”共商阿尔茨海默病的治疗策略。这些AI被赋予不同的专业角色,从神经科学家到药物化学家,在几分钟内展开多轮讨论,最终生成了一份长达一万多字的会议纪要。这场看似科幻的情景,其实是一个新兴趋势的缩影:以多智能体语言模型组成“AI科研团队”,模拟真实研究协作过程,帮助科学家节省时间、完善假设,甚至激发新的科学灵感。开发者称这种系统为“联合科学家”。多家机构打造“虚拟实验室”今年2月,谷歌旗下“深度思维”公司推出了一款名为“AI联合科学家”的软件。该软件由6个AI代理组成,分别负责想法生成、反思或批评、概念演进、去重、排序和总结审稿,均由谷歌的Gemini 2.0模型驱动。这套系统是谷歌生物医学AI研究工作的延伸。在一项早期测试中,该系统在两天内就解决了困扰科学家十多年的科学谜题。 美国斯坦福大学也在去年11月推出了“虚拟实验室”系统,蒙廷试用的正是这个版本。科技媒体Freethink网站报道称,目前,该系统以OpenAI的GPT-4o为基础,默认配备“首席研究员”和“评论者”两个角色,用户可自由添加更多代理并设定他们的专业领域,快速生成模拟会议记录。在中国,上海人工智能实验室的研究团队也在开发虚拟科学家系统,名为“VirSci”,专注于模拟科学家团队的合作过程,以推动科研创新。英国《自然》杂志报道称,这些系统所用的大型语言模型(LLM)不仅仅是在“你一言我一语”地交换观点,它们还具备联网检索信息、执行代码、调用专业工具等功能,属于一种“代理式AI”系统。这一术语目前尚不严格,但一般指LLM在一定程度上能自主承担任务。美国阿贡国家实验室的计算机科学家里克·史蒂文斯指出,多个AI代理协同作战,可连续数小时专注于解决复杂科学问题,不会走神,也不会疲惫。AI科研团队是否靠谱那么问题来了:这些AI之间的对话,像是一屋子的诺贝尔奖得主,还是一群本科生?它们的想法是天方夜谭、空洞无趣,还是令人振奋、值得深挖?现阶段的AI代理系统确实存在“幻觉”问题,即生成错误或虚构的信息。但芝加哥大学计算机科学家史蒂文斯指出,通过引入“评论者”或“评审者”的角色,系统往往能有效筛除不合理内容,提升整体可靠性。他还认为,即便是“幻觉”,在头脑风暴场景下也可能激发出意想不到的创意,前提是有专家把关。现有研究也发现,多代理协作确实优于单一AI。以GPT-4o为例,斯坦福大学团队发现,若在对话中加入一名“评论者”,该模型在研究生水平的科学测试中的表现会提高几个百分点,在实际科研应用中的回答也更加精准,例如在放射治疗方案设计方面更具逻辑。谷歌也曾对其联合科学家系统展开评估,结果显示,人类专家更倾向于由多个AI协作生成的回答,认为其更具新意和科研潜力。关于多少名AI代理、几轮互动最为有效,科学界也正在寻找答案。上海人工智能实验室计算机科学家董楠卿等人开发VirSci系统时发现,最佳创造力出现在“8个代理人×每人5轮发言”的设置下。而斯坦福大学的斯旺森则表示,超过3个专家后输出常常变得冗余,3轮之后系统也容易跑题。AI的点子到底有多新谷歌在宣布其联合科学家系统时表示,该系统帮助研究者提出了“新颖的预测”。例如,斯坦福大学的加里·佩尔茨用谷歌的“AI联合科学家”系统寻找治疗肝纤维化的新药时,AI团队在分析背景信息后提出3种药物建议,其中2种在实验中显示出疗效,反而优于他自己挑选的方案。但同时,一些科学家则认为这些建议其实“谈不上什么新意”。类似的争议也出现在帝国理工学院微生物学家何塞·佩纳德斯团队测试谷歌系统时。AI在阅读背景文献后,提出了一种未见于任何文献的新假设:移动遗传元件可“跨细胞偷取”噬菌体尾部。这一观点挑战主流,却与该团队通过未公开实验得出的结论一致。佩纳德斯认为,尽管AI只是把已有信息作了一个“显而易见”的推理,但其本身就是科学进步。《自然》杂志指出,这类AI系统目前更像是一种科研助理:它们通过总结资料、激发灵感、提出新角度或查漏补缺,帮助研究者节省时间,提高效率。但是否能催生真正颠覆性的想法,还需长期验证。目前,这类多智能体语言模型系统尚未以大众化、便捷的方式广泛提供。但研究人员普遍认为,AI联合科学家终将成为科研日常的一部分,就像搜索引擎一样,不过这并不意味着它能取代人类。史蒂文斯提醒,如果年轻科研人员过度依赖AI,可能会损害其自主思考和学习能力。西班牙癌症研究者巴里加也表示,过度依赖AI,就如同把思考过程“外包”,而那正是科研中最有趣的部分。1751937859707责编:姚倩科技日报175193785970711[]//img.huanqiucdn.cn/dp/api/files/imageDir/b1d30303e865595c78678ad6061f3256.jpg{"email":"yaoqian@huanqiu.com","name":"姚倩"}
◎本报记者 张佳欣2024年春的一天,美国斯坦福大学病理学家托马斯·蒙廷开启了一场前所未有的“实验室会议”——与6位由人工智能(AI)驱动的“虚拟科学家”共商阿尔茨海默病的治疗策略。这些AI被赋予不同的专业角色,从神经科学家到药物化学家,在几分钟内展开多轮讨论,最终生成了一份长达一万多字的会议纪要。这场看似科幻的情景,其实是一个新兴趋势的缩影:以多智能体语言模型组成“AI科研团队”,模拟真实研究协作过程,帮助科学家节省时间、完善假设,甚至激发新的科学灵感。开发者称这种系统为“联合科学家”。多家机构打造“虚拟实验室”今年2月,谷歌旗下“深度思维”公司推出了一款名为“AI联合科学家”的软件。该软件由6个AI代理组成,分别负责想法生成、反思或批评、概念演进、去重、排序和总结审稿,均由谷歌的Gemini 2.0模型驱动。这套系统是谷歌生物医学AI研究工作的延伸。在一项早期测试中,该系统在两天内就解决了困扰科学家十多年的科学谜题。 美国斯坦福大学也在去年11月推出了“虚拟实验室”系统,蒙廷试用的正是这个版本。科技媒体Freethink网站报道称,目前,该系统以OpenAI的GPT-4o为基础,默认配备“首席研究员”和“评论者”两个角色,用户可自由添加更多代理并设定他们的专业领域,快速生成模拟会议记录。在中国,上海人工智能实验室的研究团队也在开发虚拟科学家系统,名为“VirSci”,专注于模拟科学家团队的合作过程,以推动科研创新。英国《自然》杂志报道称,这些系统所用的大型语言模型(LLM)不仅仅是在“你一言我一语”地交换观点,它们还具备联网检索信息、执行代码、调用专业工具等功能,属于一种“代理式AI”系统。这一术语目前尚不严格,但一般指LLM在一定程度上能自主承担任务。美国阿贡国家实验室的计算机科学家里克·史蒂文斯指出,多个AI代理协同作战,可连续数小时专注于解决复杂科学问题,不会走神,也不会疲惫。AI科研团队是否靠谱那么问题来了:这些AI之间的对话,像是一屋子的诺贝尔奖得主,还是一群本科生?它们的想法是天方夜谭、空洞无趣,还是令人振奋、值得深挖?现阶段的AI代理系统确实存在“幻觉”问题,即生成错误或虚构的信息。但芝加哥大学计算机科学家史蒂文斯指出,通过引入“评论者”或“评审者”的角色,系统往往能有效筛除不合理内容,提升整体可靠性。他还认为,即便是“幻觉”,在头脑风暴场景下也可能激发出意想不到的创意,前提是有专家把关。现有研究也发现,多代理协作确实优于单一AI。以GPT-4o为例,斯坦福大学团队发现,若在对话中加入一名“评论者”,该模型在研究生水平的科学测试中的表现会提高几个百分点,在实际科研应用中的回答也更加精准,例如在放射治疗方案设计方面更具逻辑。谷歌也曾对其联合科学家系统展开评估,结果显示,人类专家更倾向于由多个AI协作生成的回答,认为其更具新意和科研潜力。关于多少名AI代理、几轮互动最为有效,科学界也正在寻找答案。上海人工智能实验室计算机科学家董楠卿等人开发VirSci系统时发现,最佳创造力出现在“8个代理人×每人5轮发言”的设置下。而斯坦福大学的斯旺森则表示,超过3个专家后输出常常变得冗余,3轮之后系统也容易跑题。AI的点子到底有多新谷歌在宣布其联合科学家系统时表示,该系统帮助研究者提出了“新颖的预测”。例如,斯坦福大学的加里·佩尔茨用谷歌的“AI联合科学家”系统寻找治疗肝纤维化的新药时,AI团队在分析背景信息后提出3种药物建议,其中2种在实验中显示出疗效,反而优于他自己挑选的方案。但同时,一些科学家则认为这些建议其实“谈不上什么新意”。类似的争议也出现在帝国理工学院微生物学家何塞·佩纳德斯团队测试谷歌系统时。AI在阅读背景文献后,提出了一种未见于任何文献的新假设:移动遗传元件可“跨细胞偷取”噬菌体尾部。这一观点挑战主流,却与该团队通过未公开实验得出的结论一致。佩纳德斯认为,尽管AI只是把已有信息作了一个“显而易见”的推理,但其本身就是科学进步。《自然》杂志指出,这类AI系统目前更像是一种科研助理:它们通过总结资料、激发灵感、提出新角度或查漏补缺,帮助研究者节省时间,提高效率。但是否能催生真正颠覆性的想法,还需长期验证。目前,这类多智能体语言模型系统尚未以大众化、便捷的方式广泛提供。但研究人员普遍认为,AI联合科学家终将成为科研日常的一部分,就像搜索引擎一样,不过这并不意味着它能取代人类。史蒂文斯提醒,如果年轻科研人员过度依赖AI,可能会损害其自主思考和学习能力。西班牙癌症研究者巴里加也表示,过度依赖AI,就如同把思考过程“外包”,而那正是科研中最有趣的部分。