谷歌AI科研编程系统 – 自动生成专家级科学软件

AI项目和框架3小时前发布 ai-tab
1 0

一、产品介绍

谷歌研究(Google Research)与谷歌DeepMind(Google DeepMind)联合团队致力于通过人工智能推动科学进步。本次推出的AI系统,其核心定位是解决科学研究中的一个根本性瓶颈:为计算实验手动创建专用软件的缓慢且繁复的过程

该系统的差异化技术亮点在于,它并非一个简单的代码补全或生成工具,而是一个集成了大型语言模型(LLM)的智能代码突变系统,并辅以树搜索(Tree Search)算法进行系统性的探索和优化。其目标是全自动地创建所谓的“经验软件”(Empirical Software),即那些旨在最大化某个可定义、可衡量的质量分数(如预测准确性、积分精度、图像分割重合度)的软件程序。它将科学软件创作转化为一个“可评分任务”(Scorable Task)。

二、技术讲解

该系统的核心工作机制是一个由树搜索驱动的迭代优化循环,其算法核心可简要概括为以下几个步骤:

  1. 初始化:系统接收任务描述、评估指标、相关数据以及可选的“研究想法”(来自文献或搜索工具)。
  2. 代码生成与执行:LLM根据当前提示(包含已有代码和指令)生成新的候选Python代码。
  3. 评分:生成的代码在一个沙盒环境中被执行,其输出结果根据预定义的质量分数(如预测误差的倒数)进行评估。
  4. 树搜索与选择:系统采用一种改进的PUCT(Predictor+Upper Confidence bound applied to Trees)算法来管理搜索树。每个节点代表一个代码版本及其分数。算法会权衡利用(exploitation)(选择当前高分节点进行细化)和探索(exploration)(尝试新的、可能带来突破的方向),选择下一个要扩展的节点。
  5. 迭代优化:步骤2-4不断重复,LLM持续重写和改进代码,树搜索智能地引导整个探索过程,朝着更高分数的方向前进,直至达到满意结果或计算资源耗尽。

这种方法与传统方法的关键区别在于:

  • vs. 遗传编程(GP):不同于GP的随机变异和交叉,本系统使用LLM进行语义感知的代码重写,能产生更复杂、更有意义的变异。
  • vs. 自动化机器学习(AutoML):AutoML主要搜索模型架构和超参数,而本系统可以生成和优化任何类型的软件,包括数据预处理、复杂模拟和数学启发式算法,范围更广。
  • vs. 一次性代码生成:它不是一个单次生成模型,而是一个持续的、目标驱动的优化过程

研究想法的整合是另一大创新。用户或AI辅助搜索工具(如Gemini Deep Research)可以提供来自顶尖论文、教科书的研究思路。LLM能够理解这些自然语言描述,并将其作为高级指令融入代码生成过程中,从而实现“在巨人的肩膀上”进行创新。

谷歌AI系统架构图

图1 | 方法示意图与在Kaggle基准测试上的性能。(a)方法算法示意图。(b)在16个任务上的平均公开排行榜百分位性能。基于本方法的策略以粗体显示。(c)用于解决科学问题的初始研究想法的生成机制。

三、实战使用与性能表现

研究团队在多个科学领域的公开基准上对该系统进行了 rigorous(严格)测试,结果显著。

1. 生物信息学:scRNA-seq数据批处理整合

单细胞RNA测序(scRNA-seq)技术能解析细胞异质性,但整合不同实验室产生的数据集时,去除批次效应是一大挑战。OpenProblems基准评估了15种最先进的方法。

  • 过程:系统在单独的数据集上进行训练和优化,最终在OpenProblems的保留测试集(包含1,747,937个细胞)上评估性能。
  • 结果:仅使用树搜索(无额外指导)生成的解决方案,其概念类似于ComBat算法,但性能已优于当前排行榜。当提供现有顶尖方法的论文摘要作为提示时,系统生成的代码在9种方法中的8种上超越了其对应的人类发表成果。其中,最顶尖的方案BBKNN(TS)实现了14%的整体性能提升(相较于最佳已发表方法ComBat)。
  • 创新点:系统自动发现了将ComBat与BBKNN方法结合的创新方案(在ComBat校正后的PCA嵌入上计算邻居),手动实验证实这种组合是性能提升的关键。
  • 规模化探索:系统进一步进行了“重组”实验,将不同方法的思路两两组合,生成了55个新想法。其中44%的重组解决方案性能超过了它们的两个“父方法”。最终,该系统共产生了40种性能超过OpenProblems排行榜上所有已发表方法的新方案。
树搜索在scRNA-seq批处理整合上的性能

图2 | 树搜索在scRNA-seq批处理整合上的性能。(b)本方法(粗体,后缀“(TS)”)与对应已发表方法在OpenProblems基准上的性能对比。(c)顶级方案BBKNN的性能改进与代码创新。(d)OpenProblems基准上所有非控制方法的整体分数,包括本方法生成的各种方案。

2. 公共卫生:COVID-19住院人数预测

该系统在美国疾控中心(CDC)协调的COVID-19 Forecast Hub(CovidHub)上进行了测试,该平台汇聚了数十个顶尖团队的预测模型。

  • 过程:采用滚动验证窗口,使用过去6周的数据进行模型优化和选择,并对2024-2025季度的数据进行预测。
  • 结果:最终产生的“Google Retrospective”模型平均加权区间分数(WIS,越低越好)为26优于官方新冠预测中心集合(CovidHub-ensemble)的29,且在大多数州的表现都更好。
  • 复制与重组:系统仅根据其他团队提交的简短公开描述,成功复制了8个现有模型,其中6个复现版本的性能超过了原版提交。更重要的是,通过将不同模型的思路进行两两重组,生成了28个混合模型,其中11个混合模型的性能优于其两个父模型。总计,系统探索出的14种策略的性能超过了官方新冠预测中心集合。
树搜索在COVID-19预测上的性能

图3 | 树搜索在COVID-19预测上的性能。(b)时间序列排行榜显示各参与团队及本模型每周的预测性能。(c)本模型与CovidHub-ensemble在各州的直接对比。(d)本模型预测误差的地理分布。(e)各种建模策略的聚合预测性能对比。

3. 其他领域表现

  • 地理空间分析:在DLRSD遥感图像语义分割任务中,系统生成的三个顶级解决方案的mIoU(平均交并比)均超过了0.80,超越了近期的学术论文结果。
  • 神经科学:在ZAPBench全脑神经活动预测基准上,系统生成的解决方案在所有预测步长(除1步外)上均优于所有时间序列基线以及最佳的视频模型,且训练速度快数个数量级。
  • 时间序列预测:在GIFT-Eval基准测试中,系统为每个数据集单独寻找的解决方案性能超过了2025年5月18日的排行榜冠军。此外,系统还成功创建了一个统一的、通用的预测库,仅使用基础库(如numpy, pandas)即在所有数据集上取得了高度竞争力表现。
  • 数值分析:系统成功构建了一个优于标准scipy.integrate.quad()的通用数值积分库。在一个包含38个quad()无法正确求解的振荡积分测试集上,进化后的代码在19个保留测试积分中正确求解了17个,而quad()在所有案例中均失败。
方法年份架构类型关键特征/技术mIoU
Solution 1(TS)2025CNN(UNet++)‘efficientnet-b7’编码器,8倍TTA0.81
Solution 2(TS)2025Transformer(SegFormer)‘mit-b1’编码器,4倍TTA0.82
Solution 3(TS)2025CNN(U-Net)‘se_resnext101_32x4d’编码器,7倍TTA0.80
RE-Net2021CNN(基于区域)区域上下文学习0.762
FURSformer2023CNN+Transformer自定义融合模块0.753
SCGLU-Net2024CNN+Attention空间-通道-全局-局部块0.666

表1 | 在DLRSD基准上的模型性能对比。显示本方法的解决方案(前三行)与近期学术论文方法的对比。

在ZAPBench上,最佳树搜索解决方案与时间序列和视频预测方法的平均绝对误差(MAE)对比(越低越好)

图4 | 在ZAPBench上,最佳树搜索解决方案与时间序列和视频预测方法的平均绝对误差(MAE)对比(越低越好)。

四、访问地址

关于该项目的更多细节,包括部分生成的解决方案代码和用于检查树搜索数据的用户界面,可在GitHub上获取:
https://github.com/google-research/score


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

头像
none
暂无评论...