《An AI system to help scientists write expert-level empirical software》
科学研究的软件开发长期受限于手工编码的低效与复杂性。谷歌DeepMind等团队提出了一套基于大型语言模型(LLM)与树搜索(TS)结合的AI系统,自动生成并优化“经验软件”,实现了多领域科学任务上的专家级表现。
• 系统核心:将科学问题转化为“可评分任务”,利用LLM智能重写代码,结合PUCT树搜索算法高效探索解空间。
• 多学科突破:在单细胞RNA测序批次整合中创造40个新方法,超越现有最佳方案;在COVID-19预测中生成14个模型,优于CDC集成预测;完成地理空间遥感图像分割、神经元活动预测、时间序列预测及数值积分等多项挑战。
• 创新策略:自动引入文献和专家建议,支持方法重组与融合,实现代码级创新,提升批次效应校正和疫情预测准确度。
• 高效迭代:通过树搜索多节点并行试验,代码质量出现“跳跃”式提升,显著缩短传统人工研发周期。
• 泛化能力:不仅复现多种复杂科学模型,还能基于真实科研数据自适应调优,兼具灵活性与稳定性。
• 开源与透明:公开最佳代码与交互界面,便于社区复现与扩展,推动科学软件自动化和智能化发展。
心得:
1. 将科学软件开发抽象为可评分的搜索任务,结合LLM的语义理解与树搜索的系统探索,突破了传统基于随机变异的遗传编程瓶颈。
2. 通过自动整合多源研究思路与方法重组,AI不仅复制旧有模型,更能创新出混合策略,实现性能飞跃。
3. 该体系显著缩短科研软件开发周期,释放科学家潜能,将计算实验从瓶颈转为加速器,预示科研自动化新时代。
详情🔗 arxiv.org/abs/2509.06503
人工智能科学计算大语言模型树搜索科研自动化经验软件