陈丹琦在ICLR上主题演讲如何在学术预算下训练语言模型计算资源不足、数据访问受限

量子位看科技 2025-04-27 18:23:46

陈丹琦在ICLR上主题演讲如何在学术预算下训练语言模型

计算资源不足、数据访问受限……学术研究者该怎样训练语言模型?

一直以来,训练语言模型这一领域几乎完全由工业界主导。

它依靠海量计算资源驱动,并遵循奖励更大模型与数据集的scaling law。

但对于学术研究者而言,参与其中常令人望而却步。

就在昨天,陈丹琦在ICLR 2025上进行了名为《学术界训练语言模型:挑战还是使命?》的主题演讲,分享了自己在过去两年间的研究成果。【图1】

总结而言,她提出了学术研究者能做出重要贡献的三个方向:

1. 开发小而精的模型

2. 理解与改进训练数据

3. 基于开源权重模型发展后训练方法。

她列举了几项团队的成果进行说明:

一、剪枝优化LLaMA【图2】

基于现有LLM进行结构化剪枝。通过复用LLaMA-7B模型的子网络架构和执行持续预训练优化,最终仅使用了相当于从头训练的3%的计算成本,就实现了更好的性能效果。

二、QuRater评分模型【图3】

高质量预训练数据的选择对构建强大语言模型至关重要。通过训练QuRater评分模型,将成对判断转化为标量评分,并据此对2600亿token的训练语料进行四维质量标注。

在实验中,团队根据不同质量评分筛选出300亿token的数据,并基于这些数据训练了13亿参数的语言模型。研究发现,平衡数据质量与多样性至关重要。

三、ProLong模型【图4】

ProLong是一个支持512K token上下文长度的80亿参数开源模型。通过持续训练与监督微调技术,提升了长上下文信息的利用效率。

最终推出的ProLong-8B模型基于Llama-3初始化,使用400亿token训练,在128K上下文长度下达到同规模模型的顶尖水平。尽管长上下文训练数据量仅为Llama-3.1-8B-Instruct的5%,ProLong在多数长上下文任务中表现更优。

在演讲的最后,她总结道:仅需数百GPU小时,就能开展严肃的语言模型训练研究。甚至偶尔能打造顶尖水平的模型!

她希望,意识到这一点能够促进学术界更广泛参与语言模型训练,并推动产学研合作的新范式。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注