陈丹琦在ICLR上主题演讲如何在学术预算下训练语言模型计算资源不足、数据访问受限

量子位看科技 2025-04-27 18:23:46

陈丹琦在ICLR上主题演讲如何在学术预算下训练语言模型

计算资源不足、数据访问受限……学术研究者该怎样训练语言模型？

一直以来，训练语言模型这一领域几乎完全由工业界主导。

它依靠海量计算资源驱动，并遵循奖励更大模型与数据集的scaling law。

但对于学术研究者而言，参与其中常令人望而却步。

就在昨天，陈丹琦在ICLR 2025上进行了名为《学术界训练语言模型：挑战还是使命？》的主题演讲，分享了自己在过去两年间的研究成果。【图1】

总结而言，她提出了学术研究者能做出重要贡献的三个方向：

1. 开发小而精的模型

2. 理解与改进训练数据

3. 基于开源权重模型发展后训练方法。

她列举了几项团队的成果进行说明：

一、剪枝优化LLaMA【图2】

基于现有LLM进行结构化剪枝。通过复用LLaMA-7B模型的子网络架构和执行持续预训练优化，最终仅使用了相当于从头训练的3%的计算成本，就实现了更好的性能效果。

二、QuRater评分模型【图3】

高质量预训练数据的选择对构建强大语言模型至关重要。通过训练QuRater评分模型，将成对判断转化为标量评分，并据此对2600亿token的训练语料进行四维质量标注。

在实验中，团队根据不同质量评分筛选出300亿token的数据，并基于这些数据训练了13亿参数的语言模型。研究发现，平衡数据质量与多样性至关重要。

三、ProLong模型【图4】

ProLong是一个支持512K token上下文长度的80亿参数开源模型。通过持续训练与监督微调技术，提升了长上下文信息的利用效率。

最终推出的ProLong-8B模型基于Llama-3初始化，使用400亿token训练，在128K上下文长度下达到同规模模型的顶尖水平。尽管长上下文训练数据量仅为Llama-3.1-8B-Instruct的5%，ProLong在多数长上下文任务中表现更优。

在演讲的最后，她总结道：仅需数百GPU小时，就能开展严肃的语言模型训练研究。甚至偶尔能打造顶尖水平的模型！

她希望，意识到这一点能够促进学术界更广泛参与语言模型训练，并推动产学研合作的新范式。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

格灵深瞳发布新亿级数据集格林深瞳助力CLIP刷新SOTA新的亿级大规模图文对数据

2

Gemini也会玩宝可梦Gemini收集到第八个道馆徽章会玩宝可梦的不止Clau

3

陈丹琦在ICLR上主题演讲如何在学术预算下训练语言模型计算资源不足、数据访问受限

4

论文一键转代码论文代码复现工具PaperCoder：论文转代码工具，专治未公开代

5

马斯克筹200亿还债马斯克为新公司筹资200亿美元马斯克筹资200亿刀乐还债？彭

6

数学家们仍在追赶天才拉马努金数学鬼才靠托梦推出4000个公式如果有这么一个人，写

7

今年是AI应用创业最佳时期不到2年，AI PPT赛道第一！像素绽放CEO赵充今

8

o3新玩法火了AI看照片判断地点仅靠一张照片，就能判断出拍摄的地点？这个挑战曾一

9

中年发福真正原因中年发福并非代谢变慢中年发福的真正原因，并非基础代谢变慢？《科学

10

DeepSeekR2最新爆料DeepSeekR2成本下降97.3%DeepSee

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

2

美团王兴现在肠子都悔青了，自己跟刘强东杠上有什么好处，现在好了，东哥京东又推

3

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

4

库克终于说出苹果死守中国的真相了，他说低价劳动力这个说法不存在的。真正的原因就

5

N401XPN型机背进气[并不简单]

6

3大家有没有想换手机3000元左右三台非常不错的手机大家关注了没有真我G

7

荣耀Power今晚发布，真机感觉还不错，相对轻薄，看不出来居然有8000mAh电

8

4199元起，国补后，vivoX200s发布12+256GB：4199元，

9

不得不承认，Ai越来越强大了

10

急了韩国三星急了，已经急不可待了！2023年：三星手机在中国卖了200多万部；

科技最新文章

1

华为mate30是20年五一入手的，眼看就要满5年了。电池健康度已不足80%，去

2

再等几天吧！想要入手小折叠屏的用户又要迎来一个好消息了，因为在5.1假期之后，你

3

华为手机和三星手机同一角度拍的，怎么差别如此大。

4

有人会撸羊毛撸成这样吗有人在京东秒送买了台手机，然后备注希望晚送20分钟

5

小红书将取消大小周目前还有哪些互联网公司是大小周？

6

三十年河东三十年河西，现在曲面又成了方向错了，直屏成了香饽饽。魅族Note16的

7

美团王兴现在肠子都悔青了，自己跟刘强东杠上有什么好处，现在好了，东哥京东又推

8

荣耀GTPro刚开发布会，喜欢玩手游的朋友值得一看。这款新机搭载高通骁龙8至尊

9

3大家有没有想换手机3000元左右三台非常不错的手机大家关注了没有真我G

10

不得不承认，Ai越来越强大了