你的位置:任丘市奥力斯涂料厂 > 产品中心 > 文山防火门专用胶厂家 何恺明个语言模型:105M参数,不走GPT自回归老路

文山防火门专用胶厂家 何恺明个语言模型:105M参数,不走GPT自回归老路

发布日期:2026-05-14 17:47 点击次数:50
管件胶

何恺明文山防火门专用胶厂家,也下场做语言模型了。

只不过,这次他带队做的不是大熟悉的、像 ChatGPT 背后那套"预测下个词元"(next token prediction)的自回归范式。

而是另条过去几年在图像域大火、如今正被越来越多人搬进文本生成的新路线:扩散语言模型(Diffusion Language Model,DLM)。

在新的论文中,何恺明团队放出全新连续扩散语言模型:ELF:Embedded Language Flows。

与不少还停留在 token 层面做扩散的语言模型不同,ELF 把整个生成过程都留在了连续的 embedding 空间里,直到后步,才重新离散化,将表示变回 token。

靠着这套设计,ELF 只用了 105M 参数、45B 训练 token、32 步采样,就正面跑赢了批主流扩散语言模型。

直观的项指标是它在 OpenWebText 上,把生成困惑度(Generative Perplexity)直接压到了 24。

这里简单科普下生成困惑度,它本质上是让个强大的语言模型,给生成结果"检查作业",看看这些文本到底像不像真实人类写出来的语料——

值越低,说明生成质量越、模型出来的东西也就越没 AI 味儿,越自然。

在和主流扩散语言模型的对比中,ELF 在训练 token 少近 10 倍、采样步数少的情况下,反而拿到了低的生成困惑度。

可以说,在过去很长段时间里,扩散语言模型的进展,几乎都发生在离散 DLM(Discrete DLM)这侧。

而 ELF 次证明了件事:连续的法,不但能跑,而且果不错。

ELF 到底做了什么

要理解 ELF,先得理解扩散语言模型现在到底在做什么。

扩散语言模型,主要有两种技术路线。是以 MDLM、Duo 为代表的离散派,直接在 token 空间做扩散,每步处理的是离散随机变量。

二是包括 Diffusion-LM、CDCD、DiffuSeq 在内的连续派,把 token 映成连续 embedding,在连续空间里去噪。

此前的研究中,像 MDLM、LLaDA、Dream 7B 这些离散路线占据了上风。原因是很简单,因为语言本身就是离散的。

对于这看似常识的理解,恺明团队给出的判断恰恰相反——

问题可能不是"语言须离散",问题可能是:前人根本没有让连续路线,连续到底。

Diffusion-LM 这类的法虽然在 embedding 空间去噪,但每步都要次 token-level 的交叉熵,把连续轨迹路绑在词表上。

后来的 LD4LG、Cosmos 走 latent diffusion 路线,去噪过程是连续了,但要单训个 decoder 把 latent 解回 token,相当于多个模块。

基于此,ELF把所有 denoising,全留在 continuous embedding space;直到后步 t=1,才重新投回 token。

具体来说,ELF 在训练时,离散 token 先被编码成连续 embedding,再加噪成 z_t,模型要么负责把它成干净 embedding(MSE),要么直接预测 token(CE)。

理时,模型从斯噪声 z_0 出发,路在连续空间里去噪,直到后步,才切到 decode 模式,把 embedding 重新投回 token。

ELF 次把"连续表示"和"离散输出"这两个过去总被认为须反复对齐的问题,拆开了:

中间的去噪,交给连续空间;终的语言生成,只留到后步离散化。

没有每步都往词表上硬对齐,也不需要额外训练个 decoder,整个生成流程次真正做到了:

连续就是连续,离散就是离散。

而这,恰恰也是 ELF 后面能用少采样步数、少训练 token,却跑赢众扩散语言模型的关键。

ELF 不是"先扩散,再解码"。

在具体的实现上,ELF 还解决了三个问题:

token 怎么变连续?连续里怎么去噪?后又怎么变回 token?

把 token 变成连续 embedding

要把连续扩散用在语言上,步,得先把离散的 token 变成连续表示。

论文中,ELF 先把它切成 token 序列,再映射到连续 embedding 空间。这里具体怎么映射,其实有多种选择。

默认情况下,ELF 用的是 T5 预训练 encoder,生成双向的 contextual embedding。论文后面也测试了 jointly trained embedding 和随机 embedding 等不同案。

值得注意的是,这个 encoder只在训练阶段使用,理时并不会额外增加模块。

在连续 embedding 空间里做 Flow Matching

拿到连续表示之后,ELF 就在 embedding 空间里做 Flow Matching。

简单说,Flow Matching 定义了条从噪声到真实数据的连续流动轨迹:

t=0 时,是斯噪声;

t=1 时,是干净的 embedding;

中间所有状态,都是两者的线插值,也就是论文里的 rectified flow。

在传统 Flow Matching,网络通常直接预测"速度场" v。

但 ELF 没有这么做,而是沿用了恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提出的思路——

直接预测干净 embedding x文山防火门专用胶厂家,也就是 x-prediction。

训练目标,就是小化预测 embedding 和真实 embedding 之间的均误差(MSE)。

至于为什么采用 x-prediction,论文给了两个原因:

,它在维表示上稳定——比如 768 维甚至的 token embedding;二,它和后步"预测干净 token "的目标对齐。

论文还特别提到:虽然理论上也可以先预测速度 v,再换成 x,但这样来,后面 denoising 和 decoding 之间的权重共享就很难成立。

实验上,他们也发现:旦共享权重,v-prediction 果明显变差。

从连续 embedding,再回到离散 token

生成语言,pvc管道管件胶终输出还是离散 token。

所以 ELF 只在后个时间步(t = 1),还得把连续 embedding 重新投回 token 空间。

不过,这步 ELF 没有像很多 latent diffusion 法那样,额外训练个 decoder。相反,它把后步直接视作:

次 continuous-to-discrete decoding。

换句话说:decoder 和前面的 denoiser,其实是同个网络。

为了让后步训练不至于太简单(因为理论上 t → 1 时,输入已经非常接近干净 embedding),ELF 在后步额外加入了次 token-level corruption,构造出个带扰动的输入。

随后,同个网络输出 clean embedding,再通过个可学习的 unembedding 矩阵 W,投影成 token logits。

训练目标,则是标准的 token-level cross-entropy loss。整个网络共享同套参数,并额外接收个二值的 mode token:去噪模式 / 解码模式。

理时,ELF 从斯噪声开始路在连续空间里去噪,直到后步 t = 1,才切换到 decode 模式,再通过 argmax 输出终 token。

值得提的是,在 ELF 中,图像生成里常用的技术之,CFG(classifier-free guidance)也被搬过来了

ELF 用 self-conditioning 作为条件信号,套上 training-time CFG(次 forward 模拟两次理,没有 inference 开销),把图像那边的案直接搬了过来。

实验对比

实验部分,ELF 基本回答了个过去两年直悬着的问题:

连续扩散语言模型,到底能不能?答案是:不但能,而且次在质量、速度、训练成本三个维度同时赢。

如开头所说,在 OpenWebText 生成任务中,在不做蒸馏的情况下,ELF 只用 32 步采样,就把生成困惑度压到了 24。

而此前主流的离散扩散模型,往往要跑到 1024 步,才能接近这个水平。

夸张的是,ELF 实现这结果时,训练 token 只用了 45B。

而同别对手,普遍是 500B+。换句话说:采样步数少了个数量,训练数据也少了个数量,果反而好。

奥力斯    万能胶厂家    联系人:王经理    手机:18231788377(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

而在很多扩散模型容易掉队的条件生成任务上,ELF 也没掉链子。

论是 WMT14 机器翻译,还是 XSum 文本摘要,ELF 都稳定过现有扩散语言模型,甚至把不少自回归 baseline 也压了下去。

论文后给出的总结其实很克制:ELF 在生成质量、采样率和训练成本之间,实现了很强的 trade-off。

翻译成人话就是:连续派,不是不能。只是以前没把连续这件事做到底。

作者介绍

后,我们再来介绍下这篇文章的作者。

这篇论文的两篇作是共同贡献,排名先后顺序由硬币决定。

胡珂雅,她是这篇文章的两位作者之,MIT EECS 年博士生,也是恺明在 MIT 带的批博士生之,目前由恺明和Jacob Andreas联指。

图源:胡珂雅个人主页

她本科毕业于上交的 ACM 班,目前的研究兴趣主要是语言和视觉的交叉域,致力于构建数据率、泛化能力强的智能体。

值得提的是,在恺明 MIT 的主页中,胡珂雅排在 Grad students 位,可以说是组内的大师姐了。

二位作者Linlu Qiu,同样是 MIT 的博士生,师从Yoon Kim。

图源:Linlu Qiu 个人主页

她本科毕业于香港大学,硕士毕业于 Georgia Institute of Technology,此前还在 Google 做过 AI Resident。

有意思的是,这并不是她次和恺明作。就在不久前,她还和恺明团队起拿下了 CVPR 2026 论文《ARC Is a Vision Problem!》,把 ARC 理问题重新定义成了视觉问题。

另位作者Hanhong Zhao(赵瀚宏)为 MIT 本科生,他中就读于人大附中,曾是物理奥林匹克竞赛 IPhO 金得主。

△图源:math.mit.edu

还有位作者陆伊炀,背景有点"少年班味道"。

图源:陆伊炀个人主页

他是清华姚班大二本科生,目前在 MIT 计机科学与人工智能实验室(CSAIL)实习,师是何恺明,主要研究向为计机视觉和度生成模型。

中时期,他是物理竞赛生,曾以江苏选手中名、全国九名的成绩,在 2022 年获得了三十九届全国中学生物理竞赛(CPhO)金。

此前,他以作身份与恺明作过论文《Bidirectional Normalizing Flow: From Data to Noise and Back》。

另位核心作者黎天鸿,则是恺明组的博后。

图源:黎天鸿个人主页

他本科就读于清华姚班,博士毕业于 MIT,半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的作,就是他。

此外,论文的其他作者Yoon Kim、Jacob Andreas,MIT EECS 两位语言模型向的教授,以及何恺明本人。

参考链接

[ 1 ] https://arxiv.org/pdf/2605.10938

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

AIGC 产业峰会新嘉宾阵容来了!

从 AI 新架构到应用生态,从 AI 音乐、AI 漫剧、AI 浏览器再到世界模型、AI 硬件 ... 这次,我们希望聚齐AI 赛道的实战派,百度、智谱、昆仑万维、模思智能、蚂蚁灵波都会来。� �了解详情

5 月 20 日,北京 · 金茂万丽酒店,@所有人,马上 AI 起来!� �  

键关注 � � 点亮星标

科技前沿进展每日见

相关词条:铁皮保温    塑料挤出机     钢绞线    玻璃卷毡厂家    保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述文山防火门专用胶厂家,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

友情链接:

产品中心 新闻资讯 联系奥力斯

Powered by 任丘市奥力斯涂料厂 RSS地图 HTML地图

Copyright Powered by站群系统 © 2025-2054