你的位置：任丘市奥力斯涂料厂 > 新闻资讯 >

新闻资讯

发布日期：2026-05-14 17:36 点击次数：150

迪庆万能胶生产厂家 Auto Research时代，47个没有标准答案的任务成了Agent能力测榜

如果把 AI 丢进个没有标准答案的工程现场迪庆万能胶生产厂家，它还能活下来吗？

长期以来，AI Agent 看起来所不能，实则大多是在已知知识库里"翻记忆"。

但真实的工程世界是残酷的：水下机器人的稳定、动力电池的析锂边界、量子线路的噪声控制……这些问题没有"满分"，只有"逼近限的优化"。

近期，Einsia AI 旗下 Navers lab发布的 Agent Benchmark ——Frontier-Eng Bench，正式撕掉了 AI "做题"的标签。

研究团队没有让 AI 刷那些陈旧的代码题，取而代之的是，给了它套完整的"工程闭环"：提出案、接入仿真器、吃报错、改参数、重跑。

在47个多学科交叉的硬核任务面前，AI 须表现得像资工程师样，在功耗、安全、能的"不可能三角"中寻找优解。

这不仅仅是个测试集，它像是场关于 Agent "进化"的预演。

当 AI 开始学会在反馈中自我修正，那个"人类提目标、AI 则 24 小时不间断迭代"的Auto Research时代，可能比我们想象中近了。

AI 开始干"硬活"了

过去的大模型，像个学霸。

你抛出问题，它从海量训练数据里"翻记忆"，然后拼凑成个看起来很理的答案。

这种模式下，大模型本质上是在玩"文字接龙"，而非解决现实问题。

但 Frontier-Eng Bench 的出现，却让 AI 干起了"工程优化"的活儿。

流程转而变成了让 AI 先提出案、再接入 simulator 跑实验、继而获取反馈和报错、修改参数和代码、再继续重跑，直到能继续上涨。

在这种闭环系统中迪庆万能胶生产厂家，AI 的身份发生了质变。

你想让水下机器人稳定？AI 须开始自动调控制器。

你想把机械臂速度再提升点？AI 得自己跑仿真。

某种程度上，AI 们已经脱离了单纯的语义理解，开始像个职业工程师那样，在真实环境反馈里做持续优化。

△Frontier-Eng Bench 总览

Frontier-Eng Bench 有意思的地在于：它测的不是 AI "答对没有"，而是AI 到底能不能持续变强。

因为真实的工程优化，从来不是做选择题，没有唯的标准答案。

以电池快充为例，目标听起来很简单——充得越快越好，但现实没那么容易。

AI 须在温度不能爆表、电压不能速、电池寿命不能掉太快、还要避析锂的严苛约束下，踩中能的平衡点。

这意味着 AI 法通过任何技巧的"刷题"来通关，它须在长程反馈中展现出持续进化的耐力。

那 AI 能不能在真实环境里做长期优化？

从结果来看，GPT5.4整体表现稳，但距离把 Benchmark "做穿"，AI 们要走的路还很远。

△不同模型的详细评测结果 Auto Research 进入"迭代优化"时代

研究团队在论文里提了个非常有意思的点：迪庆万能胶生产厂家

真正的智能，本质上都依赖长期反馈闭环。

正如 AlphaGo 之所以能击败李世石，在于其每步决策背后不见底的海量模拟与即时反馈，而非对既定棋谱的死记硬背。

真正的科研也样，顶实验室并不依赖某次的灵感爆发，保温护角专用胶而是不断地提假设、跑实验、看结果、改案、再继续尝试。

工程优化也是同理，版往往谁都能做，真正难的，其实是后那 1 的能跃迁。

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

Frontier-Eng Bench 的意义就在于：它次开始系统地测试 AI 的"迭代优化能力"，并总结出了两条近乎残酷的 AI 进化规律。

△工程优化的双重幂律衰减

个规律是：越往后，提升越难。

这篇论文发现，Agent 的改进频率和幅度都呈现幂律衰减：

改进频率∝ 1/ 迭代轮数

改进幅度∝ 1/ 改进次数

简单说就是：前面几轮涨得快，后面越来越难、越来越小。

这很像真实研发过程，版 AI 能快速干掉大量"低垂果实"，但越往后越接近瓶颈，想再抠点能都得下狠功夫。

那是不是多开几条路并行试错迪庆万能胶生产厂家，会划？答案藏在二个规律里。

△度 vs 宽度

二个规律：宽度有用，但度不可或缺。

并行多跑几条线能避卡壳，但预固定时，每多开条链就会压浅度。

很多工程突破需要靠持续积累、不断修正，才会出现结构跃迁，并不是说靠"多试几次"就能实现。

这其实提示了我们下代 Agent 的发展向：不是"次出答案"的模型，而是能在长程反馈里持续迭代、自我进化的系统。

AI 工程师，可能真的要来了

这项研究真正的远意义，在于它初步勾勒出了套开始接近真实工程循环的 AI 系统。

△Frontier-Eng Bench 体系概览

试想下，当 AI 接入工业软件、仿真环境、CAD 系统、芯片设计工具、科学计平台……

场生产力模态的剧变便呼之欲出。

未来的实验室里，很可能会出现这样种分工：

人类研究员负责提出向和目标。

例如"把这个部件的能耗降低 30 "、"把这个模型前向的 GPU 占用率压得低"、"让机器人控制的稳定再提升点"、"让量子线路的保真度继续逼近限"等等。

而 AI 负责"死磕路径"，它们围绕这些目标，持续优化。

例如自动运行仿真与实验、自动读取 verifier 与 simulator 的反馈，再继续修改和优化，24 小时不停迭代。

这种进化逻辑，让 AI 摆脱了"辅助工具"的身份，开始像个真正的工程团队那样去解决复杂系统问题，而且不知疲倦。

而 Frontier-Eng 这 Benchmark 揭示的问题，其实也非常直接：

当 AI 开始学会"长期优化"，它距离真正的工程智能，还有多远？

论文题目：Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

项目主页：https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

* 本文系量子位获授权刊载，观点仅为原作者所有。

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

相关词条:离心玻璃棉塑料挤出机钢绞线厂家铝皮保温 pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：儋州pvc管粘接胶港股持续拉升，恒生科技指数涨1，蔚来涨幅扩大至近17

下一篇：昌都泡沫板胶新势力的桌，形成“多强”的局面

推荐资讯