常用: 学生 教职工 校友 OA系统 邮件系统 VPN系统 图书馆 智慧门户 EN
首页 开云盘口 开云kaiyun(中国) 多轮Agent蒸馏终于不翻车!港华文x通义新要领顺利率

开云kaiyun(中国) 多轮Agent蒸馏终于不翻车!港华文x通义新要领顺利率暴涨18点,检会还快32%

发布时间:2026-05-09 来源:开云盘口 作者:admin 浏览:106

把强项模子的能力"蒸馏"给小模子,听起来很好意思——

但放到多轮对话 Agent 场景里,结束时时一塌蒙胧。

为什么?

香港华文大学聚会阿里通义职业群给出了谜底,并提倡了一种名为 TCOD(Temporal Curriculum On-Policy Distillation)的检会要领。

上图(左)示意在多轮 Agent 的 OPD 检会中,跟着交互轮次的加多,老师模子对学生生成回话中各 token 的概率分派捏续裁汰,标明每轮的 KL 散度收敛攀升,最终导致监督信号失效。(右)示意原始 OPD 使用完好轨迹进行检会,因此包含了通盘积贮的差错;而 TCOD-F2B/B2F 则通过课程学习,从短轨迹渐渐彭胀至长轨迹,有用躲避了差错轮次的烦嚣。)

团队发现失效的根底原因在于轨迹级 KL 不清楚性,每一轮差错收敛积贮,把学生模子推到古道模子从未见过的景色区域,古道的监督信号因此透澈失效。

而 TCOD 用课程学习的想路,让学生模子从短轨迹入手、秩序渐进地学习完好轨迹,一举搞定了多轮 Agent 蒸馏的清楚性难题。

TCOD 只需对现存 OPD 代码作念少许篡改

On-Policy Distillation(OPD)依然在 SFT 和 RL 之后,成为了第三种有用的 post-training 检会状貌。

联系词 OPD 天然在数学推理等单轮任务上很好用,但放到 ALFWorld、WebShop 这类多轮交互任务里,径直翻车:

小模子:KL 散度飙升 + 顺利率坍弛到接近 0

大一丝的模子:天然最终照料,但运行 KL 极高,检会极不清楚

( ALFWorld 上不同师生模子组合的轨迹级 KL 分析。 ( a ) ( b ) 表示,在通盘检会经由中 KL 散度捏续攀升,同期任务完成率出现坍弛。 ( c ) 展示了 OPD 检会中运行 KL 与照料后 KL 之间的雄壮差距。 ( d ) 揭示了背后的根底原因:KL 散度随交互轮次的加多而增大,标明差错沿轨迹场所收敛积贮放大。 )

那 TCOD 是何如搞定的呢?

中枢想路很简便:别一入手就让学生孤独走完好条轨迹,用课程学习,从短到长渐渐来。

具体有两种变体:

F2B(前向到后向):先让学生认真前几步,再渐渐接管后续才略

B2F(后向到前向):先让古道指点到接近颠倒的景色,学生只认真临了几步,再逐渐上前蔓延

两种状貌只需对现存 OPD 代码作念少许篡改。

KL 崩溃被透澈压制,小模子径直"满血回生"

团队在三个难度递加的多轮 Agent 基准上考据了 TCOD 的结束,包括 ALFWorld(具身导航)、WebShop(电商购物)以及 ScienceWorld(科学推理)。

在这些基准上,TCOD 顺利率最高擢升了 18 个百分点,同期把平均行径步数也一并压了下来。

最值得眷注的,开云体育是小模子的"死而复生"。

以Qwen3-1.7B为例,用 Vanilla OPD 检会后,模子在三个基准上的平均顺利率仅有0.17%。

这确凿是绝对崩溃、毫无可用性。

但换上 TCOD 之后,统一个 1.7B 小模子的平均顺利憨径直拉升至18% 以上,擢升幅度高出 18 个百分点。

这意味着,TCOD 把一个"废了"的模子从头训活了。

关于更大的模子,TCOD 则是镌脾琢肾。

以Qwen2.5-3B学生模子为例,在 ALFWorld 的 Valid Unseen 测试集上,Vanilla OPD 顺利率为60.45%,而 TCOD-F2B 的顺利率为79.19%,擢升了 18.74 个点。

不仅如斯,TCOD 还把完成任务所需的平均行径步数压缩了 2.97 步,推理遵守和任务性能同步擢升。

TCOD 与 OPD 在 ALFWorld 上的检会动态对比

上图 ( a ) ( b ) 分离展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的看成 teacher 模子时的顺利率与 KL 散度变化弧线。TCOD 在通盘检会经由中永久保捏更高的顺利率,同期 KL 散度也愈加平稳可控。

TCOD 与 OPD 在 ALFWorld 上的检会动态对比

上图 ( a ) ( b ) 分离展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的看成 teacher 模子时的检会经由中的平均行径步数与上风函数的变化弧线。

照看东谈主员还非常构建了一个Hard 测试集——

121 个老师模子 pass@10 采样沿途失败的任务,老师自己顺利率仅 6.61%。

结束,Qwen2.5-7B 学生模子在 TCOD-B2F 的检会下,Hard 集顺利率达到 20.66%,比老师向上整整 14 个点。

让模子学会"从短到长、秩序渐进"地走轨迹,不仅能学会古道会的,还能泛化到古道根底不会的任务。

△TCOD 与 OPD 在 ALFWorld 上的域外泛化及用功集性能对比

另外,照看东谈主员还测试了检会遵守。

TCOD-F2B 和 B2F 比 Vanilla OPD 减少了约32%的总检会本事。

原因也很径直:课程学习早期只走短轨迹,rollout 更短、数据采集更快,省下来的计算量至极可不雅。

团队还进一步考据了超参鲁棒性,发现课程彭胀速度 η 在 {2,4,6} 之间变动,顺利率波动不高出 2%,确凿不需要调参就能径直用。

TCOD 展现出的这种"秩序渐进"格式,让 AI 更接近东谈主类学习的状貌。

也即是先在简便场景里站稳脚跟,再渐渐挑战复杂任务,而不是一入手就被扔进深水区。

将来,这类时序课程机制很可能成为检会长程 Agent 的标配组件。

论文:https://arxiv.org/pdf/2604.24005

GitHub:https://github.com/kokolerk/TCOD

ModelScope:https://modelscope.cn/collections/wjqkoko/TCOD

Hugging Face:https://huggingface.co/collections/kolerk/tcod

一键三连「点赞」「转发」「注意心」

宽贷在探求区留住你的目的!

—  完  —

咱们正在招聘又名眼疾手快、眷注 AI 的学术裁剪实习生  � �

感兴味的小伙伴宽贷眷注 � �  了解细则

� � 点亮星标 � �

科技前沿推崇逐日见开云kaiyun(中国)

UED体育中国官方网站入口