HF位列榜单第一。真正的端到端 AutoDeco 模型消除了手动参数调整和解码

大规模语言模型(LLM)“炼金术士”可能面临针对不同任务和不同模型手动调整解码超参数(例如温度和上p)的常见问题。这个过程不仅费时费力,而且如果模型或任务发生变化,过去的经验立即失效,一切都得重新开始。这种繁琐的试错过程在很多研发团队的日常沟通中很常见,如下图所示。图1:研发人员手动调整解码参数的日常工作。灵魂的折磨还在继续。为什么模型不能学会自己解码以实现真正的“端到端”?其实我们在各大机器厂商的API文档中都看到过这个问题。以DeepSeek为例,其官方文档明确推荐了针对每种场景设置完全不同的温度值。这似乎扩展了单一静态参数设置。图2:不同的t要求不同的解码参数,使得静态配置很难适应现实世界复杂多变的需求。近日,腾讯AI Lab研究员王岩及其团队与香港中文大学(深圳)唐晓英教授、博士生王志超一起给出了一个优雅的答案。他们推出了名为 AutoDeco 的新架构,目标是一劳永逸地结束手动解码的“手工坊”时代。这项名为“手动解码的终结:迈向真正的端到端语言模型”的研究通过允许模型动态预测和控制自己的解码参数,向真正的端到端语言生成迈出了重要的一步。文章链接:https://huggingface.co/papers/2510.26697 代码链接:https://github.com/Zacks917/AutoDeco 模型链接:https://huggingface.co/collections/Jadeislaw/autodeco 图 3:AutoDeco 名列拥抱脸日报榜首 尽管 LLM 本身现在已经高度集成磨碎后,其制作过程的“最后一公里”:解码仍然是一个固定的环节。它是一个独立且不可微的模型。研究小组将其与“手动变速箱”进行了比较。无论电机(LLM)有多大,变速(参数调整)仍然依赖于手动操作。 AutoDeco的核心思想是为LLM配备“自动变速箱”。通过在标准 Transformer 架构中引入两个超轻预测头,该模型可以根据每个代币生成时的当前上下文信息动态预测下一代的最佳温度。和更高的 p 值。其架构如下图所示。图 4:AutoDeco(上)和传统手动解码(下)的比较。 AutoDeco 将解码参数预测无缝集成到正向模型传播中,从而实现动态自调整。主要挑战和技术进步:我们如何针对没有“标准”的任务进行训练这个想法很棒,但研究团队面临一个关键挑战。问题是如何训练这些预测技能。监督学习是不可能的,因为训练数据并不总是有“正确”的温度和顶部标签。为了实现这一目标,团队提出了一种创新的、完全全面的训练策略。他们设计了一种新的可微分机制“软顶-p”(soft-top-p),巧妙地取代了传统top-p采样中不可微分的“硬截断”操作。图5:可微分P软顶(橙色线)与传统P硬顶(绿线)相比,soft-top-p的平滑特性打开了从最终损失到解码参数预测头的梯度路径,这种设计的巧妙之处在于它允许从最终“下一个词预测”损失到解码参数预测头的梯度平滑地向后传播。y,模型可以“被迫”学习如何通过优化标准下一个标记预测任务中最终产生的结果来动态调整其解码策略,而不需要额外的注释数据。 AutoDeco令人难以置信的性能:3大亮点 通过对Llama、Qwen和Deepseek等多个传统模型系列的广泛实验,AutoDeco展示了其强大的功能:卓越的性能和多功能性。实验结果表明,AutoDeco 不仅始终优于贪婪搜索和默认采样等传统基准测试技术,而且其性能与使用测试套件进行调优的“Oracle 调优基线”相当或更好。图 6:AutoDeco 在多个通用和数学任务基准上实现了 SOTA 性能,展示了其强大的泛化能力。最高效率和易用性 AutoDeco 的预测头设计非常轻巧。额外的推断这引入的延迟通常仅为 1.7%,并且内存开销几乎可以忽略不计。对于开发者来说,访问AutoDeco模型只需要修改几行代码,就可以“免费”享受性能提升。 “说你说的”:自然语言控制能力的突破性研究中最有趣的发现之一就是 AutoDeco 的“使用自然语言控制解码”能力的出现。用户可以通过自然语言直接在消息中发出指令,例如“我希望回复更有创意”。 ”,模型“理解”并自主增加预测温度和上p值,整个过程清晰可见。图7:不同指令下AutoDeco预测的T/P值变化。从左到右:基线、高创造性指令(T/P值自发增加)、高确定性指令(T/P值自发减少)。当然,au雷神承认这种能力并不完全完美,无法非常精确地控制。 Prop他们提供了详细的、高精度的自然语言控制解码,这不能通过简单地调整AutoDeco模块来实现,而是需要对模型参数进行完整的调整,这就是为什么作者没有发布具有自然语言控制的AutoDeco头的权重。 AutoDeco一经发布,迅速引起全球人工智能界的关注,在Twitter等社交平台上引发热议和好评。 8:AutoDeco 在更大的建模社区中得到了广泛讨论和高度重视。该团队现在拥有完全开源的论文、代码和 AutoDeco 头,接受过多个主流模型的培训,包括适合大规模生产模型的版本,如 Deepseek V3.1、Qwen3-235B 和 GPT-OSS-120B。正如研究人员所说,这项工作旨在将研究人员和开发人员从繁琐的微调任务中解放出来。设置参数并共同迈向一个新的、更智能的时代。以及更加自动化的 AGI。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注