Rlinf大加固学习框架! Tsinghua大学,北京中冈学院,武文Xinqiong和其他开放源

报告机器编辑系的核心,北京官长学院,Wuwen Xinqiong,北京大学,伯克利大学,伯克利大学和其他机构已经显着打开了大型史密斯级增强框架,这是第一个“ Intelligention of Intelligention of persiment of persiment of persiment of termiment of perciment of termiment of perciment of termiment of termiment of perciment of persiment of persimpers of persimpers of persiment of persiment of persimpers” experiment” ““行动”。基于培训/培训后/培训后/DATA。OpenAI预测,强化学习所需的计算机功能甚至将超过先前的培训。与此同时,RL基础架构的重要性可以有效地使用大型计算机的能力变得越来越重要,并且最近出现了许多优秀的框架,并且在该领域的开发很大程度上鼓励了一份序列。为了加入智能有限的。与纯脑模型相比,有多种模型,例如大脑(以推理和较长的范围计划为中心,例如Robobrain),小脑(侧重于执行,OpenVLA)和小型脑关节(快速且慢的系统)(例如PI 0.5)(例如,PI 0.5)(例如,PI 0.5)(例如,PI 0.5)。其次,除了代理AI的决策属性外,化身智能还具有独特的属性:推送的表示,培训和集成。与与工具呼叫代理和浏览器代理相互作用的模拟器相比,体现的模拟器通常需要有效的并行物理模拟和3D图形表示。因此,当前的主要仿真器通常使用GPU的加速度,而多个步骤的合并决策则为计算机电源和视频记忆的竞争带来了新的挑战。通常,情报领域结合了不仅可以继承推理模型和数字代理的困难,而且继承了引入了表示形式,培训和推力集成的新特征。此外,Incorporated Intelligence模型尚未收敛,挑战性灵活性,努力和框架的易用性。图2:推理模型和化身剂的比较。与这种背景不同,Tsinghua大学,北京中冈学院和Wuwen Xinqiong共同推出了一个大型且可扩展的大型尺寸增强学习框架,以融入Incorporated Intelligence。 EnlacedeCódigorlinf:https://github.com/rlinf/rlinf/rlinfgingface enlace:https://huggingface.co/rlinfusingdocument enlace:https://rlinf.readtheDocs.io/readthedecs.io/en/en/en/en/en/latest/latest/llinfthe inffthe inffthe inffthe inffththe inf inf’Iff’ “INF” INF “INF” INF “INF” INF “INF” INF “INF” INF “INF” INF “INF” INF “INF” INF “INF” INF “INF” INF “INF” INF “INF” “INF” INF “” multiple end integration), execution layer (flexible execution mode), CProgramming APA (automatic programming), communication层(自适应通信),硬件层(异质异质)。与其他帧的单个执行模式相比,RLINF提出的混合执行模式在智能训练方案上实现了系统的120%以上的加速度,VLA模型增加了40%-60%。同时,RLINF的高度灵活和可扩展的设计允许快速应用于其他任务,而数学推断模型1.5B和经过7B训练的型号则在AIME24,AIME25和GPQA-DIAMOND中获得了SOTA数据集。 3:基于代码,使用基于工人的统一编程界面基于代码的RLINF系统和高度执行。当前,有一个加强学习框架通常使用两种执行模式:共享(所有卡都执行相同的组件)和个人(分配不同的组件)。但是,这两种模式在融合智能的特征“集成表示,训练,推力”的特征下存在局限性。主要:由于决定-MA构建代理的几个步骤的国王特征,模型(演员)经常必须与模拟器(模拟器)相互作用。一方面,当前的框架与模拟器状态和模拟器的快速充电不兼容。另一方面,当使用共享版本时,由于需要频繁放电组件,因此系统会大大减少。因此,现有的框架仅在这种情况下支持单个培训,但是如果个人使用多性算法和系统气泡训练相对较大,则回流的不活动率将更高。 Rlinf提出了一种响应此问题的混合执行方式。如图4所示,此模式具有分离和交换的优势。结合细粒流设计,该系统几乎没有气泡。这大大提高了系统的运行效率。图4:共享,孤立和混合执行模式的比较,不容易暗示Elemt一组基于代码的执行模式(即,可以使用配置参数而无需更改代码来实现分离,共享或混合)。标准解决方案是构建计算机流程图,从而导致较低的编程灵活性,并导致纯化难度迅速增加。因此,现有框架通常仅接受一种模式(单独或共享)。需要许多系统开发来引入新的执行模式。为此,宏观工作流程的Rlinf实体创新映射机制可创建麦克风。我们推动了exation的流动(宏到微流,M2Flow)。 M2Flow允许用户使用过程编程方法以灵活的方式创建复杂的培训过程,从而解决传统计算机流程图的结构中编程灵活性低的问题,同时灵活地绘制培训过程到底部的不同执行模式,并选择最佳的执行mod modE用于各种培训过程(例如RLHF,RLVR)。组合自动调度模块)。因此,这种映射机制结合了灵活性,易用性,易用性,易于编辑和声明性编程优化功能。具体而言,RLinf使用基于统一工人的编程接口,这些界面对用户的身份封装在培训过程中,例如模拟器和培训推理引擎,并团结起来,并通过过程编程团结起来以形成完整的培训过程。 M2Flow通过精细的谷物控制控制微效果的流动,即每个工人的执行GPU,执行地段,执行时间等,以实现非常灵活的执行方式。总而言之,RLINF允许用户以高度适应的方式协调组件(演员,批评者,奖励,模拟器等)。可以将组件放置在任何GPU中,并且可以自动配置不同的执行模式。目前,三个执行n模式被录取:放置模式:用户可以配置组件是否同时驻留在GPU内存中,也可以通过下载/下载MaginismRecharge交替使用GPU。拆卸模式:可以顺序执行组件(GPU可能是不活动的)或以通道的方式执行,以确保所有GPU被占据。混合模式:为允许几种倾向形式的个性化组合增加额外的灵活性。一个典型的情况是发电机和基于GPU的模拟器会单独的细粒流。两者都是推理,并与雷纳共享。设计2:为了考虑到型智能大脑的各种培训需求,采用了新的微创多端侵入性解决方案,考虑到效率和易用性。如上所述,合并的智能场是同时存在大型和小的大脑,田地仍在蓬勃发展的时期,而且技术路线尚未收敛。因此,更好地支持不同用户智能智能的需求(例如,结合了大脑研究人员),Rlinf集成了两个后端。 Megatron + Sglang/VLLM:收敛模型的体系结构(例如,内置的-In VLM Brain)可以快速访问自适应模型,并且是进行大型聚类训练的理想方法。通过这种方式,RLinf还使用了一种集成微创训练引擎的新方法,该方法有助于快速整合训练推动引擎的更新版本(用户尝试更改SGLAN版本,并查看文档中高级功能的章节)。 FSDP + hagging脸:支持采用的面部模型(例如,在小脑VLA中建造),没有适应性,包括构建的-Cerebellar VLA。该模型专为智能和具体的专业人员而设计,因为其计算机功率有限,使其更容易访问和体现。图5:Rlinf集成了两组后端。 Rlinf还承认许多紧急需求,Inc吸引了几个网络速度(张量,W B,Swanlab),包括Lora培训,断裂训练和训练可视化(Tensorboard,W B,Swanlab)。此外,RLinf集成了SFT模块,并承诺通过代码集提供独特的服务,以满足各种培训需求。设计3:设计适应性通信库和自动化编程模块,以学习增加学习以提高系统培训和效率的稳定性。 Turation Comicmacanism的适应性:学习的增加有多种组成部分,并且这些组成部分之间存在很多数据相互作用。灵活,有效的间交流是承认强化学习和关键保证可伸缩性框架的有效功能的关键。因此,Rlinf特别设计了一个通信库来加强学习,该库主要包含四种优化技术:自适应通信CUDAIPC/NCCL,负载传输尾巴,L同时多通道通信和高速通信重新配置的肥胖机制。自适应通信cudaipc/nccl:无需用户配置。具有两个相互通信组件的GPU自动选择使用CUDAIPC或NCCL通信。这意味着当在同一GPU和NCCL中发现两个组件时,使用CUDAIPC。负载平衡传输尾巴:当将数据量发送到以下组件的不同GPU时,具体取决于以前组件在不同GPU中生成的数据的大小时,下一个组件的不同GPU的计算量可能接近提高系统的运行效率。图6:多通道加载平衡尾巴的同时通信:多个CUDA电流和多个网络流用于避免直块并减少通信延迟。高速通信重新配置:此特征主要是AI大规模群集中的训练中的MED是在下一个第二级实现动态量表的支持技术之一,有效地解决了对沟通失败和沟通协调的宽容问题。自动减少模块:大规模增强学习框架的优化目标是最大程度地减少非活动系统的资源。现有框架通常使用指定资源配置的解决方案。信任手动体验使浪费系统资源变得容易。 Rlinf设计了一组自动编程策略,使您可以选择用于训练流量和使用计算机资源的最佳执行模式。具体而言,rlinfautomata每个组件的性能分析以获得每个组件资源使用的效率和特征。然后建立了执行模式的搜索空间。该搜索空间分析了SE的分配和多路复用关系增加学习算法的Veral组成部分计算资源,例如“时分的多重”,“按宇宙分裂进行多重化”和两个资源分配方案。在上述建模下,Rlinf自动助剂不仅支持现有的强化学习框架中典型的“共享”和“单独”资源方法,而且还接受了对两者的建模分析分析分析分析。最后,根据先前的性能分析数据,寻求最佳的空间执行方式。此外,AutoScheduling策略还集成了“在线规模”功能。 70B模型5D可以在短短1秒钟内动态调查,而传统解决方案则需要超过10秒或更长时间。此功能和相关文档将在10月的开源版本中提供。根据这项技术,在executi期间,组件之间可以实现更大的计算机资源编程准时。结合细粒流设计,它进一步压缩了系统气泡速度,同时保证了算法的政治属性,并显着提高了训练的稳定性。 Rlinf Rapid性能提出了性能(使用FSDP+拥抱后端测试):在应用程序中,与其他框架相比,Rlinf提供了对动作语言模型(VLAS)+RL的支持。 Rlinf承认基于CPU的常规模拟器(特定平台的Ver文档)接纳了100多个智能任务并集成了一般OpenVLA,OpenVla-Off,OpenVla-Off和PI PI 9月0日。定量指标使用Maniskill3(典型的GPU模拟器)作为典型的示例,以作为证明模式的典型模式,因此可以使用flaw is plinf iss anbrinf iss a inllaf inllaf inllaf inlll is a inllaf is ocompines anbrid anllin is Compines an组合。与其他框架的单个执行模式相比,系统的效率显着加速至120%以上(图7)。使用PPO算法和GRPO算法后在Maniskill3中纳入25个任务[1],成功率曲线如图8所示。模型成功率从SFT后的30%增加到50%,增加到80%到90%,发现超过40%-50%。在四个ISCenarios中,经过Rlinf和Incorporated Group算法培训的OpenVla-Offero公共测试平台,与S. FT模型相比,平均成功率达到97.3%,增加了62.4%。该团队的序言工作调查了RL和SFT之间的差异,以改善VLA的概括[1]。 Rlinf进一步扩展了有关大规模场景的研究,并有助于研究Incorporated Intelligence领域的RL量表方法。相关模型在https://huggingface.co/rlinf上打开。欢迎下载并尝试。图7:Rlinf通过“集成表示,训练和推动”的“集成训练和推力”,大大加速了120%。 1:评估结果的推理表现THM(使用Megtatron+SGLANG后端测试):浮雕智能是应用程序应用程序应用程序的一个功能,但是Rlinf系统设计思想不仅限于浮雕智能。灵活而可扩展的设计概念可以快速支持其他应用程序,从而反映其多功能性。以Rlinf支持的推理的出色训练模型为例,该团队集成了优化的组算法[2] [2]训练了一种出色的数学推理模型。数据集是areeal-boba数据集[3],基本模型是DeepSeek-R1-Distill-qwen。评估是在三个测试集(AIME24,AIME25,GPQA辅助符号)中进行的,平均32个样本,并在表2和3中显示了Pass @1的测试结果。Rlinf-Math-Math-Math-1.5b和Rlinf-Math-Math-Math-7B在三组测试中实现了SOTA的性能。 (注意:表中的所有模型均为Huggingface开源模型,统一测试的相关模型https https:// github.com/rlinf/llmevalkit)相关模型,这是在https://huggingface.co/rlinf上打开的。欢迎下载并尝试。表2:1。当Rlinf开始开发时,该目标是开源的。因此,使所有用户可以理解,使用和修改成为可能是出色的开源框架和重要属性的设计原理之一。该设备使用公司级代码开发过程来确保文档内容涵盖从入门级开发到详细开发的所有级别需求。此外,RLinf还提供了完整的API文档,并在AI的问题和答案中逐步提供了一个集成的问答环节,以提高开发经验和支持效率。图9:文档链接rlinf https://rlinf.readthedocs.io/en/latest/rlinf团队开发的成员在共同研究中具有历史,其中包括完整的算法算法系统技术,包括完整的SY学习STEMS建筑,建筑设计,分布式系统,大型培训,大规模培训,环境影响学习,环境学习,环境学习,环境学习,环境学习,其他应用。正是由于这种交叉上下文,设备可以加速应用程序要求的算法设计,指导算法系统的设计,有效的系统可以加速算法的迭代,并反映大型时代的科学研究形式的新形式。将来,RLINF团队将继续发展和维护。有关特定路线图,请访问GitHub网站。 Rlinf项目地址https://github.com/rlinf/rlinf.exchange技术视图,可能会有可能的合作机会。同时,RLINF团队继续招募博士后,博士学位,硕士学位,研究人员,工程师和实习生。感谢您的课程,并与我们合作在下一代增强学习基础设施的建设和发展。联系信息:zoeyuchao@gmail.com,yu-wang@mail.tsinghua.edu.cn参考材料:[1] Liu,Jijia等。 “ RL可以为VLA概括带来什么?一项实证研究。” ARXIV ARXIV预印象:2505.19789(2025)。 [2] https://github.com/inclionai/areal [3] https://huggingface.co/datasets/inclionai/areal-boba-data
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注