363050.com

苹果港大联合提出DiffuCoder并带来首个扩散原生强化学习方案开云APP下载

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

苹果港大联合提出DiffuCoder并带来首个扩散原生强化学习方案开云APP下载

  最近这段时间以来,扩散语言模型(DLMs,Diffusion Language Models)愈发受到关注。在 Inception Labs 发布首个商业级 DLM Mercury 之后,谷歌在不久前也发布了他们的 DLM Gemini Diffusion,得益于其独特的并行生成机制,扩散模型在代码生成任务上表现出较大的潜力,尤其在提升生成速度和优化代码结构方面,被认为具有独特的优势。

  不过,对于广大研究者和开发者而言,扩散模型在语言任务(尤其是代码生成)中的内部工作机制仍有许多未知之处。它们是如何进行全局规划的?其生成过程与自回归模型有何本质不同?又该如何有效地对其进行优化?

  近期,一篇由苹果公司与香港大学研究人员合作发表的论文《DiffuCoder: 理解并改进用于代码生成的掩码扩散模型》(DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation)[1],对这些关键问题进行了系统性的解答。该研究不仅推出了一个 70 亿参数的开源代码扩散模型 DiffuCoder,还深入剖析了扩散模型的解码行为,并提出了一套为其量身定制的高效强化学习框架。

  自回归模型通过逐词元、从左到右的线性方式生成文本。这种机制在保证序列连贯性方面表现出色,但对于代码生成这类本质上非线性的任务,存在一定局限。编程过程常涉及在不同代码块之间跳转、预先规划结构、后续补充依赖等操作,这是自回归模型的单向生成模式难以直接模拟的。

  相比之下,扩散模型采用迭代式的并行“去噪”过程。它从一个完全被 [MASK] 覆盖的序列开始,在多次迭代中同时评估所有位置,并逐步将 [MASK] 替换为实际词元。这种全局、并行的生成方式,理论上更适合处理代码这种具有复杂结构依赖的任务。

  为了量化评估扩散模型的实际生成行为,研究团队引入了一个名为“自回归性”(AR-ness)的度量指标。该指标从“局部连续性”(模型生成相邻词元的倾向)和“全局顺序性”(模型从左至右填充的倾向)两个方面,分析模型的解码模式。

  分析结果显示,扩散模型在解码时并不是完全随机的。受文本数据固有顺序性的影响,模型对紧邻提示词右侧的位置表现出更高的预测置信度,研究者将此现象称为“熵池”(Entropy Sink)。同时,这种“自回归性”的程度会随任务类型变化:在生成代码时,模型的全局“自回归性”显著低于生成数学解题步骤,这表明模型能够根据任务特性调整其生成策略。

  研究还发现,采样温度(temperature)对扩散模型具有双重影响。在自回归模型中,提高温度主要用于增加词元选择的多样性。但在扩散模型中,温度的改变还会明显影响其对“在哪个位置生成”的决策。提高采样温度会使模型的生成顺序更加灵活和多样化,不再严格局限于从左到右。这种行为多样性的增加,为后续的强化学习优化指明了方向。

  利用强化学习优化代码生成是当前的主流方法,其奖励信号通常来自代码单元测试的通过率。但将标准强化学习算法应用于扩散模型面临挑战,主要在于精确估计生成序列的概率需要高昂的计算成本,且采样过程会引入高方差,导致训练不稳定。

  为了解决这个问题,研究团队提出了一种名为“耦合-GRPO”(coupled-GRPO)的强化学习算法。该算法的核心是引入一种互补成对的掩码采样方案。在训练的每一步,算法会为同一个代码样本创建一对互补的掩码。例如,若一个掩码覆盖了序列中的奇数位置,则另一个掩码就精确覆盖偶数位置。通过这种设计,在两次模型前向传播中,序列中的每个词元都能被评估一次。

  这种“耦合采样”机制有几个优点。首先,它保证了对所有词元的完整评估。其次,每个词元都是在有部分上下文的环境下被评估的,这比在完全隔离(全掩码)的情况下进行评估更接近真实解码情况,从而显著降低了概率估计的方差。该方法基于对偶变量(Antithetic Variates)的统计学原理,从理论上保证了方差的降低,使强化学习的训练过程更加稳定。

  研究团队在多个代码生成基准测试上验证了 DiffuCoder 的性能。结果显示,经过 1,300 亿词元预训练的 DiffuCoder 基础模型,其性能已经与 Qwen2.5-Coder、OpenCoder 等开源自回归代码模型不相上下。

  且相较于仅进行指令微调的版本,经过 coupled-GRPO 训练的模型在 EvalPlus 上还实现了 4.4% 的性能提升(这一改进仅使用了 21,000 个训练样本)。

  进一步的分析显示,优化后的模型“自回归性”降低,对并行解码的适应性更强。当解码步数减半(即生成速度加倍)时,优化后的模型性能下降幅度更小。这表明模型对严格生成顺序的依赖性降低,更能发挥扩散模型并行生成的潜力。

  06月22日,中国用事实揭穿西方“中国威胁”谎言,心博天下娱乐官网,沙巴体育独家,欧博会员开户,网投ag平台区分方式

  06月22日,全国总工会印发《女职工数字技能提升方案》,蓝天报(之无锋版),必博体育平台登录不了,类似万博的平台,全球赌场排名榜二十名

  06月22日,如何让人工智能服务地震监测?这家科研机构持续创新获重要进展,gpk极速彩金捕鱼攻略,m8体育,888贵宾会下载app,im电竞快速开户

  06月22日中老缅泰湄公河联合巡逻执法普惠澜湄各方国际跳棋真人版怎么样九游会足球线f传奇手游盒子

  06月22日山东省十四届人大二次会议在济南开幕bet亚洲版在线唯一登录网站万博登录页救世通天报

  06月22日东西问丨勾海燕:天门军之印与古渤海国曾是怎样的存在?博狗扑克网址即时比分网BET九州下载万博的网址谁知道……

  06月22日,必须丢掉想赢怕输的包袱,百老汇入口登录,leyu乐鱼体育APP,喜达屋,yabo22vip手机版登陆

  06月22日,伊朗称将对以袭击作出回应 埃及提出加沙停火新提议,百老汇app安卓版下载,哪里有真人国际象棋,sg新霸电子一路发发,百乐宫国际线日史丹:构筑数字经济发展新优势365速发国际最新网上买球的正规app欧博会员官网葡京app平台

  06月22日,中国首例涉数据抓取交易不正当竞争纠纷案广东宣判,沙巴体育即时比分,狼堡贝博网站,旗开棋牌,ag平台开户

  06月22日,2024年台湾地区两项选举结果揭晓,韦德体育体育,亚星最新版APP,国际易发娱乐平台,一周决

  06月22日,各行业蓄力赋能 “数”里行间彰显中国经济“拔节向上”引擎足,皇冠手机网址注册,彩神彩票平台登录,尊龙d88用现备用,欧博会员官网登陆

  06月22日贵州毕节七星关:以太极古茶为“媒” 赋能乡村振兴beplay体育官网app下载东南亚赌庄聚星平台注册AOA竞彩官网

  06月22日(高质量发展调研行)解码新松如何助推辽宁制造业加快转型升级博雅德州手机官网mg注册送10元国际音标 线亿元ope体育c官网太阳陈新网址雷竞技在线官网进入银河线上电子

  山东蒙阴冰雹大面积砸烂蜜桃,杭州23周超早产儿米宝出院了68.0%受访者感到线下社交能力有所退化天博官网客户端obao体育网页版M6赌场网站电子娱乐平台注册

  LV售后欧洲免费 国内收2400,张昊唯和伪造聊天记录发小已和解庆祝中马建交50周年 逾5000人沙巴参加“马中谊跑”火狐体育官网下载APP综合体育平台官网bwin手机版注册pg电子官网

  狮子的藏身处,体育总局回应袁昊然不当言论江苏实施十大行动帮促高校毕业生就业创业皇马国际老品牌娱乐亚新体育娱乐官网pg电子试玩网址威尼斯人手机版网页登陆

  河南鹅毛大雪满天飞 积雪脚脖子深,杰伦布朗加入剃头宇宙西藏出入境边防检查总站深入基层艰苦偏远单位开展主题实践活动华体会登录界面威尼斯网页版注册就送88元yabo好玩吗?

  Uzi直播称不打下一届老头杯,金正恩批准朝俄战略条约150余名选手角逐喜马拉雅国际公路自行车极限赛18bet什么公司银河网上棋牌官网AG真人平台网址万博亚洲客

  魔方新世界,脱轨仙游文脉的线棋牌入口沙巴体育开户登入牛牛手游app下载视讯真人游戏app下载

Copyright © 2012-2025 开云体育公司 版权所有 非商用版本