• 最新
无畏契约:Swerl捷风飓刃无双十秒团灭,NOVA让一追二力挫JDG_

第16回合刚开局Swerl的捷风就突到A区大道门外打掉了YiHao的幽影,失去了主要烟位的JDG在回防上的操作空间被进一步压榨,仅存的KO和捷风只能选择保枪同时把赛点让给了NOVA。赛点局到来NOVA继续四人控制中路,见A区小道封烟以后...

豆包大模型团队正式开源首个多语言类SWE数据集

伴随强化学习崛起,豆包团队还同步开源了Multi-SWE-RL,为RL在真实代码环境中的训练提供了标准化、可复用的数据基础设施。目前Multi-SWE-bench论文、代码和数据集已全部公开。

MetaSWE-RL:强化学习重塑代码AI,开源生态催生“数字软件工程师”2025年2月26日,Me

Meta SWE-RL:强化学习重塑代码AI,开源生态催生“数字软件工程师” 2025年2月26日,Meta AI实验室发布全新代码大模型Llama3-SWE-RL-70B,首次将强化学习(RL)与开源项目演化数据深度结合,在软件工程任务中实现里程碑式突破...

o3拿下IOI 2024金牌!新论文公布RL秘诀:AI自己设计测试时推理策略,无需人类干预-...

如上图所示,与GPT-4o相比,o1-preview在SWE-bench上的性能提高了 8.1%,展示了推理能力的显着进步。通过在训练期间应用额外的RL计算,o1进一步改进了8.6%。值得注意的是,训练计算资源比o1多得多的o3,比o1改进了22.8%,...

LLM的范式转移:RL带来新的 Scaling Law_推理_agent_能力

而 code 领域已经出现了复杂分工:PM 理解需求设计原型、SWE 开发程序、QA 验证代码、SRE 进行运维。前面提到 self-play 其实是一个 multi-agent 分工环境,高效的分工影响了 RL 的质量上限。OpenAI 在今年 6 月宣布内部训练了...

OpenAI科学家姚顺雨:o3发布、RL迎来新范式,AI正式进入下半场|算法|rl|神经网络|agent|openai_网易订阅

他是 Agent 领域的最前沿探索者,这个领域不少最重要的 framework 和 benchmark 都来自他 Phd 期间的工作:ReAct、Tree of Thought、SWE_Bench。这篇博客主要内容来自姚顺雨在 CS 224N 和 Columbia 大学所做的演讲。Founder ...

OpenAI:AI下半场!强化学习(RL)终于奏效了|算法|智能体|预训练|人工智能|openai_网易订阅

谷歌软件工程师(SWE)在越来越熟悉代码库的过程中,会越来越擅长解决谷歌内部的代码问题,但软件工程师智能体在同一个代码库中解决许多问题时却无法获得这种熟悉感。我们显然需要长期记忆方法(而且确实有),但学术界没有...

Kimi、DeepSeek中门对狙?中外开发者大对比还暗讽OpenAI,DeepSeek新涌现被赞爆!算法|rl|大模型|kimi|...

在工程导向的编程任务中,OpenAI-o1-1217 在 Aider 上表现优于 DeepSeek-R1,但在 SWE Verified 上两者表现相当。Jim Fan 表示,“它或许是第一个展示强化学习飞轮效应(RL flywheel)重大且持续增长的开源项目。他还暗讽了...

【天风海外】OpenAI发布o3模型:推理能力进一步大幅提升,大幅拉近与人类距离,AGI的重要节点推理能力真正...

该模型在编程能力方面表现出色,CodeForces评分超过2700,达到了世界顶尖竞技程序员的水平,我们在o1发布前认为OpenAI新模型只有SWe Bench达到70%以上才是本质的突破。达到真正的“AI程序员”和“AGI”的雏形,o3这一代模型在...

LLM的范式转移:RL带来新的 Scaling Law 从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 ...

而 code 领域已经出现了复杂分工:PM 理解需求设计原型、SWE 开发程序、QA 验证代码、SRE 进行运维。前面提到 self-play 其实是一个 multi-agent 分工环境,高效的分工影响了 RL 的质量上限。OpenAI 在今年 6 月宣布内部训练了...

相关阅读