专题

微软教小模型推理进阶版

当前，《微软教小模型推理进阶版》专题栏目正在密切关注相关热点，汇聚互联网上的最新资讯，为读者揭示事件的全貌及其深层逻辑。本栏目将持续更新，致力于提供全面、及时的信息，满足公众对#微软教小模型推理进阶版#资讯的关注。

这项由Yifei Liu、Li Lyna Zhang（项目负责人）、Yi Zhu等研究人员完成的工作，发表在arXiv预印本网站（arXiv:2505.21297v1），为大型语言模型（LLMs）的代码推理能力提供了全新的解决方案。有兴趣深入了解的读者可以通过...

港中文、微软联合8家单位推出 OpenThinkIMG开源框架，这是一个专为提升AI视觉工具使用和推理能力而设计的一站式平台。众所周知，我们人类在解决问题时，常常会借助视觉工具：解几何题时画辅助线，分析图表时用荧光笔标记。这些...

5 月 1 日消息，微软昨日（4 月 30 日）发布 Phi-4-reaso ning 系列推理模型，通过监督微调 Phi-4，并利用 o3-mini 生成的高质量“可教导”提示数据集训练，专为复杂推理任务设计。援引博文介绍，微软本次共推出 Phi-4-...

DeepSeek R1模型升级后，复杂推理能力大幅提升，在AIME 2025测试中准确率从70%提升至87.5%。谷歌I/O 2025展示了AI大模型及产品的全面升级，包括...AI Agent及算力仍是最明确的投资方向，产业持续进阶，算力与Agent静待催化。...

RRMs基于Qwen2模型，采用Transformer-decoder架构，将奖励建模转化为文本补全任务，生成推理过程后给出最终判断。研究团队利用RewardBench库进行系统分析，评估指标包括指令遵循性、帮助性、准确性、无害性和细节水平。RRMs还...

近日，科技界迎来了一项新的突破，微软研究院携手中国顶尖学府清华大学与北京大学，共同推出了一项名为奖励推理模型（RRMs）的创新技术。...RRMs基于Qwen2模型，采用了Transformer-decoder架构，将奖励建模转化为文本补全任务。...

IT之家 5 月 27 日消息，科技媒体 marktechpost 今天（5 月 27 日）发布博文，报道称微软研究院联合清华大学、北京大学组建团队，推出奖励推理模型...Qwen2 模型，采用 Transformer-decoder 架构，将奖励建模转化为文本补全...

最近，微软研究院开源了一款“小而强”的研究：Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。14B参数，不到DeepSeek 70B的五分之一，但数学、科学、代码、逻辑推理的表现，都比较能打。在AIME ...

来自微软、人民大学、纽约大学和华南理工大学的研究团队在2025年5月26日发布的一项新研究中，提出了一个名为\