• 最新
首次解释LLM如何推理反思,西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

BARL通过端到端的RL优化自动实现了这一点,可谓以原则化的方式赋予了LLM在推理过程中的“何时反思、如何反思”的指南,达到了以一条长CoT线性化best-of-N的效果。合成任务案例:更清楚的对比RL和BARL 为了直观展示BARL如何在...

开放式验证码:解读MBZUAI团队多模态LLM智能体测试平台

本·扎耶德人工智能大学)VILA实验室和MetaAgentX的研究团队发表了一篇题为《Open CaptchaWorld:A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM ...但它们在处理需要多步骤、交互式推理的...

HARDTESTS:提升LLM编程能力的高质量测试用例研究

例如,在人类编写的错误程序中,14.9%是由于TLE(超时)导致的,而在三个LLM编写的错误程序中,30.0%是由于TLE导致的。...研究团队从DeepSeek-R1为HARDTESTGEN中的每个问题采样了一个带有C++解决方案程序的推理轨迹,去重和去污染...

UC伯克利新作颠覆认知:LLM靠「自信爆表」学会推理?无需外部奖励超进化

新智元报道 Aeneas 犀牛【新智元导读】不靠外部奖励,LLM纯靠「自信爆棚」,就能学会推理了?UC伯克利的华人团队发现,LLM居然跟人一样!

ACL2025|传统符号语言传递知识太低效?探索LLM高效参数迁移可行性

其中在天然存在的较大 LLM 和较小 LLM 对之间展开,将参数知识作为媒介。最近,中国科学院...在实验部分,研究者针对多个基准数据集,涵盖世界知识(MMLU),数学推理(GSM8K)和代码能力(HumanEval 和 MBPP)进行了详细评估。...

传统符号语言传递知识太低效?探索LLM高效参数迁移可行性

其中在天然存在的较大 LLM 和较小 LLM 对之间展开,将参数知识作为媒介。最近,中国科学院...在实验部分,研究者针对多个基准数据集,涵盖世界知识(MMLU),数学推理(GSM8K)和代码能力(HumanEval 和 MBPP)进行了详细评估。...

Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了“电路追踪”食用教程两阶推理多语言电路...

还有网友认为“归因图可能成为LLM研究的显微镜”。“电路追踪”食用教程 除了宣布开源外,Anthropic依据介绍电路追踪方法的原始论文《On the Biology of a Large Language Model》中多步推理和多语言电路示例,利用该工具深入...

首次解释LLM如何推理反思!新框架引入贝叶斯自适应强化学习

BARL通过端到端的RL优化自动实现了这一点,可谓以原则化的方式赋予了LLM在推理过程中的“何时反思、如何反思”的指南,达到了以一条长CoT线性化best-of-N的效果。合成任务案例:更清楚的对比RL和BARL 为了直观展示BARL如何在...

R2R:使用小型-大型模型令牌路由高效导航分歧推理路径

解决SLM-LLM混合推理的主要挑战包括两个相互关联的部分:在特定目标下标记首选模型,以及设计路由方案在推理过程中执行这种选择。以往的方法通常在查询级别进行路由,为整个响应选择SLM或LLM,以在成本预算内最大化人类偏好的...

Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理

团队认为限制 LLM 推理速度的瓶颈其实是在内存加载的问题上,他们经过研究发现,现有的开源推理引擎(如 vLLM、SGLang),在极低延迟的单序列生成任务下,即使在顶级 GPU(如 H100)上,也只能利用不到 50%的内存带宽。...

相关阅读