• 最新
突破大模型推理瓶颈!首篇“Test-Time Scaling”全景综述,深入剖析AI深思之道-The ...

随着大模型训练成本急剧攀升、优质数据逐渐枯竭,推理阶段扩展(Test-Time Scaling,TTS)迅速成为后预训练时代的关键突破口。与传统的「堆数据、堆参数」不同,TTS 通过在推理阶段动态分配算力,使同一模型变得更高效、更智能...

早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?

2、苹果的研究者在近期的工作探究了这种从头开始在多模态数据上训练的原生多模态模型(NMMs),比较了「早融合」和「晚融合」两种方法的Scaling特性,同时探究了较为流行的晚融合方法是否具备内在优势。① 由于晚融合的方法对...

突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述|模态|深度思考模型|scaling_网易订阅

随着大模型训练成本急剧攀升、优质数据逐渐枯竭,推理阶段扩展(Test-Time Scaling,TTS)迅速成为后预训练时代的关键突破口。与传统的「堆数据、堆参数」不同,TTS 通过在推理阶段动态分配算力,使同一模型变得更高效、更智能...

博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!f(x)...

近日,阿里巴巴的研究团队与浙江大学合作提出了一种新的 Scaling Law:并行计算缩放定律(Parallel Scaling Law,简称 ParScale),即在训练和推理期间增加模型的并行计算,可以在不增加模型参数的情况下提升大模型的能力,且...

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

原生多模态模型(NMM)Scaling Law与LLM相似:原生多模态模型的扩展规律与纯文本LLM相似,扩展指数因目标数据类型和训练混合比例略有变化。后融合需要更多参数:与早融合相比,计算最优的后融合模型需要更高的参数-数据比(图1...

小模型媲美大模型,阿里通义开源「推理+搜索」预训练新框架

为提升大模型“推理+搜索”能力,阿里通义实验室出手了。最新研究开源全新 通用 预训练框架—MaskSearch,在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。小模型甚至能媲美大模型表现。在推理+搜索方向,通义实验...

她如何把“系统2”带给了大模型|对话微软亚洲研究院张丽

早在 OpenAI o1 发布前,张丽团队就开始探索 大模型深度推理能力。System2 这个原属认知科学的词汇最早由她及团队引入大模型领域。最近,她们通过 蒙特卡洛搜索算法 让 7B模型 实现了 o1级别的数学推理能力。rStar—Math 的...

自变量机器人王潜:具身智能大模型没法抄国外作业

和当初的AI大模型一样,国内具身智能领域也存在着看好和看空两种截然对立的态度。一边是朱啸虎的看空—“现在是个人形机器人就会翻跟头,但商业化在哪里?另一边,投资机构持续砸下重金,创业公司正不断加快量产步伐,并给出...

前OpenAI高管新作力挺模型思考,哈佛却称AI越“想”越笨-The Paper

思考时间的Scaling Law类似于大模型参数Scaling Law,并且有研究发现优化 LLM 测试时的计算可能比扩大模型参数更有效。给模型额外「思考轮次」(修订或搜索)确实能显著提高解题正确率,且随预算递增呈边际递减但仍稳步上升。...

苹果也在蒸馏大模型,给出了蒸馏Scaling Laws_-The Paper

近日,苹果研究人员提出了一种蒸馏扩展定律(Distillation Scaling Laws),基于计算预算及其在学生和教师之间的分配,我们现在开始可以估算蒸馏模型的性能了。图 1.蒸馏扩展定律的外推。蒸馏扩展定律适用于一系列损失为 LT 的...

相关阅读