• 最新
2025北京智源大会开幕 智源发布“悟界”系列大模型

Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于Emu3架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。...进一步扩展了基于多本体-环境动态建模的多机协同规划能力,可...

大语言模型合成高质量数据:麦吉尔大学团队打造智能统计引导框架

麦吉尔大学的唐义宏(Yihong Tang)、孔梦林(Menglin Kong)和孙立军(Lijun Sun)教授团队最近在预印本平台arXiv上发表了一项突破性研究\

冲击自回归,扩散模型正在改写下一代通用模型范式

简单来说,不像自回归语言模型那样直接预测下个文本 token,扩散语言模型(dLLM)是通过逐步细化噪声的方式来学习生成输出。这意味着它们不仅可以...他们认为:「大模型的诸多优良性质源于极大似然估计本身,而非自回归建模方式。...

CVPR 2025 Highlight|提升自回归模型样例学习能力,Few-shot图像编辑新范式开源

然而当用户想要的编辑方式难以用语言准确描述或者严重偏离训练集的分布时...attention)来对输入输出之间进行建模,这种简单直接的方式并没有充分释放自回归模型基于上下文学习的能力,如果能针对 few-shot 图像编辑的任务来改进...

zip2zip:通过令牌压缩实现大语言模型的自适应词汇表

传统的语言模型训练使用因果语言建模(CLM)目标,即最小化数据序列在模型下的负对数概率: min(θ)E[y~D]...因此,模型执行更少的计算—无论是在注意力机制中还是前馈层中—更重要的是,在推理过程中需要更少的自回归解码步骤。...

Prot2Token:通过标记预测统一蛋白质建模的全新框架_任务_模型_研究

在自然语言处理(NLP)中,从BERT风格模型过渡到自回归 GPT 风格模型使得更多动态和人类可理解的指令(提示)能够控制生成过程,因此可以在NLP领域内处理多样化的预测。蛋白质研究中也需要类似的范式转变,从静态编码器转向更...

扩散语言模型九倍推理加速!KV Cache并非自回归模型专属

随着模型架构的发展、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力,这类模型正在逐步成为挑战 GPT 等主流模型...与传统的自回归语言模型不同,dLLMs不再依赖顺序生成下一个token,而是...

扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧

随着模型架构的发展、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力,这类模型正在逐步成为挑战 GPT 等主流模型...与传统的自回归语言模型不同,dLLMs不再依赖顺序生成下一个token,而是...

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

虽然有研究尝试将扩散模型引入MLLMs,但往往采用混合架构(自回归+扩散)或者受限于语言建模能力,导致性能不佳。继LLaDA成功证明扩散模型在纯语言任务上能与自回归模型(如LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言...

舍弃自回归!国内团队纯扩散多模态大模型LLaDA-V,理解任务新SOTA

虽然有研究尝试将扩散模型引入 MLLMs,但往往采用混合架构(自回归+扩散)或者受限于语言建模能力,导致性能不佳。继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散...

相关阅读