• 最新
字节跳动开源多模态生成模型BAGEL,重新定义视觉内容创作

字节跳动Seed团队近期宣布开源多模态理解和生成模型BAGEL,该模型支持文本、图像和视频的统一处理。BAGEL拥有70亿激活参数(总计140亿),经过大规模交错多模态数据训练,在多模.

2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】

通过对齐,多模态模型能够学习到不同模态之间的相互表示,从而增强对复杂场景的理解能力。跨模态对齐目的是挖掘多模态数据的子元素之间的关联性,例如visual grounding任务。在学习表征或翻译时也可能隐式地学习对齐。显式对齐...

支付宝申请多模态大模型训练方法及装置专利,有效实现各模态数据的稳定训练

专利摘要显示,本说明书实施例提供一种多模态大模型的训练方法及装置,提供多模态大模型的训练方案,可以对多模态大模型中各个网络模块按照功能解耦,并对解耦后的网络模块进行分阶段的渐进训练,逐渐拓展模型的模态支持能力、...

字节 Seed 开源统一多模态理解和生成模型 BAGEL

IT之家 6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。BAGEL 具有 70 亿个激活...这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。...

邵逸夫医院与润达医疗再推AI新基建成果,多模态大模型2.0成功上线|

近日,浙江大学医学院附属邵逸夫医院与润达医疗在AI医疗领域再创阶段性里程碑,双方联合正式发布多模态大模型AI专家2.0。图片来源:图虫创意 近日,浙江大学医学院附属邵逸夫医院与润达医疗在AI医疗领域再创阶段性里程碑,双方...

小米开源多模态大模型MiMo-VL:70亿参数的强力新星

在小米内部以用户体验为中心的综合评测中,​​MiMo-VL 超越 GPT-4o,成为目前表现最佳的开源多模态模型。...​​VL-RewardBench(评估视觉语言联合任务奖励建模):​​ MiMo-VL-7B-RL 得分 56.5,对比 Qwen2.5-VL-7B 的 38.0,​...

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高-The Paper

与现有数据集不同,该数据集包含基于 R1 模型「先思考后回答」范式生成的完整推理链条,其中 SFT 分支包含适合视觉指令调优的多模态思维链(CoT)样本,强化学习分支则从同源数据中筛选更具挑战性的样本以激发深度推理行为。为...

众数信息科技申请基于多模态大模型的船舶与海洋工程辅助设计方法专利,通过智能化手段提升工作效率

本文源自:金融界金融界2025年5月31日消息,国家知识产权局信息显示,众数(厦门)信息科技有限公司申请一项名为“一种基于多模态大模型的船舶.

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%_-The Paper

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。然而,当应用场景从静态图像拓展至动态视频时,即便是当前最先进的模型也面临着严峻的挑战。MME-VideoOCR 致力于系统评估并...

相关阅读