• 最新
Mistral AI推出240亿参数Devstral模型,开源赋能高级软件工程

Devstral模型参数规模庞大,达到了240亿,目前正处于“研究预览”阶段。令人瞩目的是,它以Apache 2.0开源许可发布,这意味着开发者及企业可以无限制地将其用于商业用途,这...在性能测试中,Devstral同样展现出了不俗的实力。...

超越OpenAI?国产推理模型的2025半年“狂飙时刻”

中国的模型厂商在开源路径上不断走出自己的特色,不仅开放了不同参数规格...OpenAI对模型性能的追求依旧是业内标杆,作为最新的旗舰模型,o3和o4-mini(无工具版本)在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%,远远...

华为全面揭秘超大规模MoE模型昇腾推理部署技术,国产芯片推理性能再创新高

拥有6710亿参数,采用混合专家架构,在各种榜单表现出色的DeepSeek V3某种程度上代表了大模型发展的一个新趋势,即基于软硬件协同优化的模型架构,能够最大性能的发挥硬件平台的能力,在多种任务中表现出色,包括自然语言理解...

贵州电网申请基于参数补偿的全钒液流电池性能预测方法专利,实现不同运行环境下全钒液流电池性能的准确预测

贵州电网申请基于参数补偿的全钒液流电池性能预测方法专利,实现不同运行环境下全钒液流电池性能的准确预测,专利,储能,系数,全钒液流电池

上海数据集团申请通讯高效的联邦个性化特征选择专利,提升联邦学习模型整体性能和本地适应性

金融界2025年5月16日消息,国家知识产权...将更新后的模型参数发送...克服了传统全局特征选择方法在处理具有不同特征维度、数据分布和样本量的异质性数据时的不足,从而提升了联邦学习模型的整体性能和本地适应性。本文源自:金融界

85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型

目前,FastVLM 模型主要推出 0.5B、1.5B、7B 三个不同参数量级的版本,每个版本均有 stage2 和 stage3 两阶段微调权重,用户可以根据自身需求灵活选择。...HD 在多种大型语言模型(LLM)架构和不同图像分辨率条件下,相比原始 ...

400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署

此前互联网公开的大规模预训练 多由Meta、Google等巨头主导(如LLaMA 2的700亿参数模型),Psyche以去中心化模式实现同等级别训练。...旋转位置嵌入的运用,有效解决长序列位置依赖问题,从多维度保障了训练的高效性与模型性能的...

DiffMoE:助力扩散模型性能飞跃,快手&清华打造视觉生成新标杆

传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式,未能充分利用扩散过程的异构特性,导致计算效率低下,近期,可灵团队推出...通过进一步扩展实验,DiffMoE 实现了仅用 1 倍激活参数就实现了 3 倍于密集模型的性能。...

阿里千问3登顶全球开源模型,参数仅为R1三分之一

每款模型均斩获同尺寸开源模型SOTA(最佳性能):千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,...千问3的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如32B版本的千问3模型可跨级超越Qwen2.5-72B性能。...

唯一全国产算力平台训练的深度推理大模型!讯飞星火X1实测:参数“瘦身”性能“增肌”

4月20日最新升级的星火X1深度推理大模型,以参数小一个量级的精悍架构,在数学推理、代码生成等核心指标上整体效果对标OpenAI o1和DeepSeek R1,并且在自主可控方面建立了显著的优势,进一步验证了基于国产算力训练的全栈自主...

相关阅读