• 最新
什么是HPC内存墙,如何跨越它?

本文首先探讨了 内存墙 的传统定义,然后着眼于另一种观点,该视图将内存容量与 AI 模型中参数数量的增长进行比较。无论从哪个定义来看,记忆墙已经到来,这是一个严重的问题。它以一些翻越墙壁或至少降低墙壁高度的技术结束。...

全流程昇腾平台训练,华为推出准万亿参数盘古 Ultra MoE 模型

IT之家 5 月 30 日消息,华为今日推出 参数规模高达 7180 亿 的全新模型盘古 Ultra MoE,这是一个 全流程在昇腾 AI 计算平台上训练 的准万亿 MoE 模型。据IT之家了解,盘古团队提出 Depth-...自适应管理内存优化策略的开发;...

完整版|梁文峰最新DeepSeek V3论文!揭秘如何用低性能GPU,训练出比肩OpenAI的大模型?

DeepSeekMoE:通过稀疏激活专家参数(如V3的671B参数中仅激活37B/令牌),实现计算资源的高效利用。训练成本为250 ...建议采用3D堆叠DRAM(如SeDRAM)或晶圆级集成(System-on-Wafer),缓解Transformer类模型的内存墙问题。...

智源研究院发布“悟界”系列大模型:让AI看见并理解物理世界

这场大会被视为“AI内行人的学术盛会”,也见证了中国AI科研机构智源研究院(下称“智源”)的最新动作:发布“悟界”系列大模型。智源研究院院长王仲远认为:“大...同年“悟道”2.0以1.75万亿参数一度成为全球最大模型之一。...

昇腾万亿大模型验证国产AI基础设施!科创板人工智能ETF(588930)现涨0.54%,实时成交额突破3200万元

这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。盘古ProMoE大模型,在参数量仅为720亿、激活160亿参数量的...在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。...

AI与机器人盘前速递丨智元旗下机器人同时获中美欧三方认证,华为推出准万亿模型盘古Ultra MoE

这是一个全流程在昇腾AI计算平台上训练的准万亿MoE...此外,近期发布的盘古Pro MoE大模型,在参数量为720亿,激活160亿参数量的情况下,在大模型榜单SuperCLUE的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。...

西湖大学团队打造更高效的大语言模型训练方式

在C4预训练任务中,SGG与Adam结合使用时,在各种模型规模(从6000万到10亿参数)上都取得了显著的性能提升。例如,在60M参数的模型上,Adam+SGG比原始...这种简单易用但效果显著的方法,有望在未来的大模型训练中得到广泛应用。...

昇腾算力炼出业界一流大模型

重磅推出参数规模高达7180亿的全新模型—盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。...在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。...

小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一

据介绍,dots.llm1 是一个中等规模的文本 MoE 大模型,其激活参数量为 140 亿(14B),总参数量达 1420 亿(142B),上下文长度 32K。通过高效数据处理流程,该模型在预训练阶段仅使用 11.2 万亿(11.2T)高质量真实数据(未...

相关阅读