华为版《黑客帝国》首次亮相!

就在刚刚,华为首次亮相了一套虚的技术——

数字化风洞,一个在正式训推复杂AI模型之前,可以在电脑中彩排的虚拟环境平台。

华为版《黑客帝国》首次亮相!

这套有种《黑客帝国》意味般的技术(都是通过虚拟世界预演现实),是由华为马尔科夫建模仿真团队构建,可以小时级预演万卡集群方案。

而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上。

于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配置。

一言蔽之,为的就是避免浪费时间和算力。

更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点:

训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌;推理阶段:任务差异极大,既要短问答(像城市超跑),又要长文本生成(像越野耐力赛),硬件很难同时满足;万卡集群:好比管理一个庞大车队,要避免堵车、故障,确保长时间稳定运行。

而数字化风洞在这个过程中起到的作用,就像是一位让AI算力少踩坑、跑得更快更稳的智能调度专家。

并且是对上述三大痛点逐一击破的那种。

Sim2Train:小时级自动寻优

训练大模型这件事可以说是越来越复杂,例如由于参数量越发庞大,就会对硬件提出更高的要求,传统的调度策略没法充分发挥它们的潜力。

因此,华为团队提出了一个叫做Sim2Train的仿真平台,用来模拟训练过程,找到最优的硬件配置和训练策略,让昇腾设备跑得更快、更高效。

这个平台主要的发力点在两个方面。

首先是模拟训练过程。

具体的方法叫做动静态融合的大规模训练集群建模仿真,可以通过模块化拼装AI任务流程,像搭积木一样灵活构建复杂模型,快速分析计算、内存和通信的资源消耗。

再结合对昇腾硬件的深度适配能力,静态规划与动态调优双管齐下,精准提升大规模训练集群的运行效率。

其次是自动寻找最优方案。

它可以实现面向昇腾平台的模型结构智能搜索与优化,做到模型性能与功能能力的最优均衡。

面对CloudMatrix昇腾超节点复杂拓扑结构,Sim2Train还可以做到芯片级、拓扑级与负载级的全栈架构建模与策略联合优化。

并且基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。

华为版《黑客帝国》首次亮相!
△Sim2Train训练仿真系统框架Sim2Infer:分钟级动态加速

除了训练阶段,华为在仿真推理过程中也有妙招——Sim2Infer,让端到端推理性能提升30%。

它是一个多层级的推理系统建模仿真,核心能力可以分为五点:

模拟负载特征:把不同模型和输入数据的计算、内存访问、通信需求用数学模型表示出来。比如,MoE 模型中,不同专家被激活的频率、数据在不同设备间的传输量等。

分析硬件架构:从芯片微架构(如3D Cube张量加速引擎)到整个集群的网络拓扑(如多台服务器怎么互联),全方位模拟硬件性能。

描述部署策略:支持配置各种推理策略,比如数据并行(多个设备处理不同数据)、张量并行(拆分计算任务)等,看哪种策略在昇腾上效率最高。

驱动仿真运行:用 离散事件 模拟推理过程,比如某个算子何时开始计算、数据何时传输,精确计算整个推理流程的耗时。

自动搜索优化:给定约束条件(如延迟不超过20ms),自动搜索最优的模型结构、部署策略和硬件配置。

除此之外,Sim2Infer还通过软硬协同的建模仿真驱动一系列的推理系统创新优化。包括:

建模分析系统参数与模型设计因素的关联关系,提出昇腾推理亲和的MoE模型结构建议。大EP场景MoE模型的最佳推理部署方案寻优。通过多维代价模型建模,从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新。

华为版《黑客帝国》首次亮相!
△Sim2Infer推理仿真系统框架Sim2Availability:秒级故障定位

除了训推之外,如何保证大模型在诸如万卡集群上稳定、有效运行,也是一个关键问题——高可用。

为此,同样是以仿真的形式,华为的解法便是Sim2Availability。

就像用电脑模拟天气一样,这个框架通过建立马尔科夫模型,在计算机里 虚拟 出一个集群,模拟各种故障发生,检测及后续影响和恢复的过程,从而分析如何提升可用度。

Sim2Availability在做模拟的关键环节包括:

故障 生成器:模拟各种硬件故障,比如NPU出错、内存错误、光模块闪断等,还能模拟多种故障同时发生的情况。

故障 探测器:模拟如何检测这些故障,比如通过算法判断网络是否变慢、硬件是否异常,检测的准确性会影响恢复效率。

故障 影响分析:比如NPU故障会让训练中断,需要重启;光模块故障会让网络传输变慢,导致训练速度下降。

恢复 策略库:针对不同故障设计不同恢复方法,比如 Step级回滚(只回退一步训练数据)、进程级恢复(只重启有问题的进程)、全量恢复(整个作业重启)等。

这些环节可以高效精准构建集群系统对计算、存储、网络的状态监控,通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如健康、亚健康、故障等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。

华为版《黑客帝国》首次亮相!
△Sim2Availability高可用仿真系统框架

以上便是关于华为数字化风洞的大致内容,更多详情可戳:技术报告地址

文字来源于网络。发布者:中国新闻周刊,转转请注明出处:https://www.sxkyhb.cn/8577.html

(0)
中国新闻周刊的头像中国新闻周刊
上一篇 2025年6月11日 下午3:14
下一篇 2025年6月11日 下午3:15

相关推荐

  • 教育部官宣设立大湾区大学 新型研究型大学即将招生

    6月11日,教育部发布关于拟同意设置本科高等学校的公示,拟同意设置大湾区大学等10所学校。 大湾区大学由广东省人民政府举办,东莞市政府提供主要资金保障。学校设有两个校区,总面积2350亩,其中松山湖校区占地250亩,滨海湾校区占地2100亩。这所公办普通高等学校以理工为主,精理强工,旨在成为一所具有国际水准、开放包容、湾区特色的新型研究型大学,致力于引领未来…

    2025年6月11日
    2100
  • 华为联合小鹏有多强:汽车AR-HUD被彻底颠覆了

    随着高端新能源汽车的内卷式竞争,HUD抬头显示在今年也迎来了全面颠覆式的革新演进。在小米YU7宣布行业首发搭载HyperVision天际屏全景显示后,小鹏也官宣了旗下最新一代追光全景AR-HUD技术。 小鹏这次还找来了行业最强供应商—华为,两者强强联手。华为负责提供强大的硬件支持和引擎算法,为小鹏提供87英寸超大画幅、1800:1显示对比度、12…

    2025年6月7日
    1900
  • 洛杉矶移民称这本就是墨西哥领土!

    洛杉矶移民称这本就是墨西哥领土。洛杉矶本来就是墨西哥的领土,这种说法正确吗?墨西哥移民抗议者对着警察说,这里本来就是墨西哥的,你们为什么不让我们在这里居住和生活?美国警察无法回答这样的问题。其实从历史上来说,洛杉矶还真的是墨西哥哥的领土,但在1800年前由于被美国侵占而成了美国的领土。 美国叫美利坚合众国,领土从何而来?还不就是侵占别国的领土得来的吗?弱国有…

    2025年6月10日
    1500
  • 小米玄戒O1用第二代3nm工艺!雷军:恳请大家给小米更多时间和耐心

    5月19日消息,雷军已经揭晓了即将发布玄戒O1芯片的一些核心内容,比如采用第二代3nm工艺。 今年是小米创业15周年,早在2014年小米就开始芯片研发之旅,现在终于交出了第一份答卷:小米玄戒O1,采用第二代3nm工艺制程,力争跻身第一梯队旗舰体验。 按照雷军的说法,小米2021年决定造车的同时,也有另外一个重大决策,那就是重启‘大芯片&rsquo…

    2025年5月19日
    2600
  • 这才是真正的压缩包!WinRAR手提包上市:要价超1000元

    6月22日消息,WinRAR这款经典的压缩软件,竟然跨界推出了手提包,而且价格不菲,售价150美元(约合人民币1077元)。 这款名为WinRAR Archive Messenger Bag tern的手提包由Tern公司设计,于今年2月首次亮相后迅速售罄,如今这款手提包再次上市,并将于9月开始发货。 这款手提包的设计灵感来源于WinRAR软件的经典界面,整…

    2025年6月22日
    2400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信