【AI问爱答】第二期问答干货请查收，诚邀您来提问

日期：2025-02-21 移动：http://mip.tpjde.com/quote/13224.html

rame width="500" height="300" scrolling="no" frameborder="0" border="0" allowfullscreen="true" src="https://tv.sohu.com/s/sohuplayer/iplay.html?bid=563463153&vars=%5B%5B%22showRecommend%22%2C0%5D%5D&disablePlaylist=true&mute=1&autoplay=false">rame>

概述

【AI问爱答】是阿里云首档AI问答栏目，由AI专家答疑团回答网友提问，不论是对AI产品技术、模型使用、应用开发、落地实践有疑惑，或者对栏目探讨的话题有补充，欢迎你们来提问！

每周四晚7点，阿里云官方媒体平台、量子位视频号将发布问答短片。

第二期由栏目围绕端侧智能和模型训练推理的内容：大模型落地到端上最大的挑战是哪些？模型训练需要昂贵的成本支撑，那么在训练或微调过程中，如何提升训练性能，以节约训练成本？模型推理，最新的技术方向是怎样的？更多内容请解锁原片。

Q

深度问答1

Apple Intelligence和其他端侧AI产品有什么本质不同？它在设备端与云端处理技术路线是怎样的？

首先，苹果发布的是一个现象级的关于端侧大语言模型的定义或者规范，与上一代的AI产品比如人脸识别、图像识别、检测这样的以视觉为主的模型相比，本质上是提升了它的语言模型能力和多模态的相关能力，这些能力的提升会对消费电子的整个体验带来比较大的一个提升，这也是行业的趋势。从技术路线来看，苹果采用简单场景在本地完成，复杂场景在云上完成。同时，苹果在端侧模型的场景上或者性能上，它做了非常重要的工作，就是内存管理做的非常好，解决了大语言模型在本地推理的性能和功耗问题。

A

Q

深度问答2

国内手机端侧AI能力什么时候能赶超Apple Intelligence？

从模型的能力上来讲，苹果的模型，现在我们没有看到非常好的公开的一些指标。以通义为例，针对小尺寸的模型7B以下，Qwen2的1.5B模型，在小尺寸的范围内是非常领先的。从模型本身的效果表现上来讲，我觉得我们国内去赶超苹果的模型，指日可待。

A

Q

深度问答3

汽车厂商都在做智能座舱，您怎么看？

车的场景是跟用户体验非常息息相关的，那车这个场景又分两个大的板块，一个是智驾，一个是座舱。智驾本质上更偏自动驾驶，用到的算力相对会更大一些。目前基于大语言模型去结合智驾这样的场景，还比较早期。国内车企在座舱这块的体验做的都非常好。基于语言模型做座舱的智能交互、座舱控制，是一个比较大的一个趋势，国内的厂商目前主要是在做这样的方向。技术链路上更多的是以端侧的小尺寸模型结合云端的大尺寸的模型去为主，有点类似于像苹果的方案。

A

Q

深度问答4

如何看萝卜快跑等智驾技术带来的技术性失业？

目前所有的AI能力，单点能力相对表现的比较好，在某种程度上是要远远超过人类的，但在协同性，在非常复杂的场景上，它的能力还偏弱。以目前的状态来看，更多的是人和AI工具的共存，这带来的挑战就是AI的边界会越来越外扩，人的边界会越来越收缩。你不能消灭它，你只能去拥抱它，在以AI为主的场景上，去找自己适合生存的链条。

A

Q

深度问答5

目前大模型落地到端上最大的挑战是哪些？

目前端上的模型落地，面临的一个非常大的挑战点是在于面临着像性能，资源、功耗多方面的一个平衡。不管手机也好，PC也好，甚至车也好，算力受限，内存有限，对精度的要求不比云上要低，场景也复杂，选用大尺寸的模型，内存和推理速度没办法满足，选用小尺寸模型，整个效果会变得比较差。现在所谓的小尺寸模型,本质上来讲还是一个很大的一个模型。它的资源占用，它的推理性能，其实是一个非常大的瓶颈。

A

Q

深度问答6

目前模型推理，最新的技术方向是怎样的，有哪些突破点？

模型部署和推理性能挑战的来源当然首先是模型规模了。模型规模和上下文的规模还在持续增长，并且远远高于硬件算力、显存宽大的增长速度的，所以这对于模型部署的权重，上下文压缩，计算加速，基于分布式架构的可扩展性，都提出了非常高的要求。今天大语言模型通常具备非常全面的理解推理和生成能力，甚至同一个模型可以在很多场景中解决不同领域的问题。对于模型部署和推理计算来说，多样的场景就会带来很多样的性能需求和计算特性，就需要模型推理引擎和模型部署平台具备非常全面的能力。

A

Q

深度问答7

面对应用场景的多样性，模型部署有什么挑战？

对于不同模态来说，它的输入输出的形式会发生变化，对上下文有更高的要求。基于这个挑战，我们目前在大语言模型的推理优化主要包括像高性能计算的优化，低精度量化压缩，批处理的调度管理，运行时的优化，高效解码，上下文的缓存，以及更高效的分布式架构等方面。

A

Q

深度问答8

模型训练需要昂贵的成本支撑，那么在训练或微调过程中，如何提升训练性能，以节约训练成本？

首先要确定优化的目标，一般来说优化的目标就是训练一批token的总时间，具体的指标上就是token/s。

token/s具体到硬件上，其实就是对硬件资源的有效的利用率，也就是我们常说的指标MFU。计算量确定了，怎么样去做这个优化呢？要根据各个硬件单元的吞吐来理论预估模型训练的瓶颈，以及性能优化的空间，具体可以从计算、通信和显存三个大方向进行入手。

在计算上，可以首先把计算的算子大约划分为访存密集型的算子和计算密集型算子。访存密集型算子的计算时间是跟访存时间相关的，那可以从访存的量和访存的带宽来理论预估这个算子的执行时间。计算密集型算子的计算时间是它的算力峰值和计算量来做计算时间的预估，可以对比实际的执行时间来评估各个算子的占比和优化空间。

在显存上，要根据模型的结构以及它中间的activation大小，来理论预估这个模型所占用的显存大小，并且要结合所使用的分布式策略、offloading策略以及其他显存优化策略。

在通信上，需要结合分布式策略所对应的算子，它的理论通信带宽是不一样的。它在机内和机间的执行速度，也要根据机内和机间带宽来进行理论预估。在这样预估通信时间之后，就可以根据这个计算时间、计算的算子和通信的算子之间的依赖关系，来预估一下这个算子之间是否能够overlap起来。如果没有掩盖好的话，我们要预估一下通信没有被掩盖部分的占比，这能够帮助我们去改善分布式策略。

有了这些瓶颈点定位、优化空间，以及评估数据后，我们就可以从具体的瓶颈点入手。

A

Q

深度问答9

在优化目标的约束下，如何去优化计算、通信和显存的能力呢？

一种方式就是需要根据理论预估，并且需要专家经验来对特定的模型使用特定的优化算子，以及分布式策略和显存优化策略。另外一种方式就是编译优化。PAI有一个TorchAcc框架，就是基于静态计算图来进行编译优化。还有一个最底层的根据硬件来做自动的算子融合和codegen，来生成对应的硬件更高效的算子。总而言之就是提升训练性能，还需要根据实际显卡的容量和带宽，从计算、显存和通信这几个方面入手。PAI提供了包括TorchAcc在内，支持包括像Llama、GPT这种架构的模型，以及MoE、DiT以及多模态架构的模型。

A

快问快答1：如何评估模型训练所需要的GPU资源？

首先要参考scalinglaw，在不同的模型架构下，scaling law需要对公式和系数进行修正。scaling law还是能在多数场景中指导我们一个多大的模型需要多少的计算量，从而评估GPU资源的总使用量。在模型训练中，对于吞吐和迭代速度也存在一定的要求，这能够指导我们需要构建多大的训练规模。GPU资源在真实训练过程中的使用量，也取决于实际的资源利用率。

快问快答2：在魔搭当中，基于Swift的微调能在华为的NPU上跑吗？

可以，我们魔搭是一个开源开放的平台。参考链接：

https://github.com/modelscope/swift/blob/main/docs/source/LLM/NPU%E6%8E%A8%E7%90%86%E4%B8%8E%E5%BE%AE%E8%B0%83%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.md

快问快答3：千卡以上级别的大型训练任务如何保障其稳定性？

首先是故障检测，包括了底层的GPU服务器，网络监控等等，运行过程当中需要进行hang检测、降速检测、瓶颈分析、精准度检测等等，阿里云提供了C4D、EasyTracker等工具。任务失败时需要及时进行模型跟保存恢复。PAI的EasyCheckpoint产品提供了高性能模型保存和恢复能力。PAI的AIMaster产品提供任务时的自动容错重启，结合一些这样的工具来保证千卡训练的稳定性。

快问快答4：如何提高大模型线上服务的推理速度？

首先根据场景需求选择合适规模的模型，并基于实际的负载特性分析性能瓶颈。例如典型的输入输出长度、并发数、预期的延迟和吞吐指标等等。然后，针对性能瓶颈，选择应用合适的推理优化技术。例如瓶颈在并发数，可以应用模型或KVCache压缩，瓶颈在上输入和首token延迟的，可以应用量化加速计算，瓶颈在长输出的生成速度的，可以应用高效解码技术等。

最后，【AI问爱答】第4-6期问题正在火热征集中，我们将围绕基础模型、开源模型、多模态、Multi-Agent、应用开发工具等回答大家的提问。

本文地址：http://www.tpjde.com/quote/13224.html 推平第 http://www.tpjde.com/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

推荐行业动态

点击排行