【课程笔记】华为 HCIE-AI Solution Architect 人工智能01：大模型业务场景流程综述

(1) GPT-4GPT4是一种最先进的会话语言模型，来自各种来源的大量文本数据的训练，包括社交媒体、书籍和新闻文章。该模型能够对文本输入生成类似人类的响应，使其适用于聊天机器人和对话式人工智能系统等任务。另一方面，GPT-3是一种大规模语言模型，它以及在来自各种来源的大量文本数据上进行了训练。它能够产生类似人类的翻译，可用于广泛的与语言相关的任务(2) LLaMA。

淵_ken

1665人浏览 · 2025-06-28 17:16:20

淵_ken · 2025-06-28 17:16:20 发布

大模型业务场景流程综述

一、AI应用发展现状

(1) 由小到大

算法：参数量膨胀，单位由Million到Billion

数据：训练数据增加，单个模型训练数据集可多达万亿token

算力：算力规模提升至EFLOPs

(2) 大模型 vs 小模型

小模型：

①学习能力上限低

②不同任务需要不同模型

③训练数据上限低

④单一模态数据

⑤Few-shot能力差

大模型：

①学习能力强

②一个模型解决多个任务

③训练数据上限高

④多模态能力强

⑤Few-shot能力强

小模型 -> 大模型：使用AI模型获取数据中的知识，“知识”学习的更好

区别	小模型	大模型
算法	参数规模M(million)百万级别	参数规模B(billion)十亿级别
算力训练	单张显卡，小规模集群进行实现	非常大，小规模集群，大规模集群
数据	GB容量	PB容量 PB -> 1024TB 1TB -> 1024GB
形成	常见机器学习，深度学习	深度学习(Transformer，扩散模型)
功能	单一，相对准确度也很高	全面，准确度很高，算力消耗大

(3) 服务器/云侧AI应用

随着AI模型的不断膨胀(网络深度、参数量)，所需要的算力也是成倍的增加，当前大模型大多数为云侧应用，如盘古、ChatGPT、文心一言等

优点：①算力相对充足 ②扩展性强

缺点：①数据安全问题 ②网络延迟 ③计算中心维护复杂

(4) AI端边应用

AI边缘侧应用：摄像头

AI移动端应用：手机

ChatGPT等AIGC应用一直以来都伴随着强烈的隐私安全争议，但如果完全在端侧运行，就能够完全避免这一问题

相比传统的PC或者服务器，移动终端最大的挑战就是如何平衡好体验和能耗

(5) 算力需求

如何计算模型训练时长：

理论时长(s) = (8×T×P) / (n×E×X)

8：一个参数进行训练过程中的计算量

T：token训练数据token量个

P：Parameter参数个

n：AI计算芯片的数量

E：当个AI芯片峰值算力 Flops

X：AI计算芯片的效率 0.45

假设：数据量3000Btokens，参数量300B，卡数8192显卡，单卡算力312TFlops，将所有数据计算一次，需要多少天？

-> 8×3000×10^9×300×10^9 / 8192×312×10^12×0.45 / 3600 / 24

二、大模型分类和特点

1. 大模型分类

(1) 大模型类别

大模型的分类可以从多个角度划分：

①技术架构：Transformer架构、MoE等

②多模态：图片、视频、文本、语言

③功能：LLM、视觉大模型等

④行业场景：基础模型、行业模型、场景模型

(2) Transformer结构模型分类

基于Transformer结构，大模型又可以分为三类结构：

①Encoder-only 仅编码

②Decoder-only 仅解码

③Encoder-Decoder 编码器-解码器

(3) Encoder-Decoder

Encoder-Decoder架构，由于包含了encoder和decoder，所以预训练的目标通常是融合了各自的目标，但通常还会设计一些更加复杂的目标

比如对于T5模型，会把一句话中一片区域的词都mask掉，然后让模型去预测

Encoder-Decoder架构的模型，就适合做翻译、对话等需要根据给定输入来生成输出的任务，这跟decoder-only的模型还是有很大差别的

(4) Encoder-Only

对于Encoder-only的模型，预训练任务通常是“完型填空” -> 判别式模型

这类模型擅长进行文本表示

适用于做文本的分类、实体识别、关键信息抽取等任务

(5) Decoder-Only

对于Decoder-only的模型，预训练任务通常是Next word prediction，这种方式又被称为Causal language modeling(CLM，因果语言模型)。对于decoder，在训练时是无法看到全文的，只能看到前面的信息。因此这类模型适合做文本生成任务

(6) 混合专家模型

混合专家模型(MoE)的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练

①与稠密模型相比，预训练速度更快

②与具有相同参数数量的模型相比，具有更快的推理速度

③需要大量显存，因为所有专家系统都需要加载到内存中

作为一种基于Transformer架构的模型，混合专家模型主要由两个关键部分组成：

①稀疏MoE层：这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”，每个专家本身是一个独立的神经网络

②门控网络或路由：这个部分用于决定哪些令牌(token)被发送到哪个专家

2. 大模型特点

(1) 训练方式变化

传统模型：

①由于参数量和所需数据量并不庞大，可以选择全参数训练

②在预训练好的模型上做迁移学习

③传统模型应用：人脸识别、语音识别、图像分类

大模型：

①参数量庞大（以Billion为单位）

②海量数据（TB为单位）

③当前多为预训练模型：不少工作选择使用专业领域的高质量数据在一个较强的基座模型上进行微调

(2) Foundation Model

Foundation Model，指在AI领域一类被广泛使用的基础模型(或称基础架构模型)，是在海量数据和计算资源的基础上训练出来的通用、通用性较强的深度学习模型。这些模型被广泛应用于自然语言处理、计算机视觉、语音识别等领域的各种任务

Foundation Model(L0) -> LLM(L1) -> 应用(L2)

(3) Foundation Model特点

Foundation Model的一个独有特征是其适应性。这些模型可以根据输入提示高度准确地执行各种不同的任务。一些任务包括自然语言处理(NLP)、问题回答和图像分类。FM的规模和通用性质使其不同于传统的机器学习模型，后者通常执行特定的任务，例如分析文本中的情绪、对图像进行分类和预测趋势

可以使用根FM作为基础模型来开发更加专用的下游应用程序。这些模型是十多年开发工作的结晶，因此它们的规模和复杂性不断增加

Foundation Model有望显著改变机器学习的生命周期。尽管目前从头开发FM要花费数百万美元，但从长远来看，它们可发挥重要作用。对于数据科学家来说，可以更快速、更经济地使用预先训练的FM开发新的机器学习应用程序，而不是从头开始训练独特的深度学习模型

(4) 常见的FM

Transformer，BERT，GPT，CLIP，GLM

(5) Foundation Model的缺点

①基础设施要求：从头开始构建基础模型非常昂贵，需要大量资源，而且可能需要几个月的时间来完成训练

②缺乏理解：尽管基石模型可以提供语法上和事实上正确的答案，但它们很难理解提示的上下文。此外，这些模型不具备社交或心理意识

③不可靠的答案：某些主题相关问题的答案可能不可靠，有时甚至不合适、令人极不愉快或不正确

④偏见：根基模型很可疑提供带有偏见的答案，因为模型可以从训练数据集中提取仇恨言论和不恰当的暗示。为避免这种情况，开发人员应仔细筛选训练数据，并将特定规范编码到模型中

(6) 涌现

涌现或称创发、突现、呈展、演生，是一种现象，为许多小实体交互作用后产生了大实体，而这个大实体展现了组成它的小实体所不具有的特性

在大模型领域指当模型突破某个规模时，性能显著提升，表现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等

一般来说，模型在100亿(10B)到1000亿(100B)参数区间，可能产生能力涌现

(7) 涌现带来的能力

语境学习(In-context learning)：如果模型已经获得了自然语言描述的指令(包括一些任务示例)，则模型给予预期输出结果，而无需额外的模型训练(Zero-shot或Few-shot learning)

指令遵循(Instruction following)：通过在格式化的指令数据集上fine-tuning，LLM也表现出用指令形式描述未知任务，并达到不错效果，这大大提高了模型的泛化能力，表现了模型具有理解自然语言指令的能力，寻找合适的Prompt来激发模型能力就变成了一个显性需求

逐步推理(Step-by-step reasoning)：在LLM中表现出，可以提供一些解题步骤提示，让模型具有逐步推理的能力，这被称为思维链(CoT，Chain-of-Thought)，有人认为这是从代码数据中学习到的

(8) 思维链

思维链(Chain-of-thought，CoT)的概念是在Google的论文“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”中被首次提出

思维链(CoT)是一种改进的提示策略，用于提高LLM在复杂推理任务中的性能，如算术推理、常识推理和符号推理。CoT没有像In-Context Learning那样简单地用输入输出对构建提示，而是结合了中间推理步骤，这些步骤可以将最终输出引入提示

(9) 思维链的限制

思维链只是在一些有限的领域效果较好，如数学逻辑推理能力，其他领域提升较小

需要模型足够大

①如PaLM在扩展到540B参数时，与思维链提示结合，才表现出了先进的性能。一些小规模模型，思维链并没有太大的影响，能力提升也不会很大

②Fine-tune-CoT，利用非常大的语言模型的思维链推理能力来指导小模型解决复杂任务

(10) 同质化

同质化，指基础模型的能力是智能的中心与核心，大模型的任何一点改进会迅速覆盖整个社区，但其缺陷也会被所有下游模型所继承

目前大模型架构都围绕Transformer，NLP领域几乎所有的SOTA模型都是基于Transformer的大模型进化而来

同质化可能为许多边缘领域提供更多可能性，但模型中的任何缺陷都会被所有下游模型盲目继承。由于基础模型的能力来自于它们的涌现性质，现有的基础模型难以理解，可能具有难以预料的错误模式

-> 同质化就是大家都用同一种核心AI技术(比如Transformer)，导致所有大模型的能力和缺陷都高度相似——优点能快速普及，但缺点也会被所有后续模型照搬，难以彻底改进

总结

(1) Transformer分类

Encoder-only：仅编码方式，BERT，语言分类

Decoder-only：仅解码方式，文本生成，大模型主流趋势

Encoder-Decoder：编解码方式，翻译场景，T5

(2) 场景分类

L0基础大模型：指的是预训练后的模型，处理能力比较弱，通用的知识信息

L1行业大模型：通过行业数据进行微调后的模型，可以进行相关专业知识领域的处理

L2场景模型：用于具体场景操作的模型

三、主流大模型介绍

(1) GPT-4

GPT4是一种最先进的会话语言模型，来自各种来源的大量文本数据的训练，包括社交媒体、书籍和新闻文章。该模型能够对文本输入生成类似人类的响应，使其适用于聊天机器人和对话式人工智能系统等任务。另一方面，GPT-3是一种大规模语言模型，它以及在来自各种来源的大量文本数据上进行了训练。它能够产生类似人类的翻译，可用于广泛的与语言相关的任务

(2) LLaMA

LLaMA模型，全称Large Language Model Meta AI，是由Meta AI公司开发的一系列大型语言模型。LLaMA共有7B、13B、33B、65B四种版本 -> 没有中文能力

该模型最大的特点就是基于较小的参数规模取得了优秀的性能

7B、13B、33B、65B四种版本。其数据集来源都是公开数据集，无任何定制数据集，保证了其工作与开源兼容和可复现，整个训练数据集在token化之后大约包含1.4T的token

(3) LLaMA2

LLaMA2是LLaMA的升级版本，相较于LLaMA在功能上有显著升级

LLaMA2经过更大规模的数据训练，其训练数据量比LLaMA多了40%，同时它的上下文长度也扩大了一倍。为了确保LLaMA2在实际应用中更具有帮助性和安全性，它还在一个大规模的人类偏好数据集上进行了调优，包含了超过100万个人类偏好的注释

LLaMA2的主要优点之一是它可以免费用于研究和商业用途

(4) GLM

GLM(Generative Language Model)是由清华大学实验室和智谱AI共同研发的一款通用预训练开源语言模型，基于Transformer encoder架构的模型

GLM模型通过添加二维位置编码和允许任意顺序预测空白区域，改进了空白填充预训练，从而使其在自然语言理解任务上超越了BERT和T5等模型。它不仅可以进行文本理解任务，如问答、情感分析等，还可以进行文本生成任务，如根据给定的上下文生成新的文本

(5) 盘古

鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型

目前开源了两个版本：鹏程·盘古α和鹏程·盘古α增强版，并支持NPU和GPU两个版本，支持丰富的场景应用，在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出，具备较强的少样本学习的能力

主要有如下几个核心模块：

①数据集：从开源数据集、common crawl、电子书等收集近80TB原始语料，构建了约1.1TB的高质量中文语料数据集，53种语种高质量单、双语数据集2TB

②基础模块：提供预训练模型库，支持常用的中文预训练模型，包括鹏程·盘古α、鹏程·盘古α增强版等

③应用层：支持常见的NLP应用比如多语言翻译、开放域对话等，支持预训练模型落地工具，包括模型压缩、框架移植、可持续学习，助力大模型快速落地

(6) Stable Diffusion

Stable Diffusion是2022年发布的深度学习文本到图像生成模型(基于扩散模型)，它主要用于根据文本的描述产生详细图像

(7) Open-Sora

Open-Sora是一个开源项目，由Colossal-AI团队率先快速开源，旨在为广大用户提供一个高效且用户友好的视频制作方案

Open-Sora方案将复现成本降低了46%

Open-Sora提供了从数据处理到训练推理的全流程解决方案，极大地简化了视频制作流程

训练时可以直接处理任意分辨率的视频，无需缩放，不用手动调整大小

四、大模型应用

(1) AIGC(Artificial Intelligence Generated Content)

AIGC -> 人工智能生成内容 -> 大模型是技术底座，AIGC是应用表现

计算机通过机器学习从现有数据中学习一个对象(物品、产品或任务)的要素，进而生成一个全新的、原创的、真实的、与原来内容相似的对象 —— Gartner

GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合，催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变，多模态推动AIGC内容多边形，使得AIGC具有更通用和更强的基础能力

AIGC对于人类社会、人工智能的意义是里程碑式的。短期来看AIGC改变了基础的生产力工具，中期来看会改变社会的生产关系，长期来看促使整个社会生产力发生质的突破，在这样的生产力工具、生产关系、生产力变革中，生产要素，即数据价值被极度放大

五、大模型训练及推理流程介绍

(1) 预训练

预训练大模型是指在超大型数据集上进行训练的深度神经网络模型，其中包含大量的参数和层级。这些模型通常使用大量的计算资源和大数据集进行训练，可以提高其性能和泛化能力。预训练大模型可以通过预先在大数据集上进行训练，来提高型在特定任务上的表现，并减少对于任务特征依赖

预训练流程与传统神经网络训练过程基本一样。只是因为大模型庞大的体积与数据，需要在训练时使用分布式并行技术来更好的训练

(2) Spervised Finetuning(监督微调)

选择在一个较强的基座模型上进行微调，可以在较低成本下获取某一领域效果较好的大模型

微调可以让基座模型的性能更好的提升

微调方法：LoRA(Low-Rank Adaption)、Prefix tuning、Adapter、R_Drop

(3) RLHF训练步骤

(4) 奖励模型

SFT的目的只是将Pretrained Model中的知识给引导出来的一种手段，而在SFT数据有限的情况下，对模型的引导能力也相对有限

这将导致预训练模型中原先错误或有害的知识没能在SFT数据中被纠正，从而出现有害性或幻觉的问题

通过人类标注数据(或对模型输出结果好坏的排序)，训练奖励模型，再借助于强化学习进一步优化模型

(5) 强化学习微调

通过奖励模型作为强化学习中的评估函数，优化LLM输出结果，使得型输出更加偏向人类喜好

RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高

(6) GPT-3训练流程

(7) 推理

对于常见的生成式任务，大模型的流程推理包括两个部分：全量推理(Encode)和增量推理(Decode)。其中，全量推理是全量输入生成的中间数据，增量推理则是新生成的token进行不断迭代的过程。对于Decoder-Only结构的模型，全量推理和增量推理的模型结构是一致的

推理优化：①算子(计算芯片中处理模型的计算方法)融合 ②多卡推理：通信优化 ③高性能算子替代

全量推理就像你考试时先把整张卷子快速浏览一遍，做到心中有数(处理全部输入)

增量推理就像你开始逐题作答，每写一个字都是基于前面写的内容(逐个生成答案)

在Decoder-Only模型(如GPT)里，浏览卷子和答题用的是同一个"脑子"，只是工作方式不同

六、大模型业务流程

(1) 大模型应用开发流程

(2) 技术选型 - 开发环境

PyTorch + Ascend：目前PyTorch是大模型领域使用最广泛的框架，Ascend提供torch_npu用于适配PyTorch框架，为AI应用提供昇腾AI处理器的超强算力

MindSpore + Ascend：MindSpore对于Ascend适配性强，速度快，且MindSpore提供MindFormers、MindRLHF等一系列大模型套件，工具链完善

PyTorch + GPU：工具链完善，学习成本低

(3) 向量数据库

在垂直领域服务中，大模型虽然能回答一般性问题，但在知识深度、准确度和时效性方面有限。通过利用向量数据库结合大模型和自有知识资产，企业可以构建垂直领域的智能服务

为智能客服的大模型提供缓存能力，可以跟踪用户的历史记录和行为习惯，从而提供个性化的服务

可选的向量数据库：Pinecone、Qdrant、GaussDB向量数据库等

(4) 模型部署

部署过程中考虑以下因素：

推理服务器资源：结合业务高峰期并发量，选择合适的计算资源

①模型量化(可选)：将模型的参数或数据从高精度(如浮点数)转换为低精度(如整数)的过程，减小模型的大小、降低计算复杂度、减少存储空间需求

②可扩展性：硬件可扩展性，在需要时能够快速增加或接入额外的计算资源；软件可扩展性，提供API接口，方便其他应用调用智能客服服务

③部署监控系统，实时跟踪系统的运行状态和性能指标

④定期对模型进行优化和调整，以提高模型的准确率和效率

openvela

openvela 操作系统专为 AIoT 领域量身定制，以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势，已成为众多物联网设备和 AI 硬件的技术首选，涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐

JavaSE-16

底层初始:内部有个 transient Object[] elementData→ 就是一个 Object 类型的数组,啥都能存,默认没放元素时,数组是空数组,一添加数据,才会真正分配空间。) { // 有没有下一个。set(int index, Object e)：将指定索引处的元素，替换成指定的元素，返回值为替换前的元素。add(int index, Object e)：在指定位置插入元素,指