LIST "Large Language Model Basics"
FROM ""
WHERE file.folder = this.file.folder OR startswith(file.folder, this.file.folder + "/")
SORT file.path

本系列主要专注从高性能计算和加速库视角的LLM结构

CS336：
Build LLM from scratch 第3章——强烈推荐：自主注意力机制

现代 LLM

参考：从零构建大模型——第一章理解大语言模型

介绍

大型语言模型（LLMs）：

定义：近数年开发的深度神经网络模型，典型代表为 OpenAI 的 ChatGPT 系列。
行业意义：为自然语言处理（NLP）领域开启了新时代，从根本上改变了 NLP 技术的应用范式。

与传统 NLP 方法的核心差异

对比维度	传统 NLP 方法	现代 LLMs
擅长任务	简单分类任务（如电子邮件垃圾邮件分类）、可通过手工规则/简单模型捕捉的模式识别	复杂语言任务（解析详细指令、上下文分析、生成连贯且贴合语境的原创文本）
能力短板	缺乏复杂理解与生成能力（例如无法基于关键词列表撰写电子邮件）	暂不具备人类类似的意识与真正“理解”能力，仅能以连贯、上下文相关的方式处理文本
任务适配性	为特定任务定制（如仅用于文本分类或语言翻译），应用范围狭窄	具备广泛专业能力，可适配多类 NLP 任务，无需针对单一任务单独设计

核心优势
- 卓越的语言处理能力：可实现理解、生成、解释人类语言，能捕捉语言深层上下文信息与细微差别。
- 任务通用性强：在文本翻译、情感分析、问答等多类 NLP 任务中均表现出显著改进。
关键技术支撑
- Transformer 架构：是支撑多数 LLMs 的核心架构，为高效处理语言上下文提供基础。
- 大规模数据训练：依托深度学习（机器学习与 AI 的分支，专注神经网络），通过海量文本数据训练，使其能捕捉难以手动编码的语言细微差别、上下文与模式。

当提及 LLMs“理解”语言时，需明确其本质：是以连贯且上下文相关的方式处理和生成文本，而非具备类似人类的意识或真正的理解能力。

定义

LLM 基础定义与核心特征

本质：旨在理解和生成类人文本的深度神经网络，属于生成式 AI（GenAI） 范畴。
“大型”的核心含义：双维度体现——一是模型参数规模大（通常数十亿至数百亿个可调权重）；二是训练数据集庞大（常涵盖大量公开可用文本）。

LLM 的核心技术逻辑

核心训练任务：下一个词预测
- 原理：利用语言的固有序列性，通过优化模型参数预测文本序列中的下一个词，从而让模型学习文本的上下文、结构与关系。
- 特点：任务本身简单，但能训练出能力强大的模型，后续将详细讨论其训练过程。
关键架构：Transformer
- 作用：使模型在预测时可选择性关注输入文本的不同部分，大幅提升对人类语言细微差别和复杂性的处理能力。

LLM 在 AI 体系中的层级关系（结合层级结构）

层级	范畴	核心说明	与 LLM 的关联
顶层	人工智能（AI）	最广泛领域，目标是创建执行类人智能任务（理解语言、识别模式、决策等）的机器系统	LLM 是 AI 的具体应用之一
中层	机器学习（ML）	AI 的子领域，核心是开发“从数据中学习、无需显式编程”的算法，例如传统垃圾邮件过滤器（输入标注数据，模型自主学习垃圾邮件模式）	LLM 的技术基础隶属于机器学习
下层	深度学习（DL）	机器学习的子集，专注于三层及以上的深度神经网络，无需手动提取特征（区别于传统 ML）	LLM 是深度学习技术的具体应用，依托深度神经网络实现语言处理
具体应用	LLM	-	属于深度学习分支下，专注于理解和生成类人文本的模型

图 1-1 这一层级关系图展示了不同领域之间的关系。大语言模型是深度学习技术的具体应用, 能够处理和生成类似人类语言的文本; 深度学习是机器学习的一个分支,主要使用多层神经网络; 机器学习和深度学习致力于开发算法,使计算机能够从数据中学习,并执行需要人类智能水平的任务

补充：AI 领域除机器学习/深度学习外，还包括基于规则的系统、遗传算法、专家系统等方法，但当前以机器学习/深度学习为主导。

传统机器学习与深度学习的关键差异（以垃圾邮件分类为例）

对比维度	传统机器学习	深度学习（含 LLM 技术基础）
特征提取	需手动提取特征（如由专家定义“奖品”“免费”等触发词频率、感叹号数量、可疑链接等特征）	无需手动提取特征，模型自主从数据中学习关键特征
数据依赖	需标注数据（垃圾邮件/非垃圾邮件标签）	同样需标注数据（标签由专家或用户收集）

LLMs 凭借强大的非结构化文本解析与理解能力，应用场景广泛，核心可分为以下几类：

基础 NLP 任务：覆盖机器翻译、文本生成（如撰写内容）、情感分析、文本摘要等传统与进阶 NLP 任务，是其最基础的应用方向。
内容创作与代码生成：拓展至创意领域，可用于写作小说、文章，甚至生成计算机代码，提升内容生产效率。
智能交互与搜索增强：为复杂聊天机器人（如 OpenAI 的 ChatGPT、Google 的 Gemini）和虚拟助手提供技术支撑，能精准回答用户查询；同时可增强传统搜索引擎（如 Google 搜索、Microsoft Bing）的功能。
专业领域知识检索：在医学、法律等专业领域发挥作用，可从海量专业文本中筛选文档、总结长篇段落、回答技术问题，助力专业信息高效提取。

应用本质：LLMs 的核心价值在于自动化 “涉及文本解析与生成” 的各类任务，其应用潜力具有无限拓展性，未来有望重新定义人类与技术的关系，使其更对话化、直观且易访问。

构建 LLM 模型

目的：

支持定制化开发：掌握构建能力后，可对开源 LLM 架构进行预训练或微调，使其适配特定领域数据集（如金融、医疗）或专项任务，突破通用模型的适配局限。
特定领域性能优势：研究表明，为特定任务/领域定制的 LLM（如金融领域的 BloombergGPT、医疗问答定制 LLM），在建模性能上可优于 ChatGPT 等面向广泛场景的通用 LLM。
强化数据隐私保护：企业无需将敏感数据共享给 OpenAI 等第三方提供商，从源头规避保密数据泄露风险。
实现本地化部署与成本优化：可开发小型自定义 LLM，直接部署在笔记本电脑、智能手机等客户设备（如 Apple 探索方向），既能显著降低延迟，又能减少服务器相关成本。
掌握完全自主权：开发者可自主控制模型的更新、修改节奏与方向，无需依赖第三方模型的迭代计划。

两阶段构建流程（预训练 + 微调）

阶段 1：预训练——打造“基础模型”

核心目标：让模型在大规模数据上学习语言的广泛理解能力，生成“基础模型”（如 GPT-3，ChatGPT 原始模型的前身）。
数据特征：使用无标注原始文本（仅普通文本，可能经格式过滤、去除未知语言文档等预处理，无需人工标注信息）。
训练范式：采用自监督学习，模型通过自身逻辑从输入数据生成“标签”（区别于传统机器学习需人工标注的模式）。
基础能力输出：预训练后的模型可实现文本补全（完成半写句子），并具备有限的“少样本能力”——基于少量示例即可学习新任务，无需大量训练数据。

阶段 2：微调——适配特定任务/领域

核心目标：在预训练基础模型上，用窄范围标注数据进一步优化，使其适配特定任务或领域。
数据特征：需使用带标注的数据集，根据微调类型分为两类：
- 指令微调：标注数据为“指令 - 答案对”（如“翻译文本”的查询 + 对应正确译文）；
- 分类微调：标注数据为“文本 - 类别标签对”（如带“垃圾邮件/非垃圾邮件”标签的电子邮件）。

传统机器学习模型（含常规监督学习训练的深度神经网络）通常依赖人工标注信息，但此规则不适用于 LLM 的预训练阶段，其自监督学习特性是 LLM 大规模训练的核心基础。

图 1-3 大语言模型的预训练目标是在大量无标注的文本语料库 (原始文本) 上进行下一单词预测。预训练完成后,可以使用较小的带标注的数据集对大语言模型进行微调

Transformer 架构：现代 LLM 的核心基础

起源与初始用途
- 由谷歌在 2017 年论文《Attention Is All You Need》中首次提出，最初为机器翻译任务（如英译德、英译法）设计。
核心结构：编码器与解码器双模块 Transformer 架构由两个关键子模块构成，协同完成“输入处理 - 输出生成”流程：
- 编码器（Encoder）：负责处理输入文本，将其编码为捕捉上下文信息的数值向量（即文本的向量表示）；
- 解码器（Decoder）：接收编码器输出的向量，基于该向量生成目标输出文本（如翻译任务中，解码器将源语言向量解码为目标语言文本）。
- 补充：编码器与解码器均由多层组成，层间通过自注意力机制连接，输入预处理与编码细节将在后续章节展开。
关键组件：自注意力机制
- 核心作用：允许模型衡量文本序列中不同单词/词元的相对重要性，从而捕捉长距离依赖和上下文关系，是 LLM 生成连贯、贴合语境输出的核心支撑。

图 1-4 原始 Transformer 架构的简化描述,这是一种用于机器翻译的深度学习模型。Transformer 由两部分组成: 一个是编码器,用于处理输入文本并生成文本嵌入 (一种能够在不同维度中捕获许多不同因素的数值表示); 另一个是解码器,用于使用这些文本嵌入逐词生成翻译后的文本。请注意,图中展示的是翻译过程的最后阶段,此时解码器根据原始输入文本 (“This is an example”) 和部分翻译的句子 (“Das ist ein”),生成最后一个单词 (“Beispiel”) 以完成翻译

Transformer 核心变体：BERT 与 GPT（适配不同 LLM 任务）

Transformer 通过“侧重编码器/解码器”和“差异化训练策略”，衍生出两类核心变体，分别适配不同下游任务：

对比维度	BERT（双向编码预训练 Transformer）	GPT（生成式预训练 Transformer）
架构基础	基于原始 Transformer 的编码器模块	基于原始 Transformer 的解码器模块
核心训练任务	掩码预测（masked word prediction）：预测句子中被掩码的词	文本补全（text completion）
擅长任务类型	文本理解类任务（情感预测、文档分类等）	文本生成类任务（机器翻译、文本摘要、小说写作、代码编写等）
典型应用案例	X（原 Twitter）用于检测平台有害内容	各类生成式 LLM（如 ChatGPT 的基础模型）
核心能力特点	双向捕捉上下文，适合理解文本语义	具备出色可扩展性，支持零样本学习与少样本学习

图 1-5 Transformer 编码器和解码器的可视化展示。左侧的编码器部分展示了专注于掩码预测的类 BERT 大语言模型,主要用于文本分类等任务。右侧的解码器部分展示了类 GPT 大语言模型,主要用于生成任务和生成文本序列

GPT 的关键学习能力（LLM 泛化性核心）

GPT 模型除文本补全外，核心优势在于强大的泛化学习能力，可适配未专门训练的任务：

零样本学习（Zero-shot Learning）：无需任何特定示例，即可泛化到从未见过的任务；
少样本学习（Few-shot Learning）：仅通过用户提供的少量示例，就能快速学习并执行新任务。

图 1-6 除了文本补全,类 GPT 大语言模型还可以根据输入执行各种任务,而无须重新训练、微调或针对特定任务更改模型架构。有时,在输入中提供目标示例会很有帮助,这被称为 “少样本设置”。然而,类 GPT 大语言模型也能够在没有特定示例的情况下执行任务,这被称为“零样本设置”

主流 LLM（GPT/BERT）训练数据集与预训练

主流 LLM（如 GPT、BERT）的预训练数据集具备“规模庞大、内容多样”的核心特点，是模型实现语言理解与泛化能力的基础：

规模与覆盖范围
- 语料量级：涵盖数十亿词汇，部分模型（如 GPT-3）训练相关数据集词元总量近 5000 亿（注：词元≈单词 + 标点符号，是模型读取文本的基本单位，分词细节见第 2 章）；
- 内容多样性：涉及广泛主题，同时包含自然语言（日常文本）与计算机语言（代码相关），能支撑模型学习语法、语义、上下文及通用知识。
典型案例：GPT-3 训练数据集
- 数据总量：相关数据集词元总数约 4990 亿，但模型实际仅在3000 亿词元上训练（论文未明确剩余词元未使用的原因）；
- 数据体量参考：单个子数据集（如 CommonCrawl）含 4100 亿词元，需约570GB 存储空间；
- 后续模型扩展：GPT-3 之后的模型（如 Meta 的 Llama）进一步拓展数据源，新增 Arxiv 研究论文（92GB）、StackExchange 代码问答（78GB）等专业领域数据。
公开数据集参考与版权提示
- 公开替代：可参考开源语料库 Dolma（规模达 3 万亿词元），适用于 LLM 预训练；
- 版权风险：Dolma 等数据集可能包含受版权保护的内容，实际使用需结合具体使用场景与所在国家的法律条款。

预训练的核心属性与成本

“基础模型”定位 预训练后的 LLM 因具备极高灵活性——可针对各类下游任务微调，因此被称为“基础模型”，是后续任务适配的核心底座。
预训练的高昂成本
- 资源消耗大：需投入大量计算与存储资源，成本极高；
- 典型案例：GPT-3 预训练的云计算费用估计高达460 万美元，凸显大规模预训练的资源门槛。

详解 GPT

一、模型起源与发展脉络

初始提出：由 OpenAI 的 Radford 等人在论文《Improving Language Understanding by Generative Pre-Training》中首次提出。
关键迭代：
- GPT-3：作为扩展版本，核心升级为更多参数与更大训练数据集，是第一代 ChatGPT 的基础模型。
- ChatGPT 原始模型：基于 GPT-3，采用 OpenAI《InstructGPT》论文方法，在大型指令数据集上微调得到。

二、核心训练机制：自监督学习与下一单词预测

核心预训练任务：仅依赖“下一单词预测”这一简单任务（通过观察前文预测后续单词，见图 1-7），却能支撑模型的复杂能力。
自监督学习优势：
- 无需人工收集标注数据，利用文本自身结构“动态生成标签”（将下一个词作为预测标签）。
- 可直接使用大量无标注文本数据集训练，突破数据标注的规模限制。

在 GPT 模型的下一单词预测预训练任务中,系统通过观察之前的词来学习预测句子中的下一个词。这种方法能够帮助模型理解词语和短语在语言中的常见组合,从而为应用于各种其他任务奠定基础

三、架构特点：纯解码器 + 自回归，简洁且高效

与原始 Transformer 的核心差异：
- 原始 Transformer：含编码器 + 解码器，专为语言翻译设计。
- GPT：仅保留解码器部分（见图 1-8），架构更简洁，专注文本生成。
自回归模型属性：
- 生成逻辑：逐词生成，将“前序输出”作为“后续预测的输入”，确保文本连贯性。
- 关键约束：通过“下三角掩码”屏蔽未来词元信息，避免“偷看”未来内容，符合人类语言的序列性。
规模优势：GPT-3 规模远超原始 Transformer（原始 Transformer 仅 6 层编/解码器；GPT-3 含 96 层 Transformer，参数达1750 亿个）。

四、核心能力：涌现性与任务通用性

涌现性（Emergence）：模型能完成未经明确训练的任务（如翻译、拼写校正、分类），是其最关键的优势。
- 能力来源：非人工教授，而是通过接触海量多语言数据与多样上下文，自然“学会”任务模式（如未训练翻译却能执行翻译）。
任务通用性：无需为不同任务设计专用模型，一个 GPT 模型即可适配文本补全、翻译、分类等多类任务。

尽管 GPT-3 发布于 2020 年，但后续主流模型（如 Meta 的 Llama）仍基于其“纯解码器 + 自监督预训练”的核心理念，仅做少量调整。

构建 LLM 地步骤

构建大语言模型的 3 个主要阶段: 实现模型架构和准备数据 (第一阶段)、预训练大语言模型以获得基础模型 (第二阶段),以及微调基础模型以得到个人助手或文本分类器 (第三阶段)

小结

大语言模型彻底革新了自然语言处理领域。在此之前，自然语言处理领域主要采用基于明确规则的系统和较为简单的统计方法。而如今，大语言模型的兴起为这一领域引入了基于深度学习的新方法，在理解、生成和翻译人类语言方面取得了显著的进步。
现代大语言模型的训练主要包含两个步骤。
- 首先，在海量的无标注文本上进行预训练，将预测的句子中的下一个词作为“标签” 。
- 随后，在更小规模且经过标注的目标数据集上进行微调，以遵循指令和执行分类任务。
大语言模型采用的是基于 Transformer 的架构。这一架构的核心组件是注意力机制，它使得大语言模型在逐词生成输出时，能够根据需要选择性地关注输入序列中的各个部分。
- 原始的 Transformer 架构由两部分组成：一个是用于解析文本的编码器，另一个是用于生成文本的解码器。
- 专注于生成文本和执行指令的大语言模型（如 GPT-3 和 ChatGPT ）只实现了解码器部分，从而简化了整个架构。
由数以亿计的语料构成的大型数据集是预训练大语言模型的关键。
尽管类 GPT 大语言模型的常规预训练任务是预测句子中的下一个词，但它们展现出了能够完成分类、翻译或总结文本等任务的“涌现”特性。
当一个大语言模型完成预训练后，该模型便能作为基础模型，通过高效的微调来适应各类下游任务。
在自定义数据集上进行微调的大语言模型能够在特定任务上超越通用的大语言模型。

Quartz 4

Explorer

Overview