大语言模型通识微课课件：什么是语言模型.pptx

下载文档

0
0
约1.96千字
约 12页
2024-10-12 发布于山东
举报
版权申诉
保障服务

大语言模型通识微课课件：什么是语言模型.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;语言模型起源于语音识别，它是自然语言处理领域的基础任务和核心问题，其目标是对自然语言的概率分布建模。大量的研究从n元语言模型、神经语言模型以及预训练语言模型等不同角度开展了一系列工作，在不同阶段对自然语言处理任务有重要作用。

随着基于谷歌Transformer的各类语言模型的发展及预训练微调范式在自然语言处理各类任务中取得突破性进展。语言模型的应用范围已扩展到机器翻译、信息检索、问答、文摘等众多自然语言处理领域。;语言模型是这样一个模型：对于任意的词序列，它能够计算出这个序列是一句话的概率。例如，词序列A：“这个网站|的|文章|真|水|啊”，这个明显是一句话，一个好的语言模型也会给出很高的概率。再看词序列B：“这个网站|的|睡觉|苹果|好快”，这明显不是一句话，如果语言模型训练的好，那么序列B的概率就会很小。;语言模型定义：假设我们要为中文创建一个语言模型，V表示词典，V={猫,狗,机器,学习,语言,模型,...}，wi∈V。语言模型就是这样一个模型：给定词典V，能够计算出任意单词序列w1,w2,...,wn是一句话的概率p(w1,w2,...,wn)，其中，p≥0。

计算p(w1,w2,...,wn)的最简单方法是数数，可以想象一旦单词序列没有在训练集中出现过，模型的输出概率就是0。;在统计学模型为主体的自然语言处理时期，主要成果是N-gram语言模型。为了简化p(wi|w1,w2,...,wi-1)的计算，引入一阶马尔可夫假设：每个词只依赖前一个词；也可以引入二阶马尔可夫假设：每个词依赖前两个词。有了马尔可夫假设，就可以方便的计算条件概率。此外，还有前馈神经网络语言模型、循环神经网络语言模型及其他预训练语言模型。;语言模型可用于提升语音识别和机器翻译的性能。例如，在语音识别中，给定一段“厨房里食油用完了”的语音，有可能会输出“厨房里食油用完了”和“厨房里石油用完了”这两个读音完全一样的文本序列。如果语言模型判断出前者的概率大于后者的概率，就可以根据相同读音的语音输出“厨房里食油用完了”的文本序列。;早期在解决机器翻译这一类序列到序列的问题时，通常采用的做法是利用一个编码器和一个???码器构建端到端的神经网络模型。但是，基于编码解码的神经网络存在两个问题。拿机器翻译作为例子：

问题1：如果翻译的句子很长很复杂，比如直接一篇文章输进去，模型的计算量很大，并且模型的准确率下降严重。

问题2：翻译时不同语境下同一个词具有不同含义，但是网络对这些词向量并没有区分度，没有考虑词与词之间的相关性，导致翻译效果比较差。

针对这样的问题，提出了注意力机制。;2014年，弗拉基米尔在“视觉注意力的反复模型”一文中应用了注意力机制。2017年提出的Transformer结构在自然语言处理、计算机视觉等相关问题上被广泛应用。

“注意力机制”：就是将人的感知方式、注意力的行为应用在机器上，让机器学会去感知数据中的重要和不重要的部分。比如要识别图片中的动物，我们让机器存在一个注意力侧重点，关注图片中动物的面部特征，包括耳朵、眼睛、鼻子、嘴巴，而不用太关注背景的一些信息。核心目的是希望机器能注意到对当前任务更关键的信息，而对于其他非关键信息不需要注意太多。;对模型的每一个输入项，它可能是图片中的不同部分，或者是语句中的某个单词，分配一个权重，这个权重的大小代表了我们希望模型对该部分的关注程度。这样，通过权重大小来模拟人在处理信息时的注意力侧重，有效的提高了模型的性能，并且在一定程度上降低了计算量。;深度学习中的注意力机制通常可分为三类：软注意（全局注意）、硬注意（局部注意）和自注意力（内注意）

（1）软注意机制：对每个输入项分配权重。由于考虑大部分信息但考虑程度不一，所以相对计算量比较大。

（2）硬注意机制：对每个输入项分配权重，只考虑那部分需要关注，哪部分不关注，直接舍弃掉一些不相关项。

（3）自注意力机制：对每个输入项分配的权重取决于输入项之间的相互作用。它在处理很长的输入时，具有并行计算的优势。;大模型的发展历程不长，但速度惊人，可以粗略分为三个阶段：基础模型、能力探索、突破发展。

基础模型阶段主要集中于2018年至2021年。2017年提出的Transformer架构在机器翻译任务上取得突破性进展。2020年OpenAI发布了GPT-3。

能力探索阶段集中于2019年至2022年，研究者开始探索在不针对单一任务进行微调的情况下，如何能够发挥大模型的能力。

突破发展阶段以2022年11月ChatGPT发布为起点。它通过简单对话框，利用大模型可以实现问题回答、文稿撰写、代码生成、数学解题的能力。;

您可能关注的文档

文档评论（0）

ning2021 + 关注: 实名认证

内容提供者

中医资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

更多 >

大语言模型通识微课课件：什么是语言模型.pptx