《自然语言处理》全套PPT课件_201-300.pptxVIP

下载本文档

10
0
约1.9万字
约 100页
2025-05-17 发布于广东
举报
版权申诉

《自然语言处理》全套PPT课件_201-300.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自注力模型

RDx×N

●首先生成三个向量序列

●

意

●如果使用缩放点积来作为注意力

打分函数，输出向量序列可以简写为

Q=W₄X∈RDk×N,

K=WkX∈RDk×N,V=WX∈RDu×N,

输入序列为X=[x₁,…,xn]∈

hn=att(K,V),qn)

●计算hn

多头(multi-head)自注意力模型

w.D

Transformer,Encoder

●其他操作

●位置编码

●层归一化●直连边

●逐位的FNN

全全

AddNormalize

个个

FeedForwardFeedForward

z₁□Z2

▲AddNormalize

LayerNorm(+

Zil

Self-Attention

中

x₂

Machines

图片来源：http://jalammar.github.io/illustrated-transformer/

仅仅自注意力还不够

POSITIONALENCODING

x₁

ENCODER#1

Thinking

鱼

Layer

Input

f(·)

Layer

f()

Transformer

Output

模型

每层复杂度

序列操作数

最大路径长度

CNN

0(kLd²)

0(1)

0(logk(L))

RNN

0(Ld²)

0(L)

Transformer

0(L²d)

0(1)

复杂度分析

k卷积核大小L序列长度d维度

Output

Probabilities

SoftmaxStage5

Linear

AddNormStage4

Feed

Forward

Stage3

AddNorm

Feed

Forward

Stage2Nx

Multi-Head

Attention

Stage1Positional

Encoding

Input

Embedding

Inputs

(shiftedright)

AddNormStage2

Masked

Multi-Head

Attention

Transformer

AddNorm

Multi-Head

Attention

Output

Embedding

PositionalEncoding

Stage1

AddNorm

Stage3

Outputs

计算图与自动微分

交叉熵损失函数

应用于多分类向题

●将神经网络的最后一层设置C个神经元，并使用Softmax激活函数，输出可以作为每个类的条件概率。

y=softmax(z(L)

●采用交叉熵损失函数，对于样本(x,y),其损失函数为

L(y,y)=-yTlogy

=1,将母个件本x\输人给刖馈伸经

其在数据集D上的结构化风险函数为：

下降

给疋训练集为D=i(X,y)}n

网络，得到网络输出为9(n),

●梯度下降

●反向传播算法

●根据前馈网络的特点而设计的高效方法

●一个更加通用的计算方法

●自动微分(AutomaticDifferentiation,AD)

如何计算梯度?

神经网络为一个复杂的复合函数

●链式法则

--0目动微分是利用链式法则采目动计算一个复台函数的梯度。

●计算图

函数导数

h₁=x×w

h₂=h₁+b

h₃=h₂×-1

h4=exp(h₃)

h₅=h₄+1

h₆=1/h₅

当x=1,w=0,b=0时，可以得到

计算图

=1×-0.25×1×1×-1×1×1

=0.25.

自动微分

前向模式和反向模式

●反向模式和反向传播的计算梯度的方式相同

加，得到最终的梯度。

静态●计算图和动态计算图

●Theano和Tensorflow1.0

●动态计算图是在程序运行时动态构建

●DyNet,Chainer和PyTorch

●两种构建方式各有优缺点

●静态计算图在构建时可以进行优化，

您可能关注的文档

文档评论（0）

yangzhuangju + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《自然语言处理》全套PPT课件_201-300.pptxVIP