《自然语言处理》全套PPT课件_201-300.pptxVIP

《自然语言处理》全套PPT课件_201-300.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自注力模型

RDx×N

●首先生成三个向量序列

●如果使用缩放点积来作为注意力

打分函数,输出向量序列可以简写为

Q=W₄X∈RDk×N,

K=WkX∈RDk×N,V=WX∈RDu×N,

输入序列为X=[x₁,…,xn]∈

hn=att(K,V),qn)

●计算hn

多头(multi-head)自注意力模型

W

w.D

Transformer,Encoder

●其他操作

●位置编码

●层归一化●直连边

●逐位的FNN

全全

AddNormalize

个个

FeedForwardFeedForward

z₁□Z2

▲AddNormalize

X

LayerNorm(+

Zil

Self-Attention

x₂

Machines

图片来源:http://jalammar.github.io/illustrated-transformer/

仅仅自注意力还不够

POSITIONALENCODING

x₁

ENCODER#1

Thinking

Layer

Input

f(·)

Layer

f()

Transformer

Output

模型

每层复杂度

序列操作数

最大路径长度

CNN

0(kLd²)

0(1)

0(logk(L))

RNN

0(Ld²)

0(L)

0(L)

Transformer

0(L²d)

0(1)

0(1)

复杂度分析

k卷积核大小L序列长度d维度

Output

Probabilities

SoftmaxStage5

Linear

AddNormStage4

Feed

Forward

Stage3

AddNorm

Feed

Forward

Stage2Nx

Multi-Head

Attention

Stage1Positional

Encoding

Input

Embedding

Inputs

(shiftedright)

AddNormStage2

Masked

Multi-Head

Attention

Transformer

AddNorm

Multi-Head

Attention

Output

Embedding

PositionalEncoding

Stage1

AddNorm

Stage3

Outputs

Nx

计算图与自动微分

交叉熵损失函数

应用于多分类向题

●将神经网络的最后一层设置C个神经元,并使用Softmax激活函数,输出可以作为每个类的条件概率。

y=softmax(z(L)

●采用交叉熵损失函数,对于样本(x,y),其损失函数为

L(y,y)=-yTlogy

=1,将母个件本x\输人给刖馈伸经

其在数据集D上的结构化风险函数为:

下降

给疋训练集为D=i(X,y)}n

网络,得到网络输出为9(n),

●梯度下降

●反向传播算法

●根据前馈网络的特点而设计的高效方法

●一个更加通用的计算方法

●自动微分(AutomaticDifferentiation,AD)

如何计算梯度?

神经网络为一个复杂的复合函数

●链式法则

--0目动微分是利用链式法则采目动计算一个复台函数的梯度。

●计算图

函数导数

h₁=x×w

h₂=h₁+b

h₃=h₂×-1

h4=exp(h₃)

h₅=h₄+1

h₆=1/h₅

当x=1,w=0,b=0时,可以得到

计算图

=1×-0.25×1×1×-1×1×1

=0.25.

T

自动微分

前向模式和反向模式

●反向模式和反向传播的计算梯度的方式相同

加,得到最终的梯度。

静态●计算图和动态计算图

●Theano和Tensorflow1.0

●动态计算图是在程序运行时动态构建

●DyNet,Chainer和PyTorch

●两种构建方式各有优缺点

●静态计算图在构建时可以进行优化,

文档评论(0)

yangzhuangju + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档