第10章 NLP中的深度学习技术.pptxVIP

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

NLP中的深度学习技术

RNN概述RNN结构基于LSTM的文本分类与情感分析基于Seq2Seq的机器翻译

RNN概述RNN是一种专门用于处理序列数据的神经网络架构,它通过在网络的隐藏层引入循环机制,使得网络能够保持对信息的记忆,从而在处理当前输入时考虑到历史信息。因为语言本质上是序列化的数据,因此RNN特别适合用于NLP领域。RNN的核心思想是使用循环结构来处理序列数据,其中每个序列元素都会按顺序进入网络。在处理每个元素时,网络不仅会考虑当前输入,还会综合之前的信息。这是通过将隐藏层的输出作为下一时间步的额外输入来实现的,从而形成了一种“记忆”机制,使网络能够捕捉到时间序列中的动态变化。RNN的研究和应用时间较长。早期的RNN由于梯度消失和梯度爆炸问题,在长序列上的性能欠佳。1997年,LSTM的提出有效解决了这一问题,通过引入门控机制(遗忘门、输入门和输出门)来控制信息的流动,极大地提高了模型对长期依赖的捕捉能力。此后,GRU作为一种简化的LSTM变体出现,解决了梯度问题的同时,也减少了模型的参数量。

RNN概述RNN结构基于LSTM的文本分类与情感分析基于Seq2Seq的机器翻译

RNN结构RNN的结构主要由输入层、隐藏层和输出层组成。RNN的典型结构如下图。

RNN结构输入层:接受序列数据的输入,可以是一个或多个特征向量。隐藏层:RNN的核心部分,负责处理序列数据并保持状态信息。隐藏状态在不同时间步之间共享参数,使得网络可以处理不同长度的序列,并且能够推广到未知长度的序列。循环连接:隐藏层中的神经元通过循环连接将前一个时间步的隐藏状态传递给当前时间步。输出层:根据隐藏层的状态计算输出结果。输出层可以是一个或多个神经元,具体取决于任务的需求。

多对一结构RNN的“多对一”结构指的是输入序列经过RNN处理后,最终输出一个结果,如右图。假设要进行情感分析,输入是一个句子(可以看作是一个词序列或者词向量序列),判断这个句子表达了积极的情感还是消极的情感。在多对一结构下,RNN的最后一个隐藏状态可以被用于计算输出,也可以通过它来传播梯度以进行训练。这种结构非常适合于需要从变长输入序列中提取信息并产生单个输出的任务。输入一段评论,输出情感极性(正面/负面)。

1.结构和原理等长的多对多结构等长的多对多RNN的基本结构包括三个主要部分:输入层、RNN层(可能包括多个RNN单元堆叠而成),以及输出层。等长的多对多RNN结构如右图。输入层:负责将输入数据(通常是词或字符)转换为机器可处理的形式,如词嵌入向量。RNN层:这是模型的核心,由一系列的循环单元组成(可以是简单的RNN单元、LSTM或GRU单元)。输出层:在每个时间步,基于当前的隐藏状态,RNN会输出一个向量,这个向量随后被转换成最终的输出,如一个标签序列。

等长的多对多结构1.结构和原理RNN的等长多对多结构适合于那些输入序列和输出序列长度相同的任务。例如词性标注、命名实体识别、语法分析等。

2.双向RNN结构等长的多对多结构在基本的RNN中,只考虑预测词前面的词,即只考虑了上下文中“上文”,并没有考虑该词后面的内容。这可能会错过了一些重要的信息,使得预测的内容不够准确。双向RNN的输出是由两个RNN的隐藏层状态的组合决定的。双向RNN的改进之处,不仅从前往后保留该词前面的词的信息,而且从后往前去保留该词后面的词的信息,然后基于这些信息进行预测该词。例如,如果预测一个语句中缺失的词语,那么需要根据上下文来进行预测。

3.多层RNN结构等长的多对多结构多层RNN,结构和双向RNN类似,只是对于每一步的输入增加多层网络。该网络有更强大的表达与学习能力,但是复杂性也提高了,同时需要更多的训练数据。机器翻译、金融市场预测、电力负荷预测、音乐生成。

等长的多对多结构4.LSTM结构LSTM网络采用特殊的方式存储“记忆”,以前梯度比较大的“记忆”不会像在基本的RNN中一样马上被抹除,可以一定程度上解决梯度消失问题。LSTM网络通过梯度剪裁技术克服梯度爆炸问题,当计算的梯度超过阈值c或者小于阈值-c的时候,便把此时的梯度设置成c或-c。

等长的多对多结构4.LSTM结构LSTM内部结构如图所示,图中×表示乘法,+表示加法,tanh表示tanh激活函数;表示sigmoid激活函数,激活函数将数据压缩到0~1,0表示信息无法通过该层,1表示信息可以全部通过;ct表示时间步t的单元状态;xt表示时间步t的输入;ht表示时间步t的隐藏状态输出.由于LSTM网络使用门结构实现了对序列数据中的遗忘与记忆,它不仅能够刻画出输入数据中短时的相关信息,还能够捕捉到具有较长时间间隔的依赖关系,因此能够很好地应用于文本数据的处理。

1.结构与原理非等长结构最基础的Seq2Seq模型包含3个部分,即编码器(Encod

文档评论(0)

学海无涯而人有崖 + 关注
实名认证
文档贡献者

教师资格证、人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年06月11日上传了教师资格证、人力资源管理师

1亿VIP精品文档

相关文档