doi10.6043j.issn.0438-0479.201610023.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
doi10.6043j.issn.0438-0479.201610023

doi:10.6043/j.issn.0438-0479. 201610023 基于GRU神经网络的中文分词法 李雪莲,段 鸿*,许 牧 (厦门大学软件学院005) 摘要:中文分词是中文自然语言处理的基础。目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题。随着深度学习的研究和应用的兴起提出了将LSTM(Long Short-Term Memory)网络应用中文分词任务的方法,有效建模长距离依赖信息但是(Gated Recurrent Unit)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征,有效建模长距离依赖信息与LSTM神经网络中文分词相当的性能,并在速度上有显著提升。语言处理分词循环单元嵌入网络TP391.1 文献标志码: A 在中文中,标点符号只是对句和段进行划分,而对于词语并没有明显的分割符号,这与英文单词以空格划分存在显著差别。因此,中文自然语言处理的第一步就是将一个中文字符序列划分成词语的集合,即中文分词。中文分词是对中文进一步分析处理的基础,如词性标注、机器翻译、中文词有哪些信誉好的足球投注网站等。中文分词的效果,直接影响了进一步的分析结果。因此,中文分词任务具有重要意义。然而,由于中文中存在一字多意、一词多意、不同的语境下同一个句子存在不同分词方式等问题,中文分词一直是中文自然语言处理任务中的难点。 中文分词问题从提出到现在,常用的方法可以分为以下四类:1、基于字符串匹配的分词方法,又称为机械分词法[1][2][3];2、基于语义分析的分词方法[4];3、基于统计学习的分词方法[5][6];4、基于神经网络的分词方法[7][8]。基于字符串的分词存在着词典不全(,对于歧义和未登陆词处理效果不佳等问题。而基于语义分析的分词方法由于中文的复杂性,目前还不成熟。基于统计学习的分词则需要人工定义和提取特征,存在特征稀疏,模型复杂,容易过拟合的问题。由于神经网络可以自动学习特征,[9]提出了一种基于神经网络变种的概率语言模型。2011年,文献[10]将神经网络应用到了自然语言处理中。2013年,文献[7]开始采用神经网络解决中文分词问题。2015年,[8]提出了使用LSTM神经网络解决中文分词问题的方法,克服了神经网络不能学习长距离依赖关系的问题了的效果。,由于LSTM网络模型较为复杂,存在预测时间问题。解决这个问题提出了基于GRU神经网络的分词方法。模型由文献[11],模型和LSTM模型均为神经网络Recurrent Neural Network,RNN)模型的但是相对于LSTM模型GRU模型控制单元三个减少到了个,模型简单具有更高的效率[12]对比了GRU,发现GRU模型在多个问题上能LSTM模型相当并且更易训练,GRU模型越来越多地应用语言处理中。[13]在其神经响应机的实现中了GRU模型文献[14]其语言模型的实现中用GRU模型了传统的LSTM模型考察了GRU模型应用中文分词任务的效果,实验发现GRU神经网络模型中文分词分词效果与基于LSTM神经网络模型的方法相当,但模型的训练和预测速度显著优于LSTM神经网络模型具有更高的。[12]。目前,使用最为广泛的是四词位标签集(B, M, E, S),其中B(Begin)标注词的开始,M(Middle)标注词的中部,E(End)标注词的结束,S(Single)则标注单字符词。通过将中文分词任务转化为一个字符序列标注任务,我们可以进一步将该任务看作一个分类问题,即为字符序列中的每个字符确定标签分类的问题,最后实现用神经网络解决该多分类问题。 基于神经网络中文分词法的通用框架如图 1所示[8]。图 1中以字符序列“我们很开心”为例展示了解决分词问题的整体流程。t时刻的输入字符=“很”,窗口大小k = 5,则输入窗口为“我”、“们”、“很”、“开”、“心”五个字符。字符序列首先输入到查找表中,在查找表中查询得出所对应的五个字向量,将其串联,形成一个长向量,作为下一层的输入。接着,将输入到一个线性变换层,按照公式(1)进行线性变换得到: (1) 下一层为非线性变换层,以为输入,按照公式(2)进行非线性变换得到: (2) 其中,g表示非线性函数,通常采用sigmoid函数。接下来的是另一个线性变换层,对按照公式(3)进行线性变换: (3) 通过进行维度转换,得到一个维度与词位标签个数相等的向量,该向量中的每一个元素都代表了对应词位标签的得分。通过对字符序列中的每个字符进行以上的计算,可以得到该字符序列中每个字符的标签得分矩阵。由于一个字符序列中,字符标签之间存在强依赖关系,因此,可以引入一个矩阵来表示字符标签之间的转换关系,表示从标签i转移到标签j的概率。可以通过后向传播算法,从训练集学习得到

文档评论(0)

ailuojue2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档