基于半监督学习和迁移学习的跨领域中文分词研究.pdfVIP

基于半监督学习和迁移学习的跨领域中文分词研究.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

中文分词是指将连续的汉语文本用分隔符分成单独的词的过程。分词结果对

其他一些汉语自然语言处理任务有着深刻的影响,因此中文分词是汉语自然语言

处理领域的基石。

近年来,国内外对中文分词的研究集中于如何利用神经网络构建效果更好的

分词模型。与传统分词方法相比,基于神经网络的分词方法可以训练出分词效果

更好的模型。然而,基于神经网络的分词方法需要大量的标注数据,目前公开的

中文分词数据集绝大多数都是新闻领域。由于领域间数据分布不一致和未登陆词

问题,使用新闻领域数据训练出来的分词模型很难正确划分其他领域的数据,这

就是中文分词任务的跨领域问题。为每个领域标注足够多的数据可以解决中文分

词的跨领域问题,然而标注数据需要消耗大量的人力物力。因此,研究跨领域中

文分词任务具有重要的理论价值和现实意义。

针对跨领域中文分词任务存在的问题,本文将从半监督学习和对抗迁移学习

两个方面研究如何利用资源丰富的源领域数据和外部资源去提高模型在目标领

域的性能,缓解目标领域标注数据不足的问题。本文的主要研究内容如下:

(1)多准则思想能为模型提供更多的特征信息,半监督学习能利用无标注

数据来缓解目标领域标注数据不足的问题。因此,本文提出了一种基于多准则思

想和半监督学习的中文分词方法。该方法利用多准则思想提取多个分词工具的共

性信息,为模型训练提供更丰富的特征信息。本文还设计了一种相似度计算方法

从无标注数据中选取相似度高的句子,通过自训练算法利用大量相似度高的无标

注数据和少量标注数据迭代地训练分词模型。在PKU、MSRA、《诛仙》和微博

数据集上进行了实验,本文模型的F1值平均提升1.41%。

(2)词典可以缓解目标领域标注数据不足的问题,为模型提供更多的特征

信息,对抗迁移学习可以更好地利用源领域数据。因此,本文提出了一种基于词

典和对抗迁移学习的跨领域中文分词方法。利用词典一方面可以为目标领域构建

伪标注数据集,缓解目标领域标注数据不足的问题;另一方面可以生成特征向量,

为模型提供更多的词边界信息。为了降低伪标注数据集中的噪声和最大化利用源

领域数据,本文在模型训练中引入对抗迁移学习,提取领域不变的特征,为模型

训练提供更丰富的特征信息。在SIGHAN2010数据集和《诛仙》数据集上进行

了实验,与对比的跨领域中文分词方法相比,本文模型的F1值平均提升1.03%。

关键词:中文分词、半监督学习、自训练、迁移学习、跨领域、对抗学习、词典

ABSTRACT

Chinesewordsegmentation(CWS)referstodividingcontinuousChinesetextinto

separatewordswithseparators.TheresultofCWShasaprofoundimpactonsomeother

Chinesenaturallanguageprocessing(NLP)tasks,soCWSisthecornerstoneofNLP.

ResearchonCWShasfocusedonusingneuralnetworkstobuildeffectiveCWS

models.TheCWSmethodbasedontheneuralnetworkcantrainagoodmodel.

However,theCWSmethodbasedontheneuralnetworkrequiresalargeamountof

labeleddata,andmostofthecurrentlypublicCWSdatasetsareinthenewsfield.Due

totheinconsistencyofdatadistributionbetweendomainsandOutofVocabulary(OOV),

itisdifficultfortheCWSmodeltrainedwithnewsdomaindatatocorrectlysegment

thedataofotherdomains.Thisisthecross

文档评论(0)

n1u1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档