从右到左寻找词的最大匹配.pptVIP

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从右到左寻找词的最大匹配

汉语分词:最大匹配方法 张月(李正华指导) 2015.9.15 中文分词的目的是将汉字序列切分为词序列 举例说明: 输入句子:他是研究生物化学的。 可能的分词:他 是 研究生 物化 学 的 。 他 是 研究生 物 化学 的 。 他 是 研究 生物 化学 的 。 合理答案:他 是 研究 生物 化学 的 。 分词任务 从左到右寻找词的最大匹配(每次都贪心的找一个最长的词典词) 我们有一个词典,用于存放所有可能的词语,即除了单字,分词结果中的每个词均要在词典中出现。 正向最大匹配算法 从左到右寻找词的最大匹配 从当前位置开始,向右截取最大长度,组成当前词; 和字典中的词逐一进行匹配; 若匹配成功,则进行下次匹配,下次匹配的当前位置则为这次词后面的那个字。 如果未能匹配,就缩短长度(长度减一)重新截取,直到当前词与词典中的词匹配或者当前词是单字; 正向最大匹配算法 从左到右寻找词的最大匹配 正向最大匹配算法 例子:我是中国人 词典中包括【中国、中国人】 假设:最大词长为3 正向最大匹配算法 例子:我是中国人 第一轮: 第一次:我是中是选取的词,在词典中 未找到匹配项 第二次:我是是选取的词,在词典中未 找到匹配项 第三次:我是选取的词,是单字,匹配 成功 正向最大匹配算法 例子:我/是中国人 第二轮: 第一次:是中国是选取的词,在词典中 未找到匹配项 第二次:是中是选取的词,在词典中未 找到匹配项 第三次:是是选取的词,是单字,匹配 成功 正向最大匹配算法 例子:我/是/中国人/ 第三轮: 第一次:中国人是选取的词,在词典中 找到匹配项,匹配成功。 至此,短句中所有字匹配结束,该短句分词结束。 正向最大匹配算法 从右到左寻找词的最大匹配 与正向最大匹配的区别在于,从句子的末尾开始,向左边截取一定的长度去匹配。 逆向最大匹配算法 从右到左寻找词的最大匹配 逆向最大匹配算法 例子:我是中国人 第一轮: 第一次:中国人是选取的词,在词典中 找到匹配项,匹配成功 逆向最大匹配算法 例子:我是/中国人 第二轮: 第一次:因为剩余字数已不足3,小于假 定的最大词长,所以选择我是, 在词典中未找到匹配项 第二次:是是选取的词,是单字,匹配 成功 逆向最大匹配算法 例子:我/是/中国人 第三轮: 第一次:因为剩余字数已不足3,小于假 定的最大词长,所以选择我, 是单字,匹配成功 至此,短句中所有字匹配结束,该短句 分词结束。 逆向最大匹配算法 给定人工标注的分词答案,评价某一算法给出的结果。 正确率(Precision) = 正确识别的词数 / 识别出的个体总数 召回率(Recall) = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率* 召回率 * 2 / (正确率 + 召回率) 分词算法评价:正确率/召回率/F值 思考:评价程序应该怎么写? utf-8是不定长的,根据左侧位1的个数来决定占用了几个字节,中文一般占2-4个字节 UTF-8编码 utf-8可以根据字的第一个字节移位推出长度的 0xxxxxxx占1个字节 110xxxxx 10xxxxxx占2个字节 1110xxxx 10xxxxxx 10xxxxxx占3个字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx占4个字节 gbk的编码方式是中文占两个字节,英文占一个字节,根据第一个字节的最高位来判断 如果第一个字节的最高位是1,则是两个字节连在一起为一个字符,否则一个字节为一个字符 中文的编码范围 第一个字节 | 第二个字节 0x81-0xFE(129-254) | 0x40-0xFE(64-254) GBK编码 数据格式 四个编程任务(编程语言不限,Linux上运行) 1. 构建词典(3分) 给一个人工分好词的文件data.conll,构建一个词典,输出到一个文件中,起名为word.dict(格式自定义) 2. 构建毛文本(2分) 将data.conll文件中的格式修改为:每行一句话,词语之间无空格,起名为data.txt 四个编程任务(编程语言不限,Linux上运行) 3. 前向(5分)或(二者

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档