从右到左寻找词的最大匹配.pptVIP

下载本文档

7
0
约2.16千字
约 21页
2017-08-11 发布于天津
举报
版权申诉

从右到左寻找词的最大匹配.ppt

1、本文档共21页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从右到左寻找词的最大匹配

汉语分词:最大匹配方法张月（李正华指导） 2015.9.15 中文分词的目的是将汉字序列切分为词序列举例说明：输入句子：他是研究生物化学的。可能的分词：他是研究生物化学的。他是研究生物化学的。他是研究生物化学的。合理答案：他是研究生物化学的。分词任务从左到右寻找词的最大匹配（每次都贪心的找一个最长的词典词）我们有一个词典，用于存放所有可能的词语，即除了单字，分词结果中的每个词均要在词典中出现。正向最大匹配算法从左到右寻找词的最大匹配从当前位置开始，向右截取最大长度，组成当前词；和字典中的词逐一进行匹配；若匹配成功，则进行下次匹配，下次匹配的当前位置则为这次词后面的那个字。如果未能匹配，就缩短长度（长度减一）重新截取，直到当前词与词典中的词匹配或者当前词是单字；正向最大匹配算法从左到右寻找词的最大匹配正向最大匹配算法例子：我是中国人词典中包括【中国、中国人】假设：最大词长为3 正向最大匹配算法例子：我是中国人第一轮：第一次：我是中是选取的词，在词典中未找到匹配项第二次：我是是选取的词，在词典中未找到匹配项第三次：我是选取的词，是单字，匹配成功正向最大匹配算法例子：我/是中国人第二轮：第一次：是中国是选取的词，在词典中未找到匹配项第二次：是中是选取的词，在词典中未找到匹配项第三次：是是选取的词，是单字，匹配成功正向最大匹配算法例子：我/是/中国人/ 第三轮：第一次：中国人是选取的词，在词典中找到匹配项，匹配成功。至此，短句中所有字匹配结束，该短句分词结束。正向最大匹配算法从右到左寻找词的最大匹配与正向最大匹配的区别在于，从句子的末尾开始，向左边截取一定的长度去匹配。逆向最大匹配算法从右到左寻找词的最大匹配逆向最大匹配算法例子：我是中国人第一轮：第一次：中国人是选取的词，在词典中找到匹配项，匹配成功逆向最大匹配算法例子：我是/中国人第二轮：第一次：因为剩余字数已不足3，小于假定的最大词长，所以选择我是，在词典中未找到匹配项第二次：是是选取的词，是单字，匹配成功逆向最大匹配算法例子：我/是/中国人第三轮：第一次：因为剩余字数已不足3，小于假定的最大词长，所以选择我，是单字，匹配成功至此，短句中所有字匹配结束，该短句分词结束。逆向最大匹配算法给定人工标注的分词答案，评价某一算法给出的结果。正确率(Precision) = 正确识别的词数 / 识别出的个体总数召回率(Recall) = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率* 召回率 * 2 / (正确率 + 召回率) 分词算法评价：正确率/召回率/F值思考：评价程序应该怎么写？ utf-8是不定长的，根据左侧位1的个数来决定占用了几个字节，中文一般占2-4个字节 UTF-8编码 utf-8可以根据字的第一个字节移位推出长度的 0xxxxxxx占1个字节 110xxxxx 10xxxxxx占2个字节 1110xxxx 10xxxxxx 10xxxxxx占3个字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx占4个字节 gbk的编码方式是中文占两个字节，英文占一个字节,根据第一个字节的最高位来判断如果第一个字节的最高位是1，则是两个字节连在一起为一个字符，否则一个字节为一个字符中文的编码范围第一个字节 | 第二个字节 0x81-0xFE(129-254) | 0x40-0xFE(64-254) GBK编码数据格式四个编程任务（编程语言不限，Linux上运行） 1. 构建词典（3分）给一个人工分好词的文件data.conll，构建一个词典，输出到一个文件中，起名为word.dict（格式自定义） 2. 构建毛文本（2分）将data.conll文件中的格式修改为：每行一句话，词语之间无空格，起名为data.txt 四个编程任务（编程语言不限，Linux上运行） 3. 前向（5分）或（二者