IKAnalyzer中文分词器使用与扩展指南.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1.IK分析仪2012介绍

IKAnalyzer是一个基于开源java语言开发的轻量级的中文分词工具包。从2006年

12月推出1.0版开始,IKAnalyzer已经推出了4个项目大版本。最初,它以开源

Luence为应用主体的,结合有哪些信誉好的足球投注网站分词和文法分析算法的中文分词组件。从3.0版本开始,

IK发展为面向Java的分词组件,独立于Lucene项目,同时了对Lucene的默认优化

实现。在2012版本中,IK实现了简单的分词歧义修复算法,还有IK分词器从简单的分词

向模拟图像分词衍生化。

1.1IKAnalyzer2012结构设计

1.IKAnalyzer2012介绍

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006

年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目

Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,

IK发展为面向Java的公用分词组件,独立于Lucene项目,同时了对Lucene的默认

优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯

的词典分词向模拟语义分词衍化。

1.1IKAnalyzer2012结构设计

1.2IK分析仪2012特性

⚫采用了特有的“正向迭代最细粒度切分算法”,支持细粒度和智能分词两种切分模式;

⚫在系统环境:Core2i73.4G双核,4G内存,window764位,SunJDK1。6_2964位

普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

⚫2012版本的智能分词模式支持简单的分词排歧义处理和数量词输出合并。

⚫采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩

文、日文字符

⚫优化的有哪些信誉好的足球投注网站,更小的内存占用。支持用户有哪些信誉好的足球投注网站扩展定义。特别的,在2012版本,

有哪些信誉好的足球投注网站支持中文、英文、数字混合词汇。

1.3分词效果示例

IKAnalyzer2012版本支持细粒度切分和智能切分,以下是两种切分方式的演示样例。

文本翻译1:

IKAnalyzer是一个开源的、基于java语言开发的轻量级的中文分词工具包。从2006年12

月推出1.0版本开始,IKAnalyzer已经推出了3个大版本。

⚫智能分词结果:

ikanalyzer|是|一个|开源|的|基于|java|语言|开发|的|轻量级|的|中文|分

词|工具包|来自|2006年|12月||1.0版本|开始|ikanalyzer|已经|推|成长了|3

个|大|版本

⚫最细粒度分词结果:

ikanalyzer|是|一个|一|个|开源|的|基于|java|语言|开发|的|轻量级

1.2IKAnalyzer2012特性

⚫采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

⚫在系统环境:Core2i73.4G双核,4G内存,window764位,SunJDK1.6_2964

位普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

⚫2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

⚫采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、

日文字符

⚫优化的词典,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,

词典支持中文,英文,数字混合。

1.3分词效果示例

IKAnalyzer2012版本支持细粒度切分和智能切分,以下是两种切分方式的演示样例。

文本原文1:

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12

月推出1.0版开始,IKAnalyzer已经推出了3个大版本。

⚫智能分词结果:

ikanalyzer|是|一个|开源|的|基于|java|语言|开发|的|

文档评论(0)

136****1820 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档