关于在有哪些信誉好的足球投注网站引擎分词查找中的分词问题和词性处理问题.docVIP

关于在有哪些信誉好的足球投注网站引擎分词查找中的分词问题和词性处理问题.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于在有哪些信誉好的足球投注网站引擎分词查找中的分词问题和词性处理问题

在有哪些信誉好的足球投注网站引擎的开发过程中,很多人会想到也一定会遇到诸 如这样的问题:输入cars,能查处cars,car等,也就是相关 的单词,不管是时态还是什么,相关的都能查询到的问题。我 刚开始的时候也不知道怎么处理,用了一些笨方法,但不能完 全的解决问题,但后来也经过看资料,以及同事的提示,成功 的解决了问题,下面我把个人心得与大家分享,希望大家能给 出宝贵的意见,一起讨论。 处理此问题呢,可以有下面三种方法,也有些网上也很多 人讨论,我将给出,且给出自己的观点。 第一种方法:Stemming(当然也有人提到说lemmatization 方法,由于这是在linux下用C++开发,我没用过,不知道,所 以不妄下断言)方法: Stemming方法呢,是通过规则缩减为词根的 来实现的,当然,具体的问题,去看一下也就知道,其实是有 问题的,比如used,通过这种方法得到的是us,当然,这也不 是说是错误的,这也是正确的,只是不符合我们所要达到的要 求。如果想尝试的,可以去看一下这个先生(小姐)的博客, 因为我没用这种方法,所以也就不贴出自己的代码。具体参考 转载自: /category/95698? show_full=true 详细介绍如下: (1) 有关stemming 作为stemming,一个著名的算法是The Porter Stemming Algorithm,其主页为 /~martin/PorterStemmer/,也可查看其 论文/~martin/PorterStemmer/def.txt 。 通过以下网页可以进行简单的测试:Porters Stemming Algorithm Online [/mobasher/classes/csc575/p orter.html] cars – car driving – drive tokenization – token 然而 drove – drove 可见stemming是通过规则缩减为词根的,而不能识别词型的变 化。 在必威体育精装版的Lucene 3.0中,已经有了PorterStemFilter这个类来 实现上述算法,只可惜没有Analyzer向匹配,不过不要紧,我 们可以简单实现: public class PorterStemAnalyzer extends Analyzer { @Override public TokenStream tokenStream(String fieldName, Reader reader) { return new PorterStemFilter(new LowerCaseTokenizer(reader)); } } 把此分词器用在你的程序中,就能够识别单复数和规则的词型 变化了。 public void createIndex() throws IOException { Directory d = new SimpleFSDirectory(new File (d:/falconTest/lucene3/norms)); IndexWriter writer = new IndexWriter(d, new PorterStemAnalyzer(), true, IndexWriter.MaxFieldLength.UNLIMITED); Field field = new Field(desc, , Field.Store.YES, Field.Index.ANALYZED); Document doc = new Document(); field.setValue(Hello students was driving cars professionally); doc.add(field); writer.addDocument(doc); writer.optimize(); writer.close(); } public void search() throws IOException { Directory d = new SimpleFSDirectory(new File (d:/falconTest/lucene3/norms)); IndexReader reader = IndexReader.open(d); IndexSearcher searcher = new IndexSearcher(reader); TopDocs docs = searcher.search(new TermQuery(new Term(desc

文档评论(0)

asd522513656 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档