- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学课件
Introduction to Information Retrieval
现代信息检索
中科院研究生院2011年秋季课程《现代信息检索》 更新时间:
Modern Information Retrieval
授课人:王斌
/~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
第18讲 隐性语义索引
Latent Semantic Indexing
2011/11/27
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
4
层次聚类
层次聚类的目标是生成类似于前面提到的Reuters目录的一个层次结构:
这个层次结构是自动创建的,可以通过自顶向下或自底向上的方法来实现。最著名的自底向上的方法是层次凝聚式聚类(hierarchical agglomerative clustering,HAC)。
5
单连接: 最大相似度(最短距离)
6
全连接: 最小相似度
7
质心法
8
组平均
9
四种HAC算法的比较
方 法
结合相似度
时间复杂度
是否最优?
注 释
单连接
簇间文档的最大相似度
Ɵ(N2)
yes
链化效应
全连接
簇间文档的最小相似度
Ɵ(N2 log N)
no
对离群点敏感
组平均
所有文档相似度的平均值
Ɵ(N2 log N)
no
大部分应用中的最佳选择
质心法
所有簇间相似度的平均值
Ɵ(N2 log N)
no
相似度颠倒
10
簇标签生成的例子
文档数目
簇标签生成方法
质心
互信息
标题
4
622
oil plant mexico production crude power
000 refinery gas bpd
plant oil production
barrels crude bpd mexico dolly capacity petroleum
MEXICO: Hurricane
Dolly heads for Mexico coast
9
1017
police security russian
people military peace killed told grozny court
police killed military
security peace told troops forces rebels people
RUSSIA: Russia’s
Lebed meets rebel
chief in Chechnya
10
1259
00 000 tonnes traders
futures wheat prices
cents september tonne
delivery traders futures
tonne tonnes desk wheat prices 000 00
USA: Export Business
- Grain/oilseeds complex
三种方法:选择质心向量中的突出词项,使用MI的差别式标签,使用离质心最近的文档的标题
三种方法的结果都不错
11
本讲内容
矩阵SVD分解
隐性语义索引LSI(Latent Semantic Indexing)
LSI在IR中的应用
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
13
回顾一下词项-文档矩阵
该矩阵是计算文档和查询相似度的基础,接下来我们要介绍,能否通过对该矩阵进行转换来获得文档和查询之间的一个更好的相似度计算方法?
Anthony and Cleopatra
Julius Caesar
The
Tempest
Hamlet
Othello
Macbeth
anthony
5.25
3.18
0.0
0.0
0.0
0.35
brutus
1.21
6.10
0.0
1.0
0.0
0.0
caesar
8.59
2.54
0.0
1.51
0.25
0.0
calpurnia
0.0
1.54
0.0
0.0
0.0
0.0
cleopatra
2.85
0.0
0.0
0.0
0.0
0.0
mercy
1.51
0.0
1.90
0.12
5.25
0.88
您可能关注的文档
- Governance for sustainable development environment and sustainable development 教学课件.ppt
- GPIO 嵌入式课件.ppt
- google_earth指南.pdf
- GPS原理与应用 教学大纲 (全套).doc
- GPS原理与应用 实验指导(全套).doc
- Google Earth 摄影测量基础 教学课件.ppt
- GPS出租车定位管理系1.doc
- GRE – Graduate Records Examination.pdf
- GQ001石膏板隔墙培训 装饰施工分项作业培训教材 教学课件.ppt
- Groovy DSLs 教学课件.ppt
- 沪科版七年级下册数学精品教学课件 第8章 整式乘法与因式分解 专题训练5 专项整合 乘法公式在最值问题中的运用.ppt
- 新生儿蓝光疗法.pptx
- 新生儿观察及常规护理.pptx
- 沪科版七年级下册数学精品教学课件 第8章 整式乘法与因式分解 8.4 因式分解-2. 公式法-第2课时 综合运用提公因式法与公式法分解因式.ppt
- 2025至2030年中国食品饮料用主剂行业市场深度分析及投资决策建议报告.docx
- 新生儿规范化管理.pptx
- 华师版七年级下册数学精品教学课件 第6章 一次方程组 6.1 二元一次方程组和它的解.ppt
- 新生儿败血症介绍.pptx
- 2025至2030年中国食品饮料行业市场供需规模及投资前景预测报告.docx
- 新生儿败血症护理要点.pptx
最近下载
- 电力电子Buck电路课程设计实验报告.docx VIP
- 2025年广东省东莞市中考物理模拟试卷.pdf VIP
- 2025年第二批陕西延长石油集团所属单位内部遴选及选聘81人笔试参考题库附带答案详解.docx
- 7.1《风景谈》 课件 (共34张PPT)2024-2025学年统编版高中语文选择性必修下册.pptx VIP
- 工程售后人员配备方案.docx VIP
- 《体重管理》课件.ppt VIP
- 党课PPT课件含讲稿:《关于加强党的作风建设论述摘编》辅导报告.pptx VIP
- 2025年广东省东莞市中考数学模拟试卷.pdf VIP
- 食堂从业人员晨检制度.docx VIP
- 学习关于加强党的作风建设论述摘编.pptx VIP
文档评论(0)