- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
余弦定理和新闻的分类
数学之美系列十二发表者:吴军,Google研究员
介绍新闻的分类无非是要把相似的新闻放到一类中;计算机其实读不懂新闻,它只能快速计算;这就要求我们设计一个算法来算出任意两篇新闻的相似性;为了做到这一点,我们需要想方法用一组数字或一个向量来描述一篇新闻。
如何确定网页和查询的相关性例子:查找关于“原子能的应用”的网页现在任何一个有哪些信誉好的足球投注网站引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。
如何确定网页和查询的相关性短语“原子能的应用”可以分成三个关键词:“原子能”、“的”、“应用”。根据直觉,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个方法有一个明显的漏洞。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”〔TermFrequency,TF)
如何确定网页和查询的相关性相关性的一个简单的度量:如果一个查询包含关键词w1,w2,...,wn,它们在一篇特定网页中的词频分别是:TF1,TF2,...,TFn。〔TF:termfrequency)。那么,这个查询和该网页的相关性就是:TF1+TF2+...+TFn。
TF/IDF介绍在信息检索中,使用最多的权重是“逆文本频率指数”〔Inversedocumentfrequency缩写为IDF〕,它的公式为log〔D/Dw〕其中D是全部网页数。比方,我们假定中文网页数是D=10亿,词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿〕=log(1)=0。假设专用词“原子能”在两百万个网页中出现,即Dw=200万,那么它的权重IDF=log(500)=6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF=log(2),那么只有0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用IDF,上述相关性计算公式就由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。
新闻的分类怎样找一组数字,或者说一个向量来描述一篇新闻?对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值〔TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF值较大。
新闻的分类比方,词汇表有六万四千个词,分别为单词编号汉字词1阿2 啊3 阿斗4 阿姨...789 服装....64000 做作
新闻的分类在一篇新闻中,这64,000个词的TF/IDF值分别为单词编号TF/IDF值 1 0 2 0.0034 3 0 4 0.00052... 789 0.034... 64000 0.075
新闻的分类如果单词表中的某个词在新闻中没有出现,对应的值为零;那么这64,000个数,组成一个64,000维的向量我们就用这个向量来代表这篇新闻,并成为新闻的特征向量;如果两篇新闻的特征向量相近,那么对应的新闻内容相似,它们应当归在一类,反之亦然。
新闻的分类向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。
新闻的分类三角形的余弦定理公式:将三角形的两边b和c看成是两个向量,那么上述公式等价于其中分母表示两个向量b和c的长度,分子表示两个向量的内积
举一个具体的例子,假设新闻X和新闻Y对应向量分别是x1,x2,...,x64000和y1,y2,...,y64000,那么它们夹角的余弦等于:新闻的分类
当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复〔用这个方法可以删除重复的网页〕;当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。新闻的分类XX
您可能关注的文档
最近下载
- 语文-河南省名校大联考2024-2025学年高二下学期开学测试试题和答案.docx VIP
- 国家航空护林处各科室职责(136页).pdf VIP
- 第2课时 求一个数的几倍是多少 课件2025青岛版数学三年级上册.ppt
- 中药熏蒸技术操作考核评分标准.docx VIP
- 公共政策的制定 .ppt VIP
- 小学数学新苏教版三年级上册曹冲称象的故事第4课时 大家都来称一称教案(2025秋新版).docx
- 小布头奇遇记阅读交流教案.doc VIP
- 2022年秋季部编版六年级上册语文期中综合测试试卷及答案.doc VIP
- 2025年考研日语测试题及答案.doc VIP
- (英语四级4500词汇魔鬼背诵.doc VIP
文档评论(0)