KNN算法应用归纳.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用场景 (1) 文本分类 : 文本分类主要应用于信息检索, 机器翻译, 自动文摘,信息过滤,邮件分类等 任务。文本分类在有哪些信誉好的足球投注网站引擎中也有着大量的使用,网页分类 / 分层技术是检索系统的一项关 键技术, 有哪些信誉好的足球投注网站引擎需要研究如何对网页进行分类、 分层, 对不同类别的网页采用差异化的存 储和处理, 以保证在有限的硬件资源下, 提供给用户一个高效的检索系统, 同时提供给用户 相关、丰富的检索结果。在有哪些信誉好的足球投注网站引擎中,文本分类主要有这些用途 : 相关性排序会根据不同 的网页类型做相应的排序规则 ; 根据网页是索引页面还是信息页面,下载调度时会做不同的 调度策略 ; 在做页面信息抽取时, 会根据页面分类的结果做不同的抽取策略 ; 在做检索意图识 别的时候,会根据用户所点击的 url 所属的类别来推断检索串的类别。 (2) 回归 : 通过找出一个样本的 k 个最近邻居, 将这些邻居的属性的平均值赋给该样本, 就可 以得到该样本的属性。 更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权 值(weight) ,如权值与距离成正比。 (3) 可以使用 knn 算法做到比较通用的现有用户产品推荐, 基于用户的最近邻 ( 长得最像的用 户) 买了什么产品来推荐是种介于电子商务网站和 sns 网站之间的精确营销。 只需要定期 ( 例 如每月 ) 维护更新最近邻表就可以,基于最近邻表做有哪些信誉好的足球投注网站推荐可以很实时。 文本分类 1.KNN 算法最初由 Cover 和 Hart 于 1968 年提出,该算法的基本思想是:根据传统 的向量空间模型,文本内容被形式化为特征空间中的加权特征向量,即 D = D (T1 , W1;T2,W2; , ;Tn,Wn) 。对于一个测试文本,计算它与训练样本集中每个文本的相似度,找 出 K 个最相似的文本,根据加权距离和判断测试文本所属的类别。 具体算法步骤如下 : (1) 对于一个测试文本,根据特征词形成测试文本向量。 (2) 计算该测试文本与训练集中每个文本的文本相似度, 计算公式为 : 式中 : x 为测试文本的特征向量; Sim(x,di) 为相似度计算公式; b 为阈值,有待于优化选择; 而 y(di,Cj) 的取值为 1 或 0,如果 di 属于 Cj ,则函数值为 1,否则为 0 。 (5) 比较类的权重,将文本分到权重最大的那个类别中。 2.传统 KNN 分类系统 传统的 KNN 分类过程如图 5-1 : 传统的 KNN 分类系统主要分为预处理、训练、分类三个阶段,如果要在不同时间进 行分类,则每次都需要对训练样本进行训练,这是造成了 KNN 分类时间较长的原因之一, 其实,在训练过程的一些数据,如特征集,训练好的样本等,对下一次分类同样有用。 3.改进后的分类系统 系统各模块的操作如下: 一、训练模块: 训练模块在同一流程实现了预处理和训练两种功能, 因为这两个模块的数据 处理具有继承性,所以安排到同一模块实现。 “选择词典”按键将所使用的停用词词典加载 到哈希表中;“选择维数”文本框可以更改文本向量的维数 (特征数 );“训练文本库”按钮 加载训练文本的文件夹,然后进行去停用词、分词、特征选择、特征权重计算、文本向量表 示等一系列操作。 二、分类模块: “训练”按钮选择要进行分类的测试文本文件夹,读取测试文本,然后依次 进行:分词、去停用词、特征选择、权重计算、向量表示、距离计算、 K 近邻选择、类别 评定等操作。

文档评论(0)

肖四妹学教育 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档