- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用场景 (1)文本分类:文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类在有哪些信誉好的足球投注网站引擎中也有着大量的使用,网页分类/分层技术是检索系统的一项关键技术,有哪些信誉好的足球投注网站引擎需要研究如何对网页进行分类、分层,对不同类别的网页采用差异化的存储和处理,以保证在有限的硬件资源下,提供给用户一个高效的检索系统,同时提供给用户相关、丰富的检索结果。在有哪些信誉好的足球投注网站引擎中,文本分类主要有这些用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取时,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的url所属的类别来推断检索串的类别。 (2)回归:通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成正比。 (3)可以使用knn算法做到比较通用的现有用户产品推荐,基于用户的最近邻(长得最像的用户)买了什么产品来推荐是种介于电子商务网站和sns网站之间的精确营销。只需要定期(例如每月)维护更新最近邻表就可以,基于最近邻表做有哪些信誉好的足球投注网站推荐可以很实时。 文本分类 1.KNN 算法最初由 Cover 和 Hart 于 1968 年提出,该算法的基本思想是:根据传统的向量空间模型,文本内容被形式化为特征空间中的加权特征向量,即 D = D (T1,W1;T2,W2;…;Tn,Wn)。对于一个测试文本,计算它与训练样本集中每个文本的相似度,找出 K 个最相似的文本,根据加权距离和判断测试文本所属的类别。 具体算法步骤如下: (1) 对于一个测试文本,根据特征词形成测试文本向量。 (2) 计算该测试文本与训练集中每个文本的文本相似度, 计算公式为: 式中: x 为测试文本的特征向量;Sim(x,di)为相似度计算公式;b 为阈值,有待于优化选择;而 y(di,Cj)的取值为 1 或 0,如果 di属于 Cj,则函数值为 1,否则为 0 。 (5)比较类的权重,将文本分到权重最大的那个类别中。 2.传统 KNN 分类系统 传统的 KNN 分类过程如图 5-1: 传统的 KNN 分类系统主要分为预处理、训练、分类三个阶段,如果要在不同时间进 行分类,则每次都需要对训练样本进行训练,这是造成了 KNN 分类时间较长的原因之一, 其实,在训练过程的一些数据,如特征集,训练好的样本等,对下一次分类同样有用。 3.改进后的分类系统 系统各模块的操作如下: 训练模块:训练模块在同一流程实现了预处理和训练两种功能,因为这两个模块的数据处理具有继承性,所以安排到同一模块实现。“选择词典”按键将所使用的停用词词典加载到哈希表中;“选择维数”文本框可以更改文本向量的维数(特征数);“训练文本库”按钮加载训练文本的文件夹,然后进行去停用词、分词、特征选择、特征权重计算、文本向量表示等一系列操作。 分类模块:“训练”按钮选择要进行分类的测试文本文件夹,读取测试文本,然后依次进行:分词、去停用词、特征选择、权重计算、向量表示、距离计算、K 近邻选择、类别评定等操作。K 文本框输入为 K 近邻数,n1为 PKNN 算法选择的小样本数。 三、评价模块:评价模块实现分类结果的统计与评测,所采用的评价指标是:宏召回率、宏准确率、F1 值,“重置分类”键可以将内存中的全局变量清空,为下一次分类作准备,这样不需要再训练就能直接从xml文件中读取所需数据再次存放在全局变量中。 邮件过滤 随着互联网的广泛普及,电子邮件已经成为人们日常生活中最便捷、最经济的通信手段。但是电子邮件给用户带来便捷的同时,也带来了不可避免的副产品——垃圾邮件。由于实现比较简单以及受到利益的驱使,一些企业和个人采用了这种最经济的方式进行商业广告,一些黑客也采用发送电子邮件进行违法行为:盗窃用户的机密资料,攻击用户的电脑等。电子邮件用户几乎每天都要收到几十、几百封垃圾邮件,每天都需要花费一定的精力与时间来判断是否为垃圾邮件,并进行清除。垃圾邮件不仅影响到了电子邮件用户,对网络运营提供商和网络管理员也带来了无尽的烦恼。这些所谓的垃圾邮件会占用用户的带宽、时间和存储资源,如果泛滥严重甚至会对网络通信造成堵塞,使得正常邮件不能正常发送和接收,垃圾邮件严重阻碍了互联网的健康发展。因此对垃圾邮件过滤技术的研究具有很大的实用价值,也是亟待解决的问题。 传统的 KNN 算法只考虑到相似度之和,或者简单的利用相似度个数的多少来进行判断;将 KNN 算法应用于垃圾邮件的过滤中,而没有考虑到垃圾邮件本身的偏依赖特性,即用户情愿多收到一封垃
文档评论(0)