web数据挖掘__12复习选编.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web数据挖掘__12复习选编

第一章 概述;网络数据的特征;3. 异构的信息;4. 绝大部分信息是相连接的;5. 噪音的存在;6. 提供服务;7. 动态性;8. 虚拟社会;Web挖掘的基础 – 数据挖掘;数据挖掘功能;Web挖掘的分类;Web结构挖掘;Web内容挖掘;Web使用挖掘;;Road map;什么是关联挖掘?;关联规则:基本概念;规则的支持度;规则的可信度;阈值;频繁项集;关联规则;规则度量:支持度与可信度;兴趣度;分析;Step 1: Mining all frequent itemsets;Apriori基本方法;Apriori性质;Example – Finding frequent itemsets;Step 2: Generating rules from frequent itemsets;;Road Map;Supervised vs. unsupervised Learning;Supervised learning process: two steps;Introduction;Algorithm for decision tree learning;信息论在决策树中的应用-属性选择;决策树的学习过程;决策树的学习过程;举例;属性 Outlook Temperature Humidity Windy 类;属性 Outlook Temperature Humidity Windy 类;在决策树方法中,所要做的工作就是构造决策树将数据进行分类。因初始时属于P类和N类的实例个数均为12,故初始熵值为:;(2) 若选择Temp作为测试属性,其条件熵为:;(4) 若选择Windy作为测试属性,其条件熵为:;Humidity;结论;避免过学习、过度拟合;导致过度拟合的原因;Avoid overfitting in classification;分类的评价准则;An example;分类的评价准则;;Na?ve Bayes Classifier;Na?ve Bayes Classifier;Conditional independence assumption ;An example;An Example (cont …);On na?ve Bayesian classifier;Introduction;The hyperplane;Maximal margin hyperplane;Linear SVM: separable case;SVM—Linearly Inseparable;Kernel functions;SVM方法的特点;近邻分类方法;最近邻法;Example: k=6 (6NN);kNNAlgorithm;K-effect;Parameter selection;;Road map;主要聚类方法的分类;K-means algorithm;The K-Means Algorithm - Example [1];The K-Means Algorithm - Example [2];The K-Means Algorithm - Example [3];The K-Means Algorithm - Example [4];Strengths of k-means ;Weaknesses of k-means;层次聚类;更多关于层次聚类方法;Chapter 5: 数据的预处理;为什么要预处理数据;空缺值;如何处理空缺值;噪声数据;如何处理噪声数据;Simple Discretization Methods: Binning;Simple Discretization Methods: Binning;数据平滑的分箱方法;平滑方法;聚类消除噪声;回归消除噪音;数据集成;数据变换;数据变换;数据归约;逐步向前选择;逐步向后删除;数据压缩;数值归约;An introduction;信息检索定义;信息检索系统;信息检索的应用;;Information retrieval models;布尔模型描述;优点;问题;向量空间模型;模型的描述;模型中的问题;词项的权重;TF-IDF term weighting scheme;余弦(Cosine)相似度度量;向量空间优点;不足;Statistical language model(简单语言模型);基于语言模型的IR模型的概念;模型描述;语言模型;概率模型的理论;概率模型小结;;Roadmap ;文本处理主要方法;Stemming;*;停用词处理 -- 文本词频分布;文本的特点;Stopwords removal;建立索引的目的;An example;一般的倒排索引;建立

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档