十八章资料探勘技术.pptVIP

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
十八章资料探勘技术

第十八章 資料探勘技術 本章大綱 第一節 導論 第二節 資料探勘的動機及程序 第三節 資料探勘的分類技術 第四節 資料探勘的相關分析技術 第五節 時間相關的資料探勘技術 第六節 資料探勘的應用 第七節 結論 學習目標 資料探勘的基本概念 資料探勘的程序 資料探勘的常用技術,包括分類、關聯分析等 資料探勘技術在建立企業智慧及決策支援系統的應用 資料探勘的基本概念 建立企業智慧最主要的方法之一。 資料探勘是從資料中發掘知識的過程,亦有人稱為 資料庫的知識挖掘(Knowledge Discovery in Databases, KDD) 資料考古學(Data Archaeology) 資料型態分析(Data Pattern Analysis) 資料探勘的定義 從大量資料中,尋找事前未知(previously unknown)、有效(valid)且可以付諸行動(actionable)之規則或知識。 資料探勘的基本概念(續) 資料探勘的常用技術,依其性質分為三類 分類技術 相關分析 時間順序分析 圖18-1 資料探勘技術分類 資料探勘的動機 瞭解過去經營資料中有用的可能關係 找出有助於未來經營決策的知識 分析特定顧客的行為或市場的變化 對影響經營的因素有深入的瞭解 資料探勘的程序 決定企業探勘資料的目的 資料收集與整合 選擇適當的資料探勘技術 結果分析 知識應用 圖18-2 配合企業問題與資料探勘技術的可能應用 資料探勘的分類技術 歸納分類 (Classification) 集群分析(Clustering Analysis) 歸納分類 若一組資料共有N 類,分別為C1…CN,而且一個案例在Ci類的機率為P(Ci),則計算該組資料的公式為 歸納分類(續) H (C | Competition=Low) = - p (Up | Competition=Low) ×log2(Up | Competition=Low)   - p (Down | Competition=Low) × log2(Down |Competition=Low)   =   = 0.918 H (C | Competition=High) = - p (Up | Competition=High) ×log2(Up | Competition=High) - p (Down | Competition=High) ×log2(Down |Competition=High) = = 0.811 歸納分類(續1) 因為應用Competition加以分類後,會分成Sales=Up及Sales=Down兩類。因此其分類的總值為 H (C | A)= 即以上例而言 H (C | Competition)= =0.8752 表18-1 產品銷售分析 圖18-3 ID3產生的決策樹 集群分析 K平均演算法 步驟1:隨機初始k個中心點m1, m2, ..., mk。 步驟2:將物件集合中的每個物件按照與k個中心點的不相似性,將其歸屬於最相似中心點的集群中。 步驟3:針對每一個mi所代表的集群,計算這個集群所有物件之各屬性的平均值,並以此向量取代mi。 步驟4:若所有中心點在步驟3中沒有更動,則此時已完成集群分析並停止執行,否則跳至步驟2繼續執行。 表18-2 業務員年齡與業績統計 圖18-4 業務員年齡與業績散佈圖 表18-3 三個集群的成員 資料探勘的相關分析技術 關聯分析(Association Rule Analysis) 交易資料庫中每筆交易包含一些交易項目,關聯分析的目的是由這些交易資料中,找出交易項目的相關聯法則(association rule)。 鏈結分析(Link Analysis) 針對具有鏈結性的資料(如電話通信紀錄),將資料以節點(Node,如電話號碼)及鏈結(Link,如通話)來表達,並根據鏈結圖形找尋出具有某種特性之資料,或圖形中隱含的關係。 關聯法則 以X?Y表示,其中X與Y分別為交易項目的集合,且X?Y??。關聯法則X?Y必須滿足下列兩個條件 X和Y的所有交易項目的集合必須同時出現在至少s%的交易中(其中s%稱之為最小支持率或minimum support)。 在所有包含X交易項目的交易中,至少有c%包含Y的交易項目(其中c%稱之為最小信賴度或minimum confidence)。 鏈結分析 理論來自於「圖形理論」(Graph

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档