- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章数据挖掘概念与DMX
3.6.2 创建挖掘模型 2、复杂的嵌套场景 根据年龄、性别以及所购的其他商品来预测可能 购买了哪些商品 根据性别和年龄来预测所购商品的数量 案例中不能预测所购物品的数量,所以 必须创建无值属性作为输出 因为用法标记之间没有差别,所以案例中 不创建无值属性 3.6.2 创建挖掘模型 3、过滤器 正如模型可以使用结构中列的子集一样,模型也可以通过在添加模型时定义 过滤器而使用数据的子集。事例可以使用任意过滤器字句来过滤,此子句 可以包含事例级和嵌套级列,也可以过滤嵌套表的内容。 3.6.3 填充挖掘结构 创建数据源 填充数据 3.6.3 填充挖掘结构 DMX使用SHAPE语法的子集来创建分层行集 1、填充嵌套表 3.6.3 填充挖掘结构 1、填充嵌套表 SHAPE在SQL Server数据挖掘中的实现方案要求,所有行集都按照 与它们相关联的列来排序。这是为了确保性能和可伸缩性, 使用了SHAPE的后果之一是输入集中的每个嵌套表都包含表示事例 表外键的一个列。但是,此列在挖掘结构中不存在。 为适应SHAPE的这一要求,引入关键字SKIP,它指出存在于源数据 中而又不用来填充结构的那些列。 3.6.3 填充挖掘结构 2、查询结构中的数据 3.6.3 填充挖掘结构 3、查询模型数据 // (b) Populate the new model INSERT INTO ClusterDrillthrough GO // (c) Get possible genders SELECT DISTINCT Gender FROM ClusterDrillthrough GO // (d) Get range of Ages SELECT DISTINCT RangeMin(Age), Age, RangeMax(Age) FROM ClusterDrillthrough GO // (e) Get the patterns found in the model SELECT * FROM ClusterDrillthrough.CONTENT GO // (f) Get cases in cluster 1 SELECT * FROM ClusterDrillthrough.CASES WHERE IsInNode(001) 3.7 预测 3.7.1、预测连接 INSERT INTO [People2] (CustID, [Name], Gender, Age, AgeDisc, CarMake, CarModel) OPENQUERY(Chapter3Data, ‘SELECT [Key],[Name],Gender, Age,Age,CarMake,CarModel FROM People‘) 3.7 预测 3.7.2 预测查询语法 次语句将模型PredictGender-Bayes应用到指定的查询返回的没一行,并 根据Age和CarModel输入,从中返回姓名和最可能的性别值。 3.7 预测 1、嵌套源数据 并不是模型描述的所有输入都需要从源数据提供 预测期间源查询中未提供得任何输入都认为是MISSING,如何对待缺失的数据 是由各个算法决定的 3.7 预测 2、实时预测 应用程序使用模型根据内存数据(例如用户输入)执行的动态预测 DMX针对实时预测使用一种特殊形式的预测查询,称为单例查询。 单例查询将源数据直接包含在查询文本中 3.7 预测 3、退化预测 即使没有源数据,仍然可以对模型进行预测。执行没有源数据的预测与 执行只有一行数据但所有输入或缺失的预测在语义上是等价的,但每种 算法可以自由地返回各自的结果。一般来说,算法将返回对所有人而 言最可能的值 3.7 预测 3.7.3 预测函数 DMX提供了支持预测场景的各种函数 基本函数Predict是多态的,其行为取决于提供的是标量(事例级)还是表 列引用。在很多情况下,如果只想预测事例 级列的值 ,则根本就不 需要使用Predict。选择可预测列的行为与预测该列是一样的。 也就是说,只要Gender是一个可预测列,则Select Gender与 Select Predict(Gender)是等价的 PredictHistogram是最全面的事例级列预测函数。该函数返回一个表 次表包含标量列预测可用的所有信息。 3.7 预测 3.7.3 预测函数 SELECT Histogram AS Label, PredictHistogram(CarModel) AS Hist FROM FilterByAge 3.7 预测 3.7.4 嵌套表上的预测 根据过去购买的物品、购物篮中的物品或者仅仅根据客户的个人特性 来提供推介物品。 推介预测用PredictAssociation
文档评论(0)