多元线性回归分析multivariatelinearregression大数据.pptxVIP

多元线性回归分析multivariatelinearregression大数据.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
數據挖掘課程王海深圳國泰安教育技術股份有限公司一、自我介紹工作經歷2016.2—至今深圳國泰安教育技術股份有限公司大數據產品總監About Me2014.7—2016.1南方科技大學助理研究員學習經歷2011.7—2014.6復旦大學計算機應用技術專業2007.9—2011.6西北工業大學數學與應用數學專業二、什麼是數據挖掘?礦山(數據)挖掘(算法)金子(知識)從大量數據中尋找其規律的技術,是統計學、數據庫技術和人工智慧技術的綜合。三、數據挖掘技術技術分類預言(Predication):用歷史預測未來描述(Description):瞭解數據中潛在的規律數據挖掘技術關聯分析序列模式分類(預言)聚集異常檢測……目錄1234回歸分析分類聚類降維5678推薦過濾排序優化相關分析第一章 回歸分析 王海一個變量的變化直接與另一組變量的變化有關: 人的體重與身高、胸圍血壓值與年齡、性別、勞動強度、飲食習慣、吸煙狀況、家族史糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂射頻治療儀定向治療腦腫瘤過程中,腦皮質的毀損半徑與輻射的溫度、照射的時間如:回歸分析概念:回歸分析研究一組自變量如何直接影響一個因變量。自變量(Independent variable)是指獨立自由變化的變量,用向量x表示;因變量(Dependent variable)是指非獨立的、受其他變量影響的變量,用向量y表示。x1x2yεx3分類{y回歸分析{{按圖形按引數的個數直線回歸曲線回歸一元回歸二元回歸多元回歸0x假定因變量y與自變量 間存在如下關係:式中, 是常數項, 稱為偏回歸係數(Partial Regression Coefficient)。 的含義為在其他引數保持不變的條件下,自變量 改變一個單位時因變量y 的平均改變量。 為隨機誤差,又稱殘差(Residual),它表示y的變化中不能由自變量 解釋的部分。一、多元線性回歸方程模型yx1x2應用條件:線性回歸模型應滿足以下條件 y與x1, x2, …, xm之間具有線性關係;各觀測值yi (i=1,2,…,n)之間相互獨立;殘差ε服從均值為0、方差為σ2的正態分佈,它等價於對於任意一組自變量x1, x2, …, xm,因變量y均服從正態分佈。注意:雖然模型要求因變量是連續數值變數,但對引數的類型不限。若自變量是分類變量,特別是無序分類變量,要轉化為亞變量才能分析。對於自變量是分類變量的情形,需要用廣義線性回歸模型分析。二、多元線性回歸分析的步驟(一)估計各項參數,建立多元線性回歸方程模型(二)對整個模型進行假設檢驗,模型有意義的前提下,再分別對各偏回歸係數進行假設檢驗。(三)計算相應指標,對模型的擬合效果進行評價。yxo(一)模型的參數估計總體回歸參數b0,b1,……,bm均是未知的,必須利用樣本數據去估計。估計標準:使因變量的觀察值與估計值之間的離差平方和達到最小(一)模型的參數估計求回歸係數b1,b2,……,bm的方法是求解正規方程組常數項:方程中參數的估計可用最小二乘法求得也就是求出能使估計值和實際觀察值的誤差平方和為最小值的一組回歸係數值。序號x1x2x3x4y15.681.94.591.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.62.324.057.513.466.050.641.4213.618.374.98.512.68.511.187.0836.7511.512.193.852.1116.287.99.6104.650.636.597.18.4114.591.973.618.79.3124.291.976.617.810.6137.971.937.579.98.426.99.6156.132.0610.3510.510.9165.711.788.53810.1310.314.8186.063.6712.797.19.1195.091.032.538.910.8206.131.715.289.910.2215.783.362.96813.6225.431.134.3111.314.9712.316247.987.923.379.813.22511.5410.891.210.520265.840.928.616.413.3273.841.26.459.610.4例:27名糖尿病患者的血清總膽固醇(x1)、甘油三酯(x2)、空腹胰島素(x3)、糖化血紅蛋白(x4)、空腹血糖(y)的測量值列於表中,試建立血糖與其它幾項指標關係的多元線性回歸方程。 各變量的離差矩陣lij =x1x2x3x4yx166.010367.3608-53.952331.3687

文档评论(0)

sheppha + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5134022301000003

1亿VIP精品文档

相关文档