樣本相關係數大並不必然表示兩變數之間存有因果關係.pptVIP

樣本相關係數大並不必然表示兩變數之間存有因果關係.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
樣本相關係數大並不必然表示兩變數之間存有因果關係.ppt

第5章 雙變數的研究 第 5 章 雙變數的研究 本章綱要 5.1 緒言 研究變數間關係時,可以利用建構模式來預測和進行其他統計推論,這種統計方法稱為迴歸分析(regression analysis)或稱曲線適配(curve fitting)。 5.2 點繪資料 5.3 圖形的重要性 5.4 雙變數間的關聯 當探討兩變數x與y之間關聯性的課題時,可分為如下三種狀況分別討論: x與y均為類別變數,宜用雙向表(two-way table)或稱列聯表(contingency table)表示。 x為類別變數與y為數量變數,宜用盒形圖並排比較。 x與y均為數量變數,這時應先將兩變數之間的函數關係(functional relation)與統計關係(statistical relation)區分清楚,有些書稱前者為確定模式(deterministic model),後者為機遇模式(stochastic model)。這表示當已知x值後,可精確地預測出y值,沒有誤差存在,函數關係多用來描述物理定律。 例5.1 假設已知由某校隨機抽取12個人量測所得身高和體重的數值如表5.4所示,其中身高x以公分為單位,體重y以公斤為單位。 在工業界,十分重視變數間的相關性,理由至少有二: 變數間關係的知識對於管制製成品的品質十分有用。 變數間的關係對測試十分有用。 5.5 線性相關係數 散布圖可顯示兩數量變數資料組中x與y的關係,在很多情況下,點出現於一直線的附近,但是由於變異的影響,可能並非絕對是一直線,這種與直線相近的程度可用一數值表示,稱為相關係數(correlation coefficient)。 樣本相關係數,以r表示,顯示x與y之間相關的強度,是一個界於+1和-1之間的量數(表5.5)。 例5.2 某經理隨機查驗該部門職員40天的填表資料,發現如下結果: (a)錯誤率與一日的時間之相關性如圖5.5(a)   所示,呈正弱相關性。 (b)填表資料可能為數值或英文字元,圖   5.5(b)顯示英文字元所佔百分比高時,錯   誤率較低,兩者間呈強負相關性。 (c)圖5.5(c)顯示錯誤率與背景噪音之間沒有   相關性。 圖5.5 用以發現職員填表錯誤潛在原因的散布圖 圖5.5 用以發現職員填表錯誤潛在原因的散布圖 圖5.5 用以發現職員填表錯誤潛在原因的散布圖 例5.3 試求表5.6中車重x (1,000磅)與用油里程數y (加侖/100哩)的相關係數。 例5.3 例5.3 例5.3 例5.4 已知n=5組數據(xi, yi)如下: (a)試繪出散布圖。 (b)試求出相關係數r。 線性相關係數的意義 正的r值顯示變數之間有正相關,負的r值顯示負相關。散布圖如果顯示很強的正相關,則當中的x, y不是同時為正,就是同時為負。因此乘積全是正的,使得r值為正。 相關係數r的值永遠在+1和-1之間。靠近0的r值,代表很弱的直線關聯。當r由0向-1或+1接近時,關聯的強度漸次增加。假若r值接近-1或+1,表示點的分配很接近一直線。最小和最大的值,r=-1及r=1,只有散布圖中的點全部落在一條直線上時才會發生。 線性相關係數應注意的事項: 相關係數本身並沒有度量單位,只是-1和+1之間的一個數。 相關係數與預測變數(自變數)和回應變數(依變數)之間的差別無關。 相關係數度量的只是兩變數間線性關聯(linear association)的強度,無論兩變數間的曲線關聯有多強,都無法以線性相關係數表示。 和平均數以及標準差一樣,相關係數也會受到少數離群觀測值的嚴重影響。 在群體中也存有一個參數代表群體中變數X與Y的相關,稱為群體相關係數,以 ? (rho)表示。 ?(x, y)的數值通常用於樣本相關係數r的估計。 5.6 相關與因果 樣本相關係數大並不必然表示兩變數之間存有因果關係。因為兩變數間的樣本相關係數大可能是受到第三個變數,稱為隱藏變數(lurking variable)的影響,這時該兩變數稱為假相關(spurious correlation)。 5.7 辛普森詭論 例5.5 某大學開設會計學與生物學供學生選修,在此,所感興趣的是依性別來比較申請錄取率的問題。假定可取得表5.10的資料。 依據上述資料,是否顯示出該校有嚴重性別偏見? 例5.5 【解】 由上表資料得知,男生錄取率為819/1,000=0.819,遠大於女生的錄取率181/1,000=0.181,這是否隱含著某種型態的歧視?其實未必;如果進一步地檢視開課申請資料,我們可依課程別將上述表格加以分類,如表5.11所示。 例5.5 事實上,如果依課程別分別列表,在會計學中,申請人以男性居多,這時其錄取率高達814/950=0.86,這一比率與女性錄取率(86/100=0.86)

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档