主成份分析法-华联生物科技.PDF

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成份分析法-华联生物科技

數據分析介紹(I)析介 主成份分析法 1 華聯於 2012 年 7月~ 9月的科技專題 中, TTMM PPCACA 分分析示範影片析示範影 片 ((使使用用 AArrayTrackr r ay T r a c k 軟軟體體 )) 介紹晶片實驗設計時,概略介紹了一些常用的數 據分析方法,有許多客戶及好學的讀者紛紛來信 ,希望我們另闢單元,仔細教學這些對他們很有 幫助的分析軟體;數據分析素來是華聯的強項之 一,我們很樂意也很興奮地開闢這個新單元 -數據 分析教學,本期以主成份分析法 (Principal Com- ponent Analysis ,PCA)作為起頭,並搭配影片 教學,讓大家學習事半功倍。 在微陣列數據 (Microarray data) 分析中, 主成份分析法 (PCA) 是一種常用於簡化數據集 (Data set) 、觀察樣本或基因群之間相關性的技術 完整影片請按此放大觀看 。微陣列數據通常是上萬筆基因、數十個樣本所 組成的一個資料矩陣,利用主成份分析可以減少 數據的維數 (Dimension) ,同時保留數據對變異 數貢獻最大的特徵,藉以觀察樣本或基因群的主 要差異。主要原理是經由保留低階主成份 v ,並忽 略高階主成份。通常低階成份較能夠保留住數據 的最重要成份。但是由於主成份分析依賴所給予 的數據,所以數據的準確性 或者我們也可以說實( 驗的準確與否 )對分析結果影響很大。 主成份分析法由卡爾.皮爾遜2 於1901年創建 ,用於分析數據及建立數理模型。其方法主要是 圖圖一、樣本於平面座標一 、樣本於平面 座標 ((二二維度維度 )) 之之間的關係圖。間的關 係圖 。 通過對共變異數矩陣 (這邊可以想成微陣列數據矩 以以顏色來區分不同樣本,技術性重覆的樣本顏色 來區 分不同 樣本 ,技術 性重覆的 樣本 (同(同顏顏 陣 )進行特徵分解3 ,以得出數據的主成份即特徵( 色色 ))有有較高的相關性;而不同樣本間較高的 相關 性 ;而不同 樣本間 ((不不同顏色同 顏色 ))具具 向量 , Eigenvector) 與它們的權值或稱特徵值( , 有有特徵差異性。特徵 差異 性 。 1 2013.02 Eigenvalue) 。特徵向量的長度在該線性變換下 角度,標示紅色和綠色的樣本在空間座標中還是 縮放的比例我們稱之為其特徵值,前面提到,將 有段距離;代表其特徵值還是有差異性。 影響樣本變異數貢獻最大的特徵向量放於第一維 數據對應的特徵值如表一,我們可以觀察到這 度,第二貢獻度的放於第二維度,藉此可得到樣 邊將主成份 (Principal Components) 分成 本於平面座標之間的關係圖,如圖一。 PC1~PC7 共七等份,全部加成起來代表了所有樣 這邊我們用顏色來區分不同樣本,微陣列實驗 本的特徵資訊,以百分比 (%Var) 表示的話,總共 常以技術性重複來增加統計上的意義,圖中技術 100% ;用白話一點的方式來說,前三個主成份( 性重複以同一顏色來表示。一般來說,技術性重 維度就可以取得這些樣本約略)

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档