Topic-WordSelectionBasedonCombinatorialProbability.pptVIP

下载本文档

0
0
约2.91千字
约 27页
2017-01-17 发布于天津
举报
版权申诉

Topic-WordSelectionBasedonCombinatorialProbability.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Topic-WordSelectionBasedonCombinatorialProbability

Topic-Word Selection Based on Combinatorial Probability Toru Hisamitsu Yoshiki Niwa In Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS), pp. 289-296, 2001. この論文のポイント文書集合から部分文書集合を得たとき，その部分文書集合の中で「特徴的な」語に重みを付ける方法を探求する超幾何分布を応用した単語重み付け方法について考える TF*IDFやカイ二乗検定など，いくつかの重み付け方法を比較し，おのおのの傾向について考察する文書集合を特徴づける語を見出す情報検索，文書分類，文書クラスタリング，情報抽出において基本的なタスク例）重要でない単語を除いて文書の類似度を計算したほうが高精度 (Sebastiani, 1999) DualNaviの例問題設定全体文書集合から，語wを含む文書を検索して，部分文書集合Dwを得たとする語wで検索する場合に限らず，何らかの方法（例えばクラスタリングなど）で部分文書集合Dwを得たと考えても良いこの部分文書集合Dwに含まれる語vが，どのくらい特徴的に出現しているのか，測りたい従来手法 tf tf/TF tf*idf SMART Log likelihood ratio (LLR) Chi-square test (CS) Chi-square test with Yetes’ correction (CS2) tf: 総出現頻度部分文書集合Dw内の語vの総出現頻度 Dw内でたくさん出現する語vは， Dwを特徴づけるであろう用語抽出では良い性能を示す (Daile et al., 1994; Caraballo et al., 1999; Hisamitsu et al., 2001) tf/TF: 相対出現頻度全体文書集合に対する，部分文書集合Dw内の語vの相対出現頻度全体部分集合で１回しか出現せず，部分文書集合でも１回しか出現しないような語に，最大値１が与えられてしまう低頻度語を過大評価してしまう tf*idf: お馴染みの重み付け法部分文書集合Dw内の語vの総出現頻度に，語vが全体文書集合内でどのくらい珍しいのか考慮したもの計算が簡単であるが，いろいろなケースで，経験的によく効くと言われている問題点: tfが大きくなると，idfが効かなくなる (Hisamitsu et al., 2000) tf*idf2: tf*idfのtfの影響を少なくする OKAPI (Robertson et al., 2000) の簡略版高頻度のtfの影響は，かなり削減されている SMART: tf*idfの改良部分文書集合Dwに含まれるそれぞれの文書dに対し，単語vの頻度をその文書d内の語の出現頻度の平均で正規化して和をとる (Singhal et al., 1996) 平均をとるため計算コストは高め 2×2分割表対数尤度比 (Log likelihood ratio) G検定とも呼ばれるカイ二乗検定観測された値Oが，その期待値Eからどのくらい離れているかを示す得られたカイ二乗値に対して，「語vの出現頻度はDwに依存しない」という帰無仮説が何%の確率で成立するのか，カイ二乗分布から求めることができる．カイ二乗検定（イェイツの修正）カイ二乗検定は，a 5, b 5, c 5, d 5のいずれかが成立するとき，以下の修正を行って，精度を改善する超幾何分布による方法 n (= a + b + c + d)枚のカードが箱の中にある箱の中のカードのうち，(a+c)枚のカードには「v」と書かれており，残りの(b+d)枚のカードには「v」以外の文字（何でも良い）が書かれているこのとき，(a+b)枚のカードを無作為に比復元抽出（取り出したカードは戻さない）したとき，「v」と書かれたカードがa枚になる確率はどのくらいだろうか？実際には，「単語wを含む文書に含まれていた」という条件でカードを選別して，(a+b)枚のカードを選んだ訳であるが… 問題の確率を求める超幾何分布の解釈「フィッシャーの直接確率検定」もしくは「フィッシャーの正確確率検定」と呼ばれるものと同じ値は確率なので，小さいほどvが特異に出現することを示すカイ二乗検定と異なり，観測変数の独立性さえ保障されていれば，どんな分布で発生する事象にも適用できる問題点: a枚のカードが特異に多かったのか，少なかったのか区別できない両方とも求まる確率pが　　非常