1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自动要约

東京大学 情報基盤センター (総合文化研究科、情報学府 兼担) 中川裕志 nakagawa@r.dl.itc.u-tokyo.ac.jp http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/ 自動文書要約 一見、難しそうな処理だが、大変古くから研究されてきた。 1953年には既にIBMのLuhnによって、単語の重要度を定義し、重要な単語を多く含む文を文書から抽出するという方法で、かなり質のよい要約文が作られていた。 Luhnは、 中程度の頻度の単語が現れること 文書の先頭に近いほうが望ましい という2点を考慮してスコアの高い文を抽出した。 現在でも基本的には踏襲。 自動要約の応用分野 ある分野のサーベイの自動生成 cf. e-science 会議議事録の自動生成 携帯端末への要約テキスト表示 音声表示(要約しないと読み上げでは長い時間がかかる) 高齢者や児童への手短かつ分かり易い表現(言い換えも含む) 字幕の自動生成 ニュースやドラマなどのビデオコンテンツの要約(skimming) 要約例 新幹線の車両ドアの上の液晶ディスプレイでのニュース表示 インターネットに配信されているメールマガジンの見出し iモードのニュースは通常のニュースの要約 などなど 次のものは作り物の例 要約の機能 Indicative その文書を読むべきかどうかの判断材料を与える Informative 要約を読むだけで、おおよその内容が分かる Evaluative 要約者の評価も加わった要約(重要なポイントの強調など) 人間の要約専門家はどうやっているか 表層情報としては以下を利用: タイトル、見出し、キーフレーズ、位置情報 深層情報としては以下を利用: 談話構造、修辞構造、意味内容(目的、方法、結果、結論)、その分野の知識 上記により重要文を抽出し、編集、再構成 トピックの文を抜き出し、前後の辻褄合わせ トピック文をさらに変換 理解した意味から自分で作文することは少ない(とても大変で時間がかかる) 要約のパラメタ 圧縮率( compression rate: C) C=length(要約テキスト)/length(原テキスト) Semantic Informativeness: SI テキストT の内容を命題Mi (i=1,2,..)の重みつき集合とする。 S: 要約テキスト、T:原テキスト M(S):要約テキストの命題集合、M(T):原テキストの命題集合。当然、 自動要約システムの構成(shallow) 文を選択するためのfeature 以下の feature は数値的な重みで表わされる 位置 先頭からの文字数or単語数、段落、section、タイトルなど特殊なsection, section の深さ テーマ単語(重み) 文章を特徴つける単語、複合語など tf×idf などで重みの大きいターム,など 特徴的言い回し 「まとめると」、in summary 「重要な」「特に」、important, in particular 文を選択するためのfeature 付加ターム(重み) タイトル、headline、先頭段落に現れる単語 利用者のプロファイルや質問文に現れる単語 文の長さ(適当な長さあり。長すぎるのはカット) 結束性(cohesion) 同一表現あるいは synonymy, hypernymy, 反復 参照、省略、照応、接続 談話構造 修辞構造、話題構造 文書の形式 Feature の線形結合による文の重み付け  文をuとする uにおける重みW(u)を計算 テーマ単語や、付加タームは、uに現れた、相当する個々の単語、タームの重みの総和 特徴的言い回しも複数あれば総和 W(u)=a×位置(u)+b×特徴的言い回し(u) +c×テーマ単語(u)+d×付加ターム(u)       +e×文の長さ(u) W(u)の大きい文から順番に要約文として選択 Feature の線形結合による文の重み付け  Kupiec(1995)の実験 科学技術分野論文188の全文と要約(平均3文)のペア 要約に含まれるべき文を計算された重みの順に選択 要約文が全文のどの文にマッチするかを知らなければならない。 これによれば、位置が最も強力な feature で単独で33%の再現率 位置+特徴的言い回し+長すぎる文のカット   が最高性能 44%の再現率 Feature へ掛ける重みの学習 W(u)の定義式のa,b,c,d,e などの重みを最適化する方法 機械学習による 例えば、人手でつけた正解の要約文の集合を使う。 正解の要約文をうまく抽出できるような重みを統計的な機械学習で求める ベイス統計、C4.

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档