- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文新闻群组自动摘要 - Read
1. 緒論
研究動機
隨著資訊科技的快速發展,新聞也由傳統的報紙方式漸漸轉型為網際網路上的線上電子報型式,相關的新聞網站有中時電子報、明日報、華視新聞等等(附錄A)。各家新聞電子報網站為了使新聞讀者能在每天早上方便、快速的獲知當日必威体育精装版新聞,紛紛提供新聞讀者新聞快遞的服務。在每天提供的新聞快遞中,如果只有新聞標題往往無法使新聞讀者了解新聞文件的內容,因此各家新聞網站均會在焦點新聞加入新聞摘要,幫助新聞讀者快速的理解當天的焦點新聞內容。目前線上電子報有提供新聞摘要或新聞快遞服務的新聞網站有中時電子報、明日報等等。其中,中時電子報通常以新聞文件之第一段內容為新聞摘要,屬於摘錄的一種;而明日報的新聞摘要則是由新聞從業人員另外編寫,屬於指示性摘要的一種。
但是,由於新聞電子報的快速成長,目前台灣地區線上電子報的數量已經激增位數十個線上電子新聞網站。因此對於同一件新聞事件,往往會產生數則不同的新聞報導。為了使新聞讀者可以快速獲知一件新聞事件到底有多少不同的新聞網站或多少不同觀點的新聞報導,部分網站提供了新聞群組的服務,如太一信通新聞網站。
在太一信通新聞網站中,每天都有許多來自不同新聞網站之新聞所聚集而成的新聞群組,每個新聞群組中,少則一至二則新聞,多則數十則新聞不等,且每一則新聞都有各自的新聞標題與新聞內容。在如此龐大的資訊中,新聞讀者勢必無法只由新聞標題?獲得所需的資訊,所以,我們希望能提出一套多文件摘要的計算方法,給予每一個新聞群組簡短的摘要,使新聞讀者可以藉由這些簡短的摘要,大略瞭解新聞群組的內容及所要傳達的消息。
研究方法
蘇諼教授 [7] 在自動摘要法中提到,文件摘要可以分為四種類型:指示性摘要(Indicative Abstract),資料性摘要(Informative Abstract),評論性摘要(Critical Abstract〉,摘錄(Extract〉。指示性摘要是提示讀者此篇文章的存在,並提供足夠的資訊,使其能決定是否應該閱讀原始文件;而資料性摘要提供豐富的內容資訊,有時甚至用來代替原始文件;評論性摘要是以摘要的形式對原文作一評論;摘錄是直接由原文字句中選取提供事實資料的文句,段落等的節錄,可能是指示性或資料性的性質。
本篇論文是屬於指示性性質之摘錄,根據新聞文件中自動取詞所得到的專有名詞及關鍵詞,根據『題名—關鍵詞法』與『頻度—關鍵詞法』給予各關鍵詞不同的權重分數,找出一套合理的計算公式,根據句子中出現的關鍵詞權重與句子長度等參數,給予各新聞句不同的分數。再選擇出那些有最高比重的句子來做為中文新聞群組織摘要。
在第二章中,我們將介紹一些相關的研究,包括文件摘要、中文專有名詞自動取詞及一般名詞自動取詞等。第三章中,我們將介紹在本篇論文中我們如何作專有名詞自動取詞,一般名詞自動取詞的方法以及我們如何計算關鍵詞權重與新聞句子的權重。在第四章中,我們則使用由網路上蒐集所得的新聞資料庫,評估我們所提出的自動取詞的方法,以及最後所得的摘要是否與實際由新聞專業人員所編寫的新聞摘要雷同。最後,我們將提出需要改進的部分及未來的研究方向。
相關的研究
本篇論文主要藉由專有名詞及新聞中的關鍵詞來判斷新聞中哪些是屬於可以作為摘要的重要句子。因此,我們將就文件摘要、專有名詞自動取詞及中文自動斷詞三部分來討論之前的一些相關研究。
2.1 文件摘要相關研究
文件自動摘要起源自1950年代初期,到目前為止,國內外研討會上均有許多相關的論文發表。蘇諼教授 [7] 在1996年針對自動摘要法提出了一些簡單的介紹。Wu Yan, James N.K. Liu and Wang Kaizhu [12] 於1999年提出一篇關於英文文件摘要的論文,他們將文件中的英文字分為keyword, effect word以及content word三類,分別給予不同的權重來計算文件中每個句子的重要程度,取分數最高的句子來做為文件的摘要。McKeown and Radev [10] 針對從一事件的多篇英文新聞文件做摘要,他們利用人名、地名、組織名稱與時間的辨識,並從新聞摘要語料庫中學習摘要產生方式,根據事先定義的摘要模型來製作新聞摘要。此外,黃聖傑與陳信希 (Sheng-Jie Huang, Hsin-Hsi Chen 1999) [13] 也提出一篇對於同一事件多篇中文新聞文件摘要的論文。他們先將新聞文件分為小句,辨識小句中的名詞與動詞,利用小句中的名詞與動詞計算小句關連性,將關連性大於門檻值的小句做成連結,若個數大於3則將最長的小句取出作為新聞摘要。
2.2 中文專有名詞自動取詞相關研究
中文專有名詞不像英文專有名詞有首字大寫之類的特徵,因此在做中文專有名詞自動取詞時較英文困難。Jyun-Sheng Chang, Shun-Der
文档评论(0)