一般计算句子的相似度,大多从语义的角度入手,将句义当.PDFVIP

一般计算句子的相似度,大多从语义的角度入手,将句义当.PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一般计算句子的相似度,大多从语义的角度入手,将句义当

中文句子相似度之計算與應用 鄭守益 梁婷 國立交通大學資訊科學系 {gis93540, tliang}@.tw 摘要 近年來受惠於國內外各項語料庫資源的建置及網際網路上的大量中文語料,使電腦語文輔助教材 的涵蓋層面日趨廣泛。因此如何產生大量且具高品質之輔助教材日益受到許多自然語言處理研究 者的重視。有鑑于此,本論文提出以中文句子相似度為基礎的研究與應用。相似度的計算乃考慮 句子的組合及聚合性。我們實作此一應用,並提出解決未知詞的語意計算問題的方法。實驗結果 顯示系統的檢索 MRR值可以提升到 0.89 且每一檢索句皆可找到可堪用之例句。 1. 緒論 句子是可完整表達語意的基本單位[21],也是語法的具體表現。因此,在語言學習中,學童 若是學會了各種句型,也就學會了隱含在句型中的語法規則。藉由語言學家的歸納整理[14],我 們知道句子的結構並不是詞語的隨意組合,而是依照一定的「語法規則」。根據[15],語法規則 可進一步分為「組合規則」及「聚合規則」。組合規則是指語法單位的橫向組合,例如,「我」、「買」、 「書」這三個詞彙可以組合成「我買書」,但卻不能組合成「書買我」。當詞組合成結構之後,將 具有語法意義,並使得整體結構的意義大於個別詞彙的意義總和,例如:「綠」、「葉」這兩個詞 各自有其意義,但組合之後則形成了「綠」修飾「葉」的語法意義。 至於聚合規則是指在句子中,每個位置的語法單位都有其適合替換的詞語集合,例如,在「我 買書」這個句子裡,「我」可以替換成「你」,但「買」卻不能替換成「花」。句子中的聚合替換 規則可以視為詞彙的語義替換問題,例如:語義同屬植物的「花」、「草」可以互相替換。 句型在學習語法時十分重要,因此融合語法變化的「句型練習」就成為國小學童語言學習時 的一個重要活動[18]。國語習作是現行國語課程的輔助教材,主要供國小學童課後練習使用,而 習作的內容中幾乎每課都有「造句」、「照樣造句」、「替換語詞」等句型的練習 [16]。然而,由 於習作中所提供的例句數量不多,再加上國小學童不論在閱讀的文章數量及習得的詞彙數量皆有 所不足,因此,本研究之目的為設計一有效率之句子相似度計算方法,以自動擷取國小學童句型 練習中的「照樣造句」所需的範例例句。我們將句子相似度定義為計算兩個句子之間的語法規則 相似度,也就是說如果兩個句子的語法組合及聚合規則越相似,則其相似度越高。 句子相似度計算可依照語句的分析深度分成兩種方式。一種是基於向量空間模型的方法,把 句子當成詞的線性序列,因此語句相似度衡量機制只能利用句子的表層資訊,即組成句子的詞的 語義資訊。由於不加任何結構分析,這種方法在計算語句之間的相似度時無法考慮句子整體結構 的相似性。例如在[8] [20]是以比對相同辭彙來計算相似度,對於句子之中,普遍存在的同義或 近義詞之間的取代及比對,並沒能有效的解決。在[9]則提出搭配語義詞典檢索,並分配字義權 重,以解決單純語義匹配的問題;但是,只使用語義詞典檢索來作為相似度的計算依據,而沒有 考慮到句子內部的結構和詞彙之間的相互關係,因此準確率並不理想。在[11]中提出使用編輯距 離的方法 ,其規定的操作模式 ,並不完全適用於整體句義相似的計算 ,也缺乏同義或近義詞替換 的設計 。另一方面 ,使用統計之語言模型的方法 [6]則需要建置大量的訓練語料 。在[2][4]中結 合了語義詞典檢索方法及傳統編輯距離方法[10]的優點 ,並利用 HowNet[5]和 《同義詞詞林》[7] 兩種語義辭典 ,以計算辭彙之間的語義距離 ,同時賦予不同編輯操作不同的權重 ,因此具有較好 的輸出結果 。由於其方法是基於同義詞典 ,來進行語義判定 ,因而衍生出未知詞及專有名詞語義 判定的問題 。另外 。檢討其所使用的編輯操作權重 ,篩選候選句的計算方式 ,及評估輸出結果的 方法,仍有改進的空間 。 另一種方法則是對語句進行結構的句法與語義分析 ,並在分析結果的基礎上進行相似度計 算 ,例如[17][19]先對被比較的兩個句子進行深層的句法分析找出依存關係 ,並在依存分析結果 的基礎上進行相似度計算 ,但目前的語義依存句法分析器的準確率只有 86% ,因此造成依存分析 的結果並不準確,導致句子的核心詞無法正確判斷 ,因而產生了錯誤的計

文档评论(0)

l215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档