- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多领域文件集之词汇概念扩展与知识架构之建立Conceptual
多領域文件集之詞彙概念擴展與知識架構之建立
Conceptual Expansion and Ontological Mapping of Multi-domain
Documents
陳永祥 Yong-Xiang Chen
中央研究院語言學研究所 臺灣大學資訊工程研究所
yxchen@.tw
柯綉玲 Xiu-Ling Ke
中央研究院語言學研究所
vitake@.tw
陳克健 Keh-Jiann Chen
中央研究院資訊科學研究所
kchen@.tw
黃居仁 Chu-Ren Huang
中央研究院語言學研究所
churen@.tw
摘要
傳統資訊檢索過程經常透過查詢擴展技術來增加檢索結果的數量。在大型數位博物
館中,考量存放的典藏品項具有領域特殊性,以及不同品項由各自適用的文字描述
所造成之差異性,因此傳統查詢擴展方式不盡合用。本研究提出概念擴展之構想,
首先由數位博物館典藏品項的標題中抽取出成分詞集,再透過中英雙語知識本體
(BOW )將成分詞對應至建議上層知識本體(SUMO ),藉此可將成份詞轉換成為概
念並對應至具有結構的知識本體節點上,再由集群演算法計算相近節點並將分散之
對應節點聚合成具有代表性的群集,最後以構詞分析所得之規則進行群集縮減,決
定出符合構詞分析規則的群集用以進行概念擴展。研究成果除提出知識概念擴展流
程外,亦以數位典藏國家型科技計畫典藏項目為例,歸納出保存多領域典藏品之數
位博物館中文標題構詞樣式,進行分析探討,研究成果可作為機器自動處理之基礎。
關鍵詞:概念擴展,構詞樣式,知識本體,群集縮減
一、前言
傳統資訊檢索過程經常透過查詢擴展技術來增加檢索結果的數量。在大型數位博物
館中,考量存放的典藏品項具有領域特殊性,以及不同品項由各自適用的文字描述方式
所造成的差異性,因此傳統查詢擴展方式不盡合用。概念擴展的構想是以詞彙所代表的
知識概念在知識本體中結構中找到相似的概念進行擴展,以使原本只能對應到少數概念
的詞彙透過概念延伸得以對應至較多的詞彙,進而從知識概念層次的擴展提升數位博物
館典藏品資料的資訊檢索效能。
「數位典藏國家型科技計畫」自2002 年開始推動,旨在將珍貴的重要文物典藏加
以數位化,建立國家數位典藏,以保存文化資產、建構公共資訊系統,促使精緻文化普
及、資訊科技與人文融合,並推動產業與經濟發展。因規模龐大,因此目前開發整合型
的成果查詢介面提供各界使用者查詢應用,分別為聯合目錄及公共展示系統。
透過知識本體的結構系統,可以比較嚴謹的將知識結構系統建立起來,本研究即以
數位典藏國家型科技計畫所提供之39,765 個典藏品標題(2~5 字詞)為實驗資料,透過
中文詞彙網路(Chinese Wordnet; CWN )及中英雙語知識本體詞網(Sinica BOW )所建
立的中文詞義分析與知識本體架構,將標題詞彙對應至SUMO ontology 節點上進行概
念擴展與群集,再以中文構詞樣式為標準進行群集縮減,以詞彙語義分析方式提供特殊
領域典藏資料庫中資訊檢索可行之方案。
二、相關研究
(一) 語義相似度與查詢擴展
距離導向的相似度方法是從大的文字語料庫中去學出分布的相似度來建立模型,
Leacock Chodorow [1] ,Resnik [2] ,Lin [3]所提出的是三種在自然語言處理應用上很
標準的方法。這些公式都是定義用來測量概念(Concept)上的相似度, 而非詞彙(word)上
的, 但在轉換上可以用一對詞與詞之間,多組概念對概念相似度中最高的那組來作為語
義相似度的代表。因此可以簡單轉換成詞與詞
文档评论(0)