專利摘要方法流程.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
專利摘要方法流程

專利自動摘要方法與範例 了解專利文件詞彙擷取與Text mining之前處理 探討關鍵詞彙辨識與關鍵字詞整併技術 討論專利文件段落分群與專利文件摘要之呈現 根據世界智慧財產組織(WIPO, 1996)指出,專利資訊中含有約全世界90%~95%的商品化研發成果。 相對於其他技術報告或期刊報導,專利文件是唯一能夠完整揭露核心技術的知識文件。 只要公司能善用專利資訊,將可以節省40%的研發成本以及縮短60%的研發時程。 因此,專利文件在知識經濟的時代扮演著極為重要的角色。 6.1 文字探勘與文字摘要 1/2 利用文字探勘技術,希望能從專利文件中的描述(Descriptions)萃取出最重要的概念段落、獨立項(Independent claims)以及專利圖檔(Images)等資訊來產生一文字形式之簡短摘要。 幫助專利工程師或是領域專家等進行快速專利文件的導讀,以有效掌握大量專利文件的要點。 文字探勘主要是藉由文字集資源中擷取出訊息來發現潛在的、未知的及有用的資訊。 6.1 文字探勘與文字摘要 2/2 隨著專利分析的蓬勃發展,不同於過往以人力進行專利分析,取而代之的是運用資訊科技來製作專利地圖或是專利內容的解析。 就專利文件的分析而言,其運用到了資訊檢索、內容摘要、主題歸類與分類等,幾乎都跟文字探勘的概念不謀而合。 將文字探勘應用在專利文件自動摘要的功能,旨在提供讀者專利文件的簡要大綱,讓使用者能快速瀏覽、閱讀並理解專利文件中的主旨。 6.2 專利摘要方法 1/10 文件自動摘要主要包含兩大主題,分別是「關鍵字擷取」以及「摘要呈現」。 在關鍵字擷取部分是使用TF-IDF為基之技術來統計出現在文件中次數較高之關鍵詞彙。 而摘要呈現乃包含文字形式之摘要和圖形形式之摘要呈現,文字形式之摘要是透過關鍵字擷取階段中所取出之關鍵詞彙來衡量文件中每一段落之重要性,再以摘要模板呈現。 6.2 專利摘要方法 2/10 在關鍵字擷取部分有兩大流程,分別為文件內容前處理以及關鍵詞彙辨識。 文件內容前處理包含斷詞、去除停字、詞性解析和字詞還原等步驟,此為關鍵詞彙辨識前之預備動作,可有效提升系統在辨識過程之效率。 關鍵詞彙辨識則是利用TF-IDF為基之技術來統計文件中出現頻率較高之單字詞,再利用演算法去擷取出多字詞關鍵詞彙。 6.2 專利摘要方法 3/10 文件內容前處理的四大步驟。 其一為斷詞,輸入之文件首先會以一些特定的斷詞符號為基礎來將文件拆解成多個字節。 其二為去除停用字詞(Stop words),即除去較不具有重要性和影響文意之單字。 其三為詞性解析,文章中名詞跟動詞相對於其他的詞性較能夠表達出文章的意涵。 其四為字詞還原,目的是要解決一字多形的問題,詞彙在文章中可能會出現複數、動名詞、過去式等變化。 專利摘要方法流程 摘要產出與呈現 主要的工作是先透過段落概念分群,將文件中擁有相似概念之技術主題及段落分在同一群集中。 之後再用前一階段擷取出的關鍵詞彙來衡量每一群集中各個段落的重要性,將高於門檻值的段落選為候選摘要。 搭配事先規範的摘要格式,彙整所有候選摘要成系統的文字型態專利摘要。 由於一篇專利中可能包含數個概念,且這些概念可能會散佈在不同的段落裡,因此利用段落分群的演算法可幫助我們將相同概念的段落聚成一群。 首先,建立段落與重要詞彙的相關性矩陣,接著將完全沒有關鍵字出現的段落先移除,以提高系統的效率。 並使用Cosine similarity計算兩兩段落間的相似度,此方法稱為向量空間模式,在此被應用於尋找關聯性高的段落。 當兩兩段落之間出現相同的關鍵字詞越多,餘弦函數值越高,則代表兩段落越相似。 以上步驟完成後,即可開始以K-Means演算法[13]進行分群。首先給予一目標分群數k。 接著採用RMSSTD(Root Mean Square Standard Deviation,組間相似度)和RS(R-Squared,組內相似度)的概念來評估分群後的結果。 選擇組間差異極大化,但組內差異極小化之最佳分群數k。 段落分群結果示意圖 將段落進行分群後,接著是對段落的重要程度進行衡量。 段落重要程度可以六個層次表示,分別:(1)關鍵詞彙 (Key-phrases) (2)題目詞彙 (Title phrases) (3)一般詞彙 (Phrase)(4)主題句(Topic sentences)(5)領域詞彙 (Domain-specific phrases)及(6)指標詞彙(Indicator phrases)。 從各群集中挑出分數最高的段落並納入摘要當中,所以摘要將由所有群集的最具代表性段落所集合而成。 以關鍵字為基之群集中各段落分數之計算示意圖 6.3 以本體論為基之專利摘要 1/6 通常一篇文章都包含有一至多個主題概念(或稱主旨),而主題概念將是我們

文档评论(0)

maritime5 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档