- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自动断词系统建置-国家试验研究院
附件一 自動斷詞系統建置 招標規範 (編號:97-4-36) 整體需求:系統建。 專案內容 現況說明 中文斷詞是文字探勘之首要步驟,本系統亦需具備關鍵詞的自動抽取系統需求 系統需提供自動斷詞功能,將文本中重要詞彙自動截取匯出。 詞庫功能: 使用者可輸入欲保留之詞彙於詞庫中,系統需將詞庫中的詞彙於輸入文本中斷出。 可提供詞庫匯入及匯出功能。 輸入需求: 系統需提供批次斷詞功能:可同時輸入多篇文本進行批次斷詞,批次輸入檔案無上限。 輸出需求: 系統需將斷詞結果匯出,斷詞結果至少需提供以下資訊供使用者選擇: 斷詞之詞彙。 斷詞詞彙之字數(I):該詞彙之字數。 詞頻(term frequency, TF):各詞在各文本中出現的次數。 正規化詞頻 (regularized term frequency, RTF):將TF值正規化,以防止它偏向長的文案。對於在某一特定文案裡的詞語 ti 來說,它的重要性可表示為:以上式子中 ni,j 是該詞在文案dj中的出現次數,而分母則是在文案dj中所有字詞的出現次數之和。 文案頻率(document frequency, DF)總文案數目除以該詞語之文案的數目逆向文案頻率(inverse document frequency, IDF)普遍重要性的度量。某一特定的IDF,可以由總文案數目除以包含該詞語之文案的數目,再將得到的商到:其中 |D|:文案總數Ii:該詞彙之字數 :包含詞ti的文案數目(即的文案數目) RTFIDF值:各詞之RTF*IDF結果。 輸出方式: 匯出的檔案格式可依使用者需求,提供下列選擇: EXCEL檔 以tab隔開之CSV檔 供MATLAB分析使用之文字檔,說明如下: 附檔名存為dat 第一行為輸入文案個數 第二行為系統產生之各文案英文代號,每個文案代號以空白分隔 第三行之後為各詞彙在各文案中之TFIDF或RTFIDF值,各值以空白分隔,並在行末加上一空白及系統產生之各詞彙英文代號。 如為一5個輸入文案,5個詞彙之分析,範例如下圖 15 D1 D2 D3 D4 D5 0 1.230481 0 0 0 K1 2.497627 0.832542 0 0 0.832542207 K2 23.82266 0 0 0 0 K3 2.497594 0 0 2.211080082 0 K4 0 0 0.753371 0 0.753371094 K5 圖 1MATLAB使用之dat檔格式範例 單筆輸出模式:輸出內容需產生以斷詞之詞彙為縱軸,詞彙字數(I)、TF/RTF值為橫軸之矩陣,預設斷詞詞彙排列方式依詞彙TF值進行由高至低排序,如下圖 2 文本ATF 文本ARTF值 序號 詞彙1 1-TF值 詞彙1-RTF值 K1 TF最高 詞彙2 2-TF值 詞彙2-RTF值 K2 詞彙3 3-TF值 詞彙3-RTF值 K3 詞彙4 4-TF值 詞彙4-RTF值 K4 詞彙5 5-TF值 詞彙5-RTF值 K5 詞彙6 6-TF值 詞彙6-RTF值 K6 … … … … k 8-TF值 詞彙8-RTF值 K8 TF最低 圖 2:單筆輸出模式樣如下圖 3 字數I DF 文本ATF 文本ATFIDF 文本ARTF 文本ARTFIDF 文本BTF 文本BTFIDF 文本BRTF 文本BRTFIDF … 序號 詞彙1 K1 TF 詞彙2 K2 3 K3 4 K4 5 K5 6 K6 … … k K8 TF 圖 3:筆輸出模式樣 彈性需求: 系統需提供多個專案需求,每個專案有各自之詞庫,系統依各專案需求進行斷詞互不干擾。 需具備未來擴充斷詞詞性之功能。 其他需求: 系統需安裝於中心個人電腦Windows作業系統上。 系統如使用Web介面呈現,則需符合以下規則: 必須至少以Microsoft Internet Explorer網頁瀏覽器(5.5版以上版本)及Fire Fox(1.0以上版本)兩種網頁瀏覽程式進行所有功能操作使用。本中心CIS規範貳.STPI網站CIS規範。 工作時程 本案從系統分析、系統設計、程式撰寫、程式測試、系統建置,需於200年月2日前完成,各階段作業進度須於系統分析書中載明。 驗收項目 系統軟
文档评论(0)