- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社会科学研究中的文字探勘应用以文意为基础的文件-中国文化大学
《人文及社會科學集刊》 104/ 12 , pp. 683– 718 第二十七卷第四期 ( ) C 社會科學研究中的文字探勘應用 :以文意為基礎的文件分類及其問題 683 ○中央研究院人文社會科學研究中心 * 陳世榮 中國文化大學行政管理學系副教授 隨著電子典藏技術的精進 ,文字探勘技術逐漸受到重視 ,本文以社會科學 研究在文意區別上的需求 ,評估監督式機器學習對非結構 、複雜文本的分類效 果 ,並就所見問題提出分析與建議 。本文從文字探勘與內容分析文意區別上的 差異與共通性出發 ,繼而以新聞報導為分析資料 ,針就特定文件意向,遵循一 般文字探勘程序 ,以支持向量機與簡易貝式分類器執行文件分類評估 。分析結 果指出,文字探勘對於複雜文意的判讀效果值得肯定 ,但經由共詞網絡分析也 發現 ,文件的編撰風格將影響文件分類的效果。建議研究者在資料處理初期 , 應反覆評估研究目的、資料特性與分類器模型間的契合度 。 隨著網路資訊發達 ,數位典藏盛行 ,社會科學研究史無前例地受惠於電 子資料的應用 ,類型多樣的資料延伸了知識探求的觸角 ,歷時性的檔案文本 big data 開啟了深究社會結構與行為趨勢的機會。然而 ,大數據 ( )的利用 , 也意味著社科研究在資料處理能力上的挑戰 ,傳統所依賴的研究方法 ,諸如 內容分析法 ,必須做相應的調整 。所幸 ,伴隨著資訊科學的發展 ,資料解析 ✽作者感謝二位匿名審查人的寶貴意見。 103 9 11 104 7 28 收稿日期 : 年 月 日;接受刊登日期 : 年 月 日 684 人文及社會科學集刊 與處理一直受到高度關切 ,並已發展成體系龐大且複雜的知識領域 ,這無疑 提供社會科學界在未來數位資料應用上極為重要的支持與推力。 應用層面上 ,過去二十年間,在商業利益的推波助瀾之下 ,對電子化訊 data mining 息解讀的需求陡升 ,促使資料探勘 ( )熱潮 ,進一步延伸出文字 text mining 探勘 ( )的應用。所謂 「文字探勘」指的是,就所蒐集的特定巨量 文件 ,執行編輯 、組織與分析的過程 ,以發現其間隱含的特徵關聯或新穎有 Blake, 2011: 125– 126; Sullivan, 趣的模式 ,提供分析師或決策者特定的訊息 ( 2001: 326 )。由於探勘過程高度仰賴電腦計算與模型運用 ,得以處理巨量資 natural language processing 料 ,使得 「自然語言處理」( )技術獲得跨領域的 應用價值 ,社會科學研究也不例外 。 但是 ,這份期待也不是沒有限制的。首先 ,基於網際網路所引發的資訊 爆炸與訊息超載 ,快速簡潔地萃取有意義及有價值的資訊 ,正是 「自然語言 Semantic Web 處理」發展的目的。如同當前資訊科學所積極推動的語意網 ( )
文档评论(0)