古籍數字化與古典文學研究的未來.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
古籍數字化與古典文學研究的未來

古籍數字化與古典文學 研究的未來 中國社科院文學研究所 鄭永曉 一、信息技術應用於古典文學研究的歷史回顧(一) 1990—1995,為中國大陸運用計算機處理中文信息的第一階段:軟件系統主要使用IBM DOS、微軟MS-DOS外加中文處理平臺如希望公司的UC-DOS、超想DOS等,以及運行於其上之WPS;條件較好的用戶使用Windows 3.1英文版加中文之星。1993年,微軟的word 4.0登錄中國。很顯然,這一時期,就大多數文學研究者而言,計算機即等同於打字機。還談不上嚴格意義上的中文信息處理。 一、信息技術應用於古典文 學研究的歷史回顧︵二︶ 在這一階段,中文信息的先行者已經開始注意到利用計算機進行中文處理的巨大潛能。在我院前副院長錢鍾書先生的支持下,文學所成立了計算機室,先後開發了《論語數據庫》、《全漢字字庫》等。 一、信息技術應用於古典文學研究的歷史回顧(三) 1995-2000:計算機技術運用於中文信息處理的第二階段。第一,1995年Internet被引入中國大陸;第二,CD-Rom 技術趨於成熟,相繼出現了倍數CD-Rom 和4倍數CD-Rom 。Internet的引入為學者們通過網絡檢索文獻提供了便利;CD-Rom 的發明為開發數據光盤提供了便利。 一、信息技術應用於古典文學研究的歷史回顧(四) 1995—2000年的部分成果:商務國際有限公司製作發行了《全唐詩》光盤;1998年高校古籍整理委員會批准立項並直接資助“中國基本古籍庫光盤工程”啟動,收書總計全文超過20億字,版本圖像2000餘萬頁,內容總量相當於3部《四庫全書》,堪稱規模空前的中國歷代典籍總匯。 一、信息技術應用於古典文學研究的歷史回顧(五) 2001年至2005年:迪志文化出版公司、書同文公司等開發的不同版本《四庫全書》、《四部叢刊》問世,大陸和臺灣各種網站上提供了豐富的數字化古籍文獻。經過近十年的快速發展,數字化古籍的總量已經十分可觀,程序提供的檢索手段也已經相當完善。 一、信息技術應用於古典文學研究的歷史回顧(六) 古代文獻類數據庫在檢索查詢方面的功能固然十分強大,但對於古典文學研究而言,仍然只是輔助手段。要達到能夠參與研究的程度,需要提升計算機在處理文獻時的智能程度。因此當今三大尖端技術之一的“人工智能”(Artificial Intelligence,簡稱AI)參與中文信息處理尤其是古代文獻處理便被提上日程,開始進入部分有識之士的視野。 一、信息技術應用於古典文學研究的歷史回顧(七) 我們今天之所以能夠享用電子版《四庫全書》這樣的大型數字化文獻,正是得益於人工智能的發展。漢字OCR( Optical Character Recognition)技術是我國近年來開發比較成熟的人工智能系統之一。 一、信息技術應用於古典文學研究的歷史回顧(八) 北京大學李鐸博士主持的“《全宋詩》信息分析系統”已漸趨完善。該“分析系統”能夠為每首詩精確標注格律,並運用模糊查詢技術查找重出作品。初步具備了計算機在古典文學信息處理方面的智能特色。 二、未來信息技術運用於古籍整理之探討(批量標點) 中國古籍浩如煙海,已經標點整理者尚屬少數。人工標點費時費力,且差錯率較高。而古籍斷句的正確與否,涉及到對文本的正確理解。錯誤斷句後果嚴重。 選用已經標點,且質量較高的古籍文本,作為計算機學習、摹擬的範本,利用計算機自學習功能,由易到難,不斷擴充知識庫,完全可以實現對古籍的大規模標點工作。且差錯率較低。 二、未來信息技術運用於古籍整理之探討(校勘) 勘正錯別字:可以利用建立錯誤詞彙數據庫等來實現。目前已有比較成熟的產品應用於報刊、雜誌發排前的校對工作。進一步發展並完善相關技術,完全可以運用於古籍整理! 比較不同版本之相異:WORD工具 “比較併合並文檔”,即可用於比較兩篇文檔之異同,但專業性欠佳。從程序設計角度而言,讓計算機比較底本與參校本之異同並自動生成校記完全可以實現。 二、未來信息技術運用於古籍整理之探討(箋注) 人工箋注古籍之劣勢:①速度太慢;②部分疑難字詞因無法查證其出處而難以箋注,或箋注錯誤。③印數少,成本高。結果造成很多寶貴資源因無人箋注、整理而乏人問津。利用計算機從事此項工作是解決問題的必由之路。 計算機箋注古籍之途徑:①建立冷僻字詞和典故數據庫;②對相關文本進行掃描;③發現文本中與數據庫中之字詞相似或相同,即刻調用該字詞的解釋並寫到程序設定之位置。讀者鼠標一點,相關注釋即刻添加到設定位置。 二、未來信息技術運用於古籍整理之探討 ︵白話文翻譯︶ 在對古籍予以正確箋注的基礎上,進行白話文翻譯順理成章。 在技術上可以借鑒不同語種之間的相互翻譯技術。這正是人工智能研究領域的重要課題之一。 這樣的軟件開發成功後,將把古籍的白話文翻譯變成一個動態過

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档