台语文语料处理技术阅读报告.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
台语文语料处理技术阅读报告

台語文語料處理技術閱讀報告第四章-信息處理用現代漢語詞彙研究的兼類問題R9592153 李晏彰信息處理用現代漢語辭類體系計算機只能根據詞類的排序,和詞類屬性,來判定句法結構,所以劃分詞類的標準只能是詞在句法中的功能。語義的判定有很大的主觀隨意性,何況計算機無法辨認語義,所以當詞出現多功能現象時,語義不能當分類標準。因為計算機不像人一樣,會自動補充其他需要的句法信息,因此把辭類分得細一些,就是給計算機提供更多的句法信息。 信息處理用現代漢語詞類的建議:(註:原文中有解釋如何完成分類)1. 名詞(1)普通名詞 (2)專有名詞 (3)抽象名詞 (4)時間名詞 (5)處所名詞 (6)方位名詞2. 形容詞(1)性質形容詞 (2)狀態/複雜形容詞 (3)情狀形容詞 (4)非謂形容詞 (5)唯謂形容詞 動詞(1)關聯動詞 (2)不及物動詞 (3)及物動詞 (4)使令動詞 (5)小句賓語動詞 (6)助動詞 (7)形式動詞 (8)趨向動詞數詞(1)基數詞 (2)序數詞 (3)複合數詞 (4)序列詞量詞(1)名量詞 (2)動量詞 (3)複合量詞副詞(1)普通副詞 (2)程度副詞 (3)語氣副詞 (4)關聯副詞代詞(1)代名詞 (2)代形容詞 (3)代數詞 (4)代動詞 (5)代副詞介詞(1) 介詞 (2)動介詞連詞(1)並列連詞 (2)從屬連詞助詞(1)動態助詞 (2)結構助詞 (3)代數詞兼類問題漢語沒有足以區分詞類的型態,因此詞的多功能的現象很突出。前人做法: (1)廣泛兼類 ?“類有定職,詞無定類”(2)詞義不變,詞性不變 ? “詞有定類,類無定職”所以現在改採用 1.屬性標注 2.兼類1. 屬性標注:實際上是定於一類,不過同時給予各種可能出現的功能。優點:靈活,避開兼類的問題缺點:查每一個詞的很多屬性,反覆進行排列組合運算,導致運算量太大,且無法確定分析正確。例如:“學習文件”這個組合,“學習”定為動詞,所以第一次分析為“動賓關係”,之後發現不符合原意所以改查別的屬性,最後即使查到“可以做定語”的屬性,也只能算是可能的一種結構。 2. 兼類:讓一些詞兼屬兩類以上的詞類。優點:運算簡化。缺點:若兼類太多等於取消了詞的分類。(但是經統計動名兼類不到30%,形名兼類更低)例如:“學習文件”這個組合,“學習”第一次分析不成功,可改用兼類的雌性分析,例如為v/n,則“動賓關係”無解時,就可以改為“定語+名詞”結構,運算簡化很多。但是對計算機而言,兼類問題也很複雜,因為:1. 詞類分的很細,大類之外還分小類,因此大類之間有兼類問題,小類之間也有兼類問題。2. “同形”漢字也有兼類問題。(例:水滸’傳’ 和 ’傳’球在口語讀音不同,屬於不同的詞類不存在兼類問題,但對計算機而言也是兼類問題)(一)兼類問題的癥結:兼類問題非常複雜長期以來沒有得到一個妥善的解決。1. 理論與方法“詞義不變,詞性不變”這種兼類的意見克服了詞無定類,但是它盡可能的縮小兼類的範圍的做法,不得不擴大詞類的句法功能範圍,而如果擴大的太多到了兼有其他各類的功能,反而變成“類無定職”。下面的表格顯示了用“詞義不變,詞性不變”的意見來處理兼類,則動詞和形容詞都變成“全能詞類”,名詞也是只有不能當補語而已。?主語謂語賓語定語狀語補語名詞21.20.1849.0420.96.50動詞0.9176.72.866.527.155.88形容詞1.7226.26.0342.019.14.8 母語教學上,兼類問題較小,因為人可以“先理解,後分析”,既然已經理解了整個句子的意義,分析只是給個說法而已,但是計算機卻無法做到。例如: 討論 是 為了 要 修訂 教育 改革 計畫分析出來是8個動詞,最後即使查到”討論”可以做主語,因為統計的概率很低,也無法完全確定,因此實用計算機系統中,”討論”就注上v/n也就是動名兼類,可能是動詞或是名詞,但前提是兼類問題已解決。在不同的詞類之中,兼類的成員必須是少數,但是究竟數量是多少,光憑語感來估計可能有很大的出入,這時,單純的理論不能解決問題,必須做更多統計等具體的分析研究。長期解決不了的兼類問題,其實是歐化語法帶來的,因為漢語的口語中兼類的問題並不突出,因為往往在語音形式上有所差別。但是對於書面語,例如build和building,在英語中的動詞和名詞有兩種形式,而翻譯過來的名詞在漢語中和動詞卻毫無差別,但是歐化語法已經成為現代漢語書面語的一個組成部分。2. 兼類現象的複雜性(1) 功能轉移的不平衡: 功能特徵:名詞 ? 句法功能用作主語和賓語,大多能用做定語,大多能受名量詞修飾。動詞 ? 句法功能用做謂語,及物動詞能帶賓語,絕大多數能帶‘了’, ‘著’, ‘過’等字。形容詞 ? 句法功能用做定語和謂語,大多能受程度副詞修飾,很多能帶‘了’, ‘著’,‘

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档