2.4获取武侠小说语料库中文自然语言处理技术39课件.pptxVIP

2.4获取武侠小说语料库中文自然语言处理技术39课件.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

主讲人:陈宇2.4-获取武侠小说语料库中文自然语言处理技术2.4-OBTAINACORPUSOFMARTIALARTSNOVELSARTIFICIALINTELLIGENCE

第二章NLP语料库的信息提取CHAPTERTWO2.1任务介绍TASKONE2.2语料库种类与构建TASKTWO2.3NLTK库分析武侠小说TASKTHREE2.5武侠小说语料库构建与语料分析TASKFIVE2.4获取武侠小说语料库TASKFOUR

任务四:获取武侠小说语料库TASKFOUR获取NLTK语料库2.4.2获取网络在线语料库

网络数据获取除了通过访问网络获取,还可以通过编写程序的方式访问网络和硬盘文本的方式获取,例如:通过编写程序,在线获取伤寒杂病论的语料库,实现代码如下:from__future__importdivisionimportnltk,re,pprintfromurllib.requestimporturlopenurl=r/files/24272/24272-0.txtraw=urlopen(url).read()raw=raw.decode(utf-8)print(len(raw))print(raw[1500:2000])

网络数据获取运行结果如图:

网络数据获取再例如,通过编写程序,在线获取处理HTML文本(红楼梦),实现代码如下所示:importre,nltkfromurllib.requestimporturlopenurl=/cache/epub/24264/pg24264-images.htmlhtml=urlopen(url).read()html=html.decode(utf-8)print(html[6000:6500])

网络数据获取运行结果如图:

网络和聊天文本步骤一获取网络聊天文本,代码如下所示:fromnltk.corpusimportwebtextforfileidinwebtext.fileids(): print(fileid,webtext.raw(fileid))

网络和聊天文本步骤二查看网络聊天文本信息,代码如下所示:forfileidinwebtext.fileids(): print(fileid,len(webtext.words(fileid)),len(webtext.raw(fileid)),len(webtext.sents(fileid)),webtext.encoding(fileid))运行结果:firefox.txt1024575646011142ISO-8859-2grail.txt16967650031881ISO-8859-2overheard.txt21841383011817936ISO-8859-2pirates.txt22679953681469ISO-8859-2singles.txt486721302316ISO-8859-2wine.txt313501497722984ISO-8859-2

网络和聊天文本步骤三获取即时消息聊天会话语料库,代码如下所示:fromnltk.corpusimportnps_chatchatroom=nps_chat.posts(10-19-20s_706posts.xml)chatroom[123]运行结果:[i,do,nt,want,hot,pics,of,a,female,,,I,can,look,in,a,mirror,.]

布朗语料库步骤一查看语料库信息,实现代码如下所示:fromnltk.corpusimportbrownprint(brown.categories())运行结果:[adventure,belles_lettres,editorial,fiction,government,hobbies,humor,learned,lore,mystery,news,religion,reviews,romance,science_fiction]

布朗语料库步骤二比较文体中情态动词的用法,实现代码如下所示:importnltkfromnltk.corpusimportbrownnew_texts=brown.words(categories=news)fdist=nltk.FreqDist([w.lower()forwinnew_texts])modals=[can,could,may,might,must,will]forminmodals:print(m+:,fdis

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档