课时4 文本数据处理 学案 浙教版(2019)必修1.docVIP

课时4 文本数据处理 学案 浙教版(2019)必修1.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

课时4文本数据处理

课时目标

1.了解文本数据处理的一般过程和方法。2.掌握分词的方法和技巧。

1.文本数据处理主要应用在____________、情报分析、自动摘要、自动校对、论文查重、____________、________________、____________、自动应答等方面。

2.文本内容是____________的数据,需将文本从无结构的原始状态转化为结构化。

3.典型的文本处理过程主要包括:____________、____________、____________、____________等。

(1)分词

中文分词是中文文本信息处理的基础,机器翻译、全文检索等涉及中文的相关应用中都离不开中文分词。

分词是将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个一个单独的词。

常见的分词方法有:①基于词典;②基于统计;③基于规则。

常见的分词系统有

分词系统

简介

jieba分词

Python开源项目,基于词典

IKAnalyzerJava

开源分词工具包

NLPIR

北京理工大学大数据有哪些信誉好的足球投注网站与挖掘实验室,非商业应用免费

语言云哈工大社会计算与信息检索研究中心

在线API接口调用

BosonNLP玻森中文语义开放平台提供

在线API接口或库调用

(2)特征提取

一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用评估函数进行特征提取的方式,评估函数大多是基于概率统计设计的,这就需要用庞大的训练数据集才能获得对分类起关键作用的特征。随着深度学习、大数据分析等技术的发展,文本特征提取将更加准确、科学。

4.文本数据分析与应用

在取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。

(1)标签云

标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。广泛应用于报纸、杂志等传统媒体和互联网。

(2)文本情感分析

文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。文本情感分析主要应用于网络舆情监控、用户评论、分析与决策、信息预测等众多领域。

例1Python中文分词模块jieba采用的分词方法属于()

A.基于词典 B.基于统计

C.基于规则 D.以上都有可能

听课笔记:

变式训练1依据上下文中相邻字出现的频率,同时出现的次数越高就越可能组成一个词,这种分词方法属于()

A.基于词典 B.基于统计

C.基于规则 D.以上都有可能

例2下列关于文本数据处理的说法,正确的是()

A.处理的文本信息通常是结构化数据

B.特征提取是中文文本信息处理的基础

C.目前的分词算法能实现完全准确的进行分词

D.处理的目的是从大规模的文本数据中提取出符合需要的有用模式和隐藏的信息

听课笔记:

变式训练2文本数据处理的主要应用有()

①有哪些信誉好的足球投注网站引擎②自动摘要③论文查重④列车查询⑤微博评论典型意见

A.①④⑤ B.①②③⑤

C.②③④ D.②③④⑤

例32022年10月16日,习近平总书记在中国共产党第二十次全国代表大会上作了《高举中国特色社会主义伟大旗帜为全面建设社会主义现代化国家而团结奋斗》的报告,大会后全文发表。现将该报告内容存储在“new.txt”文件中,经程序处理后的数据保存为“newfc.txt”文件。分别如图a、图b所示。

图a

图b

(1)处理文件“new.txt”中的数据生成“newfc.txt”文件的过程,一般称为____________。

(2)编写如下Python程序,读取“newfc.txt”文件的数据,并统计其中各词语(2个及以上汉字构成)出现的次数,在画线位置填写合适的代码,完善程序。

importpandasaspd

f=open(newfc.txt,r,encoding

您可能关注的文档

文档评论(0)

中小学教学资料 + 关注
实名认证
服务提供商

提供小学、初中、高中信息科技教案、试卷、课件等优质教学资源

1亿VIP精品文档

相关文档