- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
初识文本基础处理
——使用jieba库进行词性标注
实训目标
掌握安装jieba库的方法。
熟悉pseg子模块,实现中文文本的分词和词性标注。
实训环境
环境
版本
说明
Windows10
64
电脑操作系统
Python
3.8.5
Python语言版本
pandas
1.3.0
主要用于数据读取、清洗等操作
NumPy
1.21.6
主要用于Python中的数值计算
jieba
0.42.1
主要用于文本分词
Gensim
4.2.0
主要用于检索文本、计算文本相似度、训练词向量、建模主题等
Matplotlib
3.3.0
主要用于数据可视化
PaddlePaddle
2.4.2
是一个深度学习框架,提供了高效的计算框架和优化算法
PaddleSpeech
1.2.0
主要用于语音和音频中的各种关键任务的开发
scikit-learn
1.0.2
广泛地用于统计分析和机器学习建模等数据科学领域
Librosa
0.8.1
主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库
NLTK
3.5
是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等
SciPy
1.7.3
是一个科学计算工具包,可用于数学、科学、工程学等领域
pyttsx3
2.9.0
主要用于将文本转换成语音
实训说明
jieba库中的pseg子模块专门用于中文词性标注任务,它在jieba分词的基础上为每个词汇分配相应的词性。通过导入pseg子模块,可以轻松地实现中文文本的分词和词性标注,从而提高对中文文本的分析和处理能力。本实训将对一个中文文本数据,使用jieba库进行词性标注。
实训步骤
以“热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用jieba库进行词性标注,如REF_Ref131509306\h代码21所示。
代码STYLEREF1\s2SEQ代码\*ARABIC\s11使用jieba库进行词性标注
importjieba.possegaspseg
sentence=热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。
words=pseg.cut(sentence)
print(词性标注结果为:\n)
forword,flaginwords:
print(word+-+flag)
运行REF_Ref131509306\h代码21,词性标注结果如下。
词性标注结果为:
热爱-a
学习-v
是-v
一种-m
积极向上-l
的-uj
品质-n
,-x
它-r
可以-c
让-v
我们-r
不断-d
地-uv
探索-v
新-a
的-uj
知识-v
领域-n
,-x
不断-d
地-uv
拓展-v
我们-r
的-uj
视野-n
和-c
思维-n
。-x我们r
的uj
视野n
和c
思维n
。x
从REF_Ref131509306\h代码21的运行结果可以看出,每个词后面附加了一个词性标签(如“n”表示名词,“v”表示动词,“a”表示形容词等),这有助于理解每个词在句子中的语法作用。然而,这个标注结果存在一些问题,可能是由于分词的问题导致的。例如,“知识”被标注为动词(v),但实际上该词语应该是一个名词(n)。因此,用户在做词性标注后,应需要仔细检查和调整标注结果,以确保其准确性。
实训小结
技术点自评
达标
未达标
能够掌握安装jieba库的方法
能够使用pseg子模块进行词性标注
心得体会(如遇到的问题及解决方法、存在的不足之处等):
文档评论(0)