- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课程小结 谢谢观看 机器学习与自然语言处理 Python自然语言处理 第十章 课前回顾 无监督学习任务 文本聚类 K-means算法流程 文本分类实战:中文垃圾邮件分类 0 3 实现代码 数据列表: 数据名称 数据类型 ham_data.txt 正常邮件 spam_data.txt 垃圾邮件 实现代码 代码组织: - data_loader.py: 读取邮件数据、停用词列表 - data_processing.py: 数据清洗以及数据集转化 - classifier.py: 模型训练、预测、评价 实现代码 def get_data(path = DATA_DIR): with open(path + /ham_data.txt, encoding=utf8) as ham_f, \ open(path + /spam_data.txt, encoding=utf8) as spam_f: ham_data = [x.strip() for x in ham_f.readlines() if x.strip()] spam_data = [x.strip() for x in spam_f.readlines() if x.strip()] ham_label = np.ones(len(ham_data)).tolist() spam_label = np.zeros(len(spam_data)).tolist() corpus = ham_data + spam_data labels = ham_label + spam_label return corpus, labels def get_stopwords(path = DATA_DIR): with open(path + /stop_words.utf8, encoding=utf8) as f: stopword_list = set([x.strip() for x in f.readlines()] + list(r!#$%\()*+,-./:;=?@[\\]^_`{|}~)) return stopword_list data_loader.py 实现代码 def norm_corpus(corpus, stopword_list): result_corpus = [] ##匹配连续2个以上的英文+空格符号, 后面替换成一个空格 pattern = pile([{}\\s].format(re.escape(r!#$%\()*+,-./:;=?@[\\]^_`{|}~)) + r{2,}) for text in corpus: #分词,按停用词表过滤 seg_text = .join([x.strip() for x in jieba.cut(text) if x.strip() not in stopword_list]) result_corpus.append(pattern.sub( , seg_text)) return result_corpus def convert_data(norm_train, norm_test, vectorizer): ## fit把数据集中所有文字按规则(默认空格)切分成词元以后每个词元记录一个数字 ## transform对切分文字匹配出数字id,作为向量维度下标 ## fit_transform :两个功能合在一起 train_features = vectorizer.fit_transform(norm_train) test_feature = vectorizer.transform(norm_test) return train_features, test_feature, vectorizer data_processing.py 实现代码 DATA_DIR = data_loader.DATA_DIR corpus, labels = data_loader.get_data(DATA_DIR) stopwords = data_loader.get_stopwords(DATA_DIR) #train_test_split将数据集按test_size划分测试、训练集, random_state相同每
您可能关注的文档
- 《Python自然语言处理》第02章-Python基础.ppt
- 《Python自然语言处理》第03章-语料库基础.ppt
- 《Python自然语言处理》第04章-语法分析.ppt
- 《Python自然语言处理》第05章-词向量与关键词提取.ppt
- 《Python自然语言处理》第06章-句法分析.ppt
- 《Python自然语言处理》第07章-语义分析.ppt
- 《Python自然语言处理》第08章-情感分析.ppt
- 《Python自然语言处理》第10章-深度学习与自然语言处理.ppt
- 《Python自然语言处理》第12章-智能问答与对话.ppt
- 《Python自然语言处理》第13章-个性化推荐.ppt
- 湖南省衡阳市第八中学2026届高三上学期第一次月考物理(原卷版).doc
- 浙江省普通高中尖峰联盟2026届高三上学期10月联考英语(原卷版).doc
- 四川省绵阳市南山中学实验学校2026届高三上学期10月月考英语(原卷版).doc
- 湖南省衡阳市第八中学2026届高三上学期第二次月考历史 Word版含解析.doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题09 功和机械能(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题10 内能及其利用(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题07 压强(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题01 机械运动(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(解析版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(原卷版).doc
有哪些信誉好的足球投注网站
文档评论(0)