- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用朴素贝叶斯进行社会媒体挖掘理论前提朴素贝叶斯毫无疑问,朴素贝叶斯概率模型是以对贝叶斯统计方法的朴素解释为基础。 尽管存在朴素的一面,这种方法应用面很广且都取得了不错的效果。 特征类型和形式多样的数据集也可以用它进行分类。本次实验重点讲解如何用二值化后的特征组成的词袋模型来分类。 贝叶斯定理公式如下:我们可以用朴素贝叶斯公式来计算个体从属于给定类别的概率。因此,它可以用来分类。理论前提多种测量方法能够帮上忙。比如,平均词长和平均句长可用来预测文本的可读性。除此之外,还有很多其他类型的特征,比如我们接下来要用到的单词是否出现(word occurrence)。文本转换器Python有很多用于处理文本的库。我们将使用主流的NLTK库(Natural Language ToolKit,自然语言处理工具集)抽取特征。词袋我们来创建一个矩阵,每一行表示数据集中的一篇文档,每一列代表一个词。矩阵中的每一项为某个词在文档中的出现次数。N 元语法比起用单个词作特征,使用N元语法能更好地描述文档,具体优势稍后会讲。N元语法是指由几个连续的词组成的子序列。拿我们的数据集来讲,N元语法指的是每条消息里一组连续的词。N元语法的计算方法跟计算单个词语方法相同,我们把构成N元语法的几个词看成是词袋中的一个词。数据集中每一项就变成了N元语法在给定文档中的词频。理论前提F1 值评估 F1值是以每个类别为基础进行定义的,包括两大概念:准确率(precision)和召回率(recall)。 准确率是指预测结果属于某一类的个体,实际属于该类的比例。召回率是指被正确预测为某个类别的个体数量与数据集中该类别个体总量的比例。 计算出准确率和召回率后,就能得到F1值,它是两者的调和平均数。实验准备文本挖掘的一个难点来自于歧义,消除歧义常被简称为消歧。我们实验的目的是根据消息的内容,判断消息中的Python是不是指编程语言可以翻墙下载Cmd -python -import nltk -nltk.download(punkt)---------------------或将相应的文件【附件中】解压放在下面的任一路径中(部分需要自己创建文件夹)-?‘C:\\Users\\自己用户名/nltk_data-?C:\\nltk_data-?D:\\nltk_data-?E:\\nltk_data‘-?C:\\Program?Files?(x86)\\Microsoft?Visual?Studio\\Shared\\Anaconda3_64\\nltk_data?-?C:\\Program?Files?(x86)\\Microsoft?Visual?Studio\\Shared\\Anaconda3_64\\share\\nltk_data?-?C:\\Program?Files?(x86)\\Microsoft?Visual?Studio\\Shared\\Anaconda3_64\\lib\\nltk_data?-?C:\\Users\\自己用户名\\AppData\\Roaming\\nltk_data实验数据:本次实验的数据已以JSON格式提供或有兴趣同学可以自行下载(详情后面两页ppt)相关Python库:(下载 cmd-pip install 对应第三方库名 或通过ide下载)Jsonnltk (还需要下载punkt)Numpy Sklearn 从社交网站下载数据import twitterconsumer_key = Your Consumer Key Hereconsumer_secret = Your Consumer Secret Hereaccess_token = Your Access Token Hereaccess_token_secret = Your Access Token Secret Hereauthorization = twitter.OAuth(access_token, access_token_secret,consumer_key, consumer_secret)从Twitter网站下载一些语料,从中剔除垃圾信息后,用于分类任务。Twitter提供了从他们服务器采集信息的强大API,小规模使用免费。登录后,访问/,点击Create New App(创建新应用)。指定新应用的名称,填好描述及要在哪个网站中使用。如果不打算在网站中使用,请在Website文本框中随意输入些内容,确保提交时表单能通过验证。Callback URL文本框空着不填——我们用不到。在下面的开发者协议处选中Yes, I agree前面的复选框(如果你确实同意),点击Create your Twitter application。 接下来,我么需要相关库来
您可能关注的文档
最近下载
- 基于超声波测距的倒车雷达设计.doc VIP
- 非遗竹编 少儿美术课件.pptx VIP
- “因果”与“逻辑”——读维特根斯坦《逻辑哲学论》关于“因果律”的命题有感.pdf VIP
- 2025年川菜及口味趋势报告.pptx VIP
- CAAC无人机理论复习测试带答案(必威体育精装版).docx VIP
- 11-小动物,“乐陶陶” 二年级劳动下册(人民版).docx VIP
- PacDrive控制器C400_C600故障代码查询.pdf VIP
- 会计电算化讲义(127页).doc VIP
- 设备使用说明书ups说明书liebert exm ups 80kva-200kva-用户手册_v1 2.pdf
- 年产5000吨塑料颗粒、1.2亿米滴灌带生产线建设项目环境应急资源调查报告.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)