文本预处理与特征选择.docx

下载文档

1
0
约2.99千字
约 5页
2018-05-24 发布于浙江
举报
版权申诉
保障服务

文本预处理与特征选择.docx

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本预处理与特征选择

我们运用爬虫在网页上抓取文本数据，经过文本切分得出1000个中文文本。由于爬下来的文本中有很多html的标签，因此首先我们要去除这些非文本的内容。接下来，我们就要进行真正的文本预处理。文本预处理文本分词——中文分词中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，中文分词是文本挖掘的基础。中文分词所要解决的关键问题就是通用词表和切分规范、切分歧义和登录词识别（人名、地名等），中文分词方法可以大致分为3类：1.1机械分词方法机械分词方法又叫作基于字符串匹配的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机械词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。目前机械分词有三种方法：正向最大匹配法（由左到右）逆向最大匹配法（由右到左）最少切分（使每一句中切出的词数最小）主要过程：“我要去南京师范大学”。对于这句话，运用正向最大匹配法。首先，“最大”是指我们每次都取最大词长进行匹配。假设词典中最长次长度为4，从左向右取4个字就是“我要去南”，然后与词典中的词条进行匹配，显然词典中没有这个词，我们将最后一个字去掉变成“我要去”，同样再到词典中进行匹配，一直到“我”匹配成功，就可以将句子切分开：“我/要去南”。接下俩从下一个字继续取4个字“要去南京”作为一个词到词典中进行匹配，重复上述步骤，就可以将整个句子切分为：“我/要/去/南京/师范大学”。由此我们也可以类推出逆向最大匹配法。切出来的句子为：“我/要/去/南京/师范大学”。缺点：长度限制最大匹配法必须要先设定一个最长词长进行匹配。若词长过短，长词会被切错，比如词长为5，“中华人民共和国”这样7词长的词就会被错切；若词长过长，效率会较低，假设最大词长为100，我们必须将词从100开始一直往下匹配到要找到所要查的词，这意味着要有很大的工作量。掩盖分词歧义中文的句子构成成分很复杂，所以正向匹配和逆向匹配会出现结果不同的情况。比如“有意见分歧”正向最大匹配：“有意/见/分歧”逆向最大匹配：“有/意见/分歧”最大匹配的不一定是想要的分词方式机械分词基于找到最大的匹配词，但有时候除了最大词外，我们想要的只是这个词的一部分。1.2基于统计分词方法基于统计分词方法就是先切分出与词表匹配的所有可能的词，然后运用统计语言模型和决策算法来决定最优的切分结果。主要步骤：获取候选词—构造前趋词—寻找最佳前趋词—确定最优路径缺点：不能解决交集型和组合型歧义问题。1.3基于规则和基于统计相结合的方法我们选择的中文分词方法是机械分词方法。过滤虚词过滤掉文本中一些没有意义的虚词和标点符号同义词合并特征选择卡方检验（CHI）卡方检验是以X^2分布为基础的一种常用假设检验方法，它的无效假设H0是观察频数与期望频数没有差别（有效假设为H1，即两者之间有差别）。公式：主要思想：X^2指实际值与理论值的差异，A为实际值，T为理论值。首先假设H0成立，基于此前提计算出x^2的值。x^2值越小，观察频数与期望频数之间差别越小，H0成立；反之H1成立。主要过程：例：选取一堆新闻标题，标题中含有吴亦凡的与该条新闻属于娱乐新闻是否有关。观察值：属于娱乐新闻不属于娱乐新闻合计不包含吴亦凡203252包含吴亦凡361248合计5644100首先假设标题是否含有吴亦凡和新闻是否是娱乐新闻是无关的（无关性假设H0）。随机抽取一条标题，是娱乐新闻的概率为：P=56/100=56%根据无关性假设H0生成期望的表格期望值：属于娱乐新闻不属于娱乐新闻合计不包含吴亦凡52*0.56=29.1252*0.44=22.8852包含吴亦凡48*0.56=26.8848*0.44=21.1248如果两个变量无关，那么实际值与理论值的差异会很小，即无关性假设H0成立。根据公式可以算出：X^2=（20-29.12）^2/29.12+（32-22.88）^2／22.88+（36-26.88）^2/26.88+（12-21.12）^2/21.12=12.93得出卡方值为12.93。确定自由度为（2-1）（2-1）=1，选择显著水平α=0.05，利用Excel提供的CHIINV函数计算显著水平为0.05，自由度为1卡方分布的临界值，将临界值与统计值x^2比较，若统计值小于临界值，则H0成立，反之不成立。缺点：卡方检验只统计了是否包含或者是否存在，对包含或存在的次数没有要求，尽管有些词条在文本中出现，但是由于该词条出现次数少，不能代表这类文本的特征。信息增益（IG）信息增益指在某一个确定的条件下，信息的不确定性减少的程度。信息增益=熵-条件熵（熵：随机变量的不确定性，条件熵：在某一个条件下，随机变量的不确定性）主要思想：对于一个特征条件t，系统在有它和没有它的情况下信息量是多少，两者的差