- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、国外研究现状 三、主要研究内容及创新点 三、主要研究内容及创新点 3.2 基于关键词组的SLCC构建 3.2 基于关键词组的SLCC构建 事件:(暖气,不热)→长春市供热办公室 地点:(星宇花园)→市供热办的下属分管该区域的部门 事件+地点:(暖气,不热,星宇花园)→吉达热力 3.3 模糊词典构建 其中“造假”代表表名称,是这一组同义词中出现频 率最高的那个词; 0.65,0.65,0.80分别代表同义词两两之间的相关度; 词之间的相关度越大说明两个词的意思越接近,相关度 最大时说明 3.3 模糊词典构建 基于统计的方法建立模糊词典 3.3 模糊词典构建 3.4 文本分类的关键技术研究 研究内容小结 完成的工作: 面向投诉领域构建了基于关键词组的分类体系库。对“类别”和“关键词组”的形式化描述、存储形式进行深入研究。(创新点) 为了提高词典的分词效率,对词典中词条的同义词进行扩展,建立了模糊词典。 (创新点) 研究了适合本系统的最大匹配分词法和KNN分类算法。 本文观看结束!!! * 中文文本投诉信息自动分类系统研究 汇报内容 国内外研究现状与问题 1 选题背景及意义 2 论文发表情况 4 主要研究内容及创新点 3 一、国外研究现状 Text 1 Tex 2 Text 3 Text 4 文本分类的发展过程 大致可以划分为四个阶段 可行性研究 实验研究 实用性研究 基于因特 网的研究 Lewis提出T标准数据集Reuters22173,并在此数据集上进行了实验测试;Newsgroups语料库;WebKB语料库等。 测试语料库 国外当前流行的文本分类方法有Rocchio法及其变异方法、k近邻法(KNN)、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)、神经网络等。研究表明KNN和SVM是英文文本分类的最好方法。 分类算法 Yang Yiming对各种特征选择算法进行分析比较,讨论了文档频率、信息增益、互信息和CHI等方法,结合KNN分类器,得出信息增益和CHI方法分类效果相对较好的结论,对后来的研究起到了重要的参考作用。 特征项的选择 Salton提出了利用向量空间模型进行文本描述,研究表明,向量空间模型是文本分类系统中语料库的表示形式中性能较好的表示模型。 向量空间模型 一、国内研究现状 周水庚等 采用N-gram信息对文本进行表示,对领域无关性和时间无关性的问题通过该方法得到了实现,由于它没有用到词典和分词,使系统摆脱了对词典和分词的依赖。 李晓黎等 使用概念推理网进行了文本分类的研究。 黄营著等 构造了一个基于机器学习的、独立于语种的文本分类模型。对于不含关键词的子模式,采用Markov模型来对其信号幅度进行估计,在此基础上生成一个待分类文本的特征序列。 胡可云等 用Boosting来组合决策树的方法进行文本分类。 卜东波等 从信息粒度的角度来剖析聚类和分类技术,尝试使用信息粒度原理的框架来统一聚类和分类。 辅助分类阶段 自动分类系统阶段 可行性探讨阶段 一、存在的主要问题 缺少统一的大规模数据集 分词效果不理想 特征提取及文本分类算法的研究不够完整 测试标准不统一 分类器的综合运用 二、选题背景及意义 结合理想信息技 术 研究院的项 目——长春市市长公开电话智能综合服务网络,关于如何对市民发出的投诉信息有效分类的问题进行研究。 系统研究如何运用文本分类方法将投诉信息进行准确地分类,并基于该方法构造一个中文文本投诉信息自动分类系统。 建立起的文本自动分类系统可以代替人工分类,协助政府数字化办公,提高工作效率和减轻人员开支。本文的研究工作对系统的分类效率具有积极作用。 背景 研究目标 意义 类别 匹配 文本表示 若干特征项 对类别进行表示 若干特征项 关键词 关键词组 构建基于关键词组的投诉领域分类体系库 SLCC 同义词扩展 构建模糊词典 提高分词效率 匹配 提高分类准度 待分类文本 自动分词 创新点 2.基于关键词组的SLCC构建 (创新点) 1.文本分类系统的框架设计 3.基于文本分类语料库的模糊词典构建 (创新点) 4.文本分类关键技术研究 3.1 系统框架设计 训练文本 分类结果 分类运算 测试文本 构造分类器 文本 分词 预处理 特征项权重 分类器 特征集合 权值 词库 图1 中文文本分类系统框架设计 训练过程 分类过程 特征项权重 文本 分
您可能关注的文档
- 郑州金水区旧城改造项目发展战略与研究.ppt
- 政府的职能:管理及服务.ppt
- 政府资源的建立及维护.ppt
- 政治经济学及国际关系.ppt
- 政治生活专题二我国的政府.ppt
- 知识管理及知识系统工程.ppt
- 直吹式制粉系统与其优化.ppt
- 直接数字频率合成器(DDS)与其FPGA实现.ppt
- 直接投资的溢出效应及 中国地区经济失衡.ppt
- 直流输电的控制及调节.ppt
- 2025年02月中共南宁市青秀区委网信办招录党建工作指导员1人(广西)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025年02月四川资阳市特种设备监督检验所公开招聘检验检测人员5人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025届中车长春轨道客车股份有限公司校园招聘笔试参考题库附带答案详解.doc
- 2025年02月广西壮族自治区合浦儒艮国家级自然保护区管理中心公开招聘3人(截止至23日)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025年02月泸州仲裁委员会秘书处5名编外工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025年02月宁夏固原市隆德县审计局聘请专业人员辅助审计工作3人(1号)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025中电建(云浮)新材料有限公司招聘1人年薪20万50万笔试参考题库附带答案详解.doc
- 2025年01月云南昆明市生态环境局所属事业单位引进高层次人才1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025中铁快运股份有限公司招聘98人笔试参考题库附带答案详解.doc
- 2025年01月通辽市蒙辽水务有限责任公司公开招聘6人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
最近下载
- 2023年青海省海东地区循化县清水乡招聘社区工作者真题及参考答案详解.docx VIP
- 售电培训课件.pptx VIP
- 脊髓损伤康复临床路径.docx VIP
- 2023年青海省海东地区民和县杏儿乡招聘社区工作者真题参考答案详解.docx VIP
- 2023年青海省海东地区民和县西沟乡招聘社区工作者真题及参考答案详解1套.docx VIP
- 气道净化护理(2023年中华护理学会团体标准).pptx VIP
- 理正软件勘察说明书.doc VIP
- 部编版七年级上册语文《杞人忧天》导学案.pdf VIP
- 2023年青海省海东地区民和县北山乡招聘社区工作者真题及参考答案详解.docx VIP
- 各班护理工作职责.pptx VIP
文档评论(0)