木棉分类队:朱旭圻队长、李嘉林、曹鸿、农双、刘鹏飞.pptVIP

木棉分类队:朱旭圻队长、李嘉林、曹鸿、农双、刘鹏飞.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
木棉分类队:朱旭圻队长、李嘉林、曹鸿、农双、刘鹏飞

木棉分类队:朱旭圻(队长)、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 xqzhu@scut.edu.cn 目录 系统模型 技术平台 实现方案 未来展望 系统模型 技术平台 开源分类软件RAINBOW 中科院的开源中文分词系统ICTCLAS 开源分类软件SVMlight 网页转换器与网页预处理器 运行监控器 实现方案说明 数据源 网页转换 预处理 中文分词 特征选择 分类系统 数据源 网页转换 预处理 中文分词 系统模型说明-中文 特征选择 特征选择图 特征选择 按照IG(信息增益)来计算,取IG较大的前63400(全部约81000)个 63400个特征项=中文36531个+26713个其他词 中文36531个=34505个名词+1895个动名词+131个形容词名词 特征选择 信息增益最大的前20位 分类系统 系统模型说明-分类系统 分类系统 出错处理与结果效验 系统模型说明-出错处理与结果效验 存在的问题 谢谢各位来宾! 华南木棉中文网页分类器 CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。 CWT1G 预处理 WEB BENCH 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 出错处理 00 88 结果效验 。。 CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。。。 CWT1G 预处理 WEB BENCH 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 。。 出错处理 00 88 。。 结果效验 CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。。。 CWT1G 预处理 训练集 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 。。 出错处理 00 88 。。 结果效验 完成URL和DOCID的转换 WEB BENCH CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。。。 CWT1G 预处理 训练集 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 。。 出错处理 00 88 。。 结果效验 WEB BENCH 预处理,就是去掉网页的标签。只保留内容块。 预处理后,CWT100G剩余的网页大小约21.83G。约占原来的24.26%,提高后面的分类速度和精度。 训练集在进行中文分词后也经过stemming处理 预处理 CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。。。 CWT1G 预处理 训练集 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 。。 出错处理 00 88 。。 结果效验 WEB BENCH 中文分词 Rainbow嵌入ICTCLAS,形成一个完整的中文网页分类系统。 中文分词使用开源中文分词系统ICTCLAS,只保留名词(n,an,vn)。 训练集在进行中文分词后也经过stemming处理 Rainbow的禁止词是SMART system 的524个,我们进行扩充达到1500个。 CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。。。 CWT1G 预处理 训练集 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 。。 出错处理 00 88 。。 结果效验 WEB BENCH 疾病/n 临床/vn 患者/n 症状/n 药物/n 病人/n 研究/vn 应用/vn 细胞/n 医院/n 企业/n 数据/n 经济/n 比赛/vn 医学/n 功能/n 皮肤/n 系统/n 免疫/vn 国家/n CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。。。 CWT1G 预处理 训练集 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 。。 出错处理 00 88 。。 结果效验 WEB BENCH 分类系统 Rainbow NB Rainbow SVM SVMlight CWT100G 网页转换 单个网页集合 00 01 02 03 87 88 。。。。 CWT1G 预处理 训练集 预处理 中文分词 特征选择 中文分词 特征压缩 分类系统 CCT100G 00 88 。。 出错处理 00 88 。。 结果效验 WEB BENCH 出错处理与结果效验 天网数据有一些是多媒体数据,往往导致系统出错,所以进行错误处理。 把已经分好类的文件移走,导致出错的文件也移走。

文档评论(0)

lifupingb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档