基于企业社会责任报告的创新性研究-周辉-2018.01.05.pptx

基于企业社会责任报告的创新性研究-周辉-2018.01.05.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于企业社会责任报告的创新性研究-周辉-2018.01.05

基于企业社会责任报告的 创新性研究 报告人: 周辉 01 基本内容简介 02 具体报告分析 01 基本内容简介 01 文本相似性检测 文本相似性检测作为组织和管理海量信息的基础性工作,对于信息检索、文本聚类和分类、机器翻译等计算结果的优劣具有深远影响,在智能有哪些信誉好的足球投注网站、违规词汇过滤、文档检测、智能数字图书馆等领域,都有着广泛的应用前景。文本相似性检测技术按时间顺序经历了词汇相似、句子相似和文本相似的研究发展历程,目前有词汇之间、词句之间、词文之间、句子之间、句文之间、文本之间六种相似性检测方式,每种检测方式都有其特定的应用领域。 01 文本相似性检测 词汇相似主要应用在机器翻译等领域; 词句之间、句文之间和词文之间的相似性度量主要用在信息检索等领域; 句子之间的相似大多应用在自动答疑系统的研发领域; 文本之间相似性检测的应用方向主要集中在文本的分类和聚类等研究开发领域。 01 文本相似性检测 文本相似性检测的实质就是通过对一组或多组文本对象进行特征提取,建立特定的文本表示模型,采用数字化方式衡量文本间的相似程度。假设有文档A和文档B,则文档A和B的相似度就用A和B中相同文本的字数占各自文本字数的百分比来表示,这个数介于0和1之间。而不同的文本也有不同的检测方式。 01 文本相似性检测 在英文文本的相似性检测中,因英语语言特点,所有英文单词由26个英文字母构成,且近义单词数量有限,句法相对简单,复合句多由诸如“that, what, where”等单词引导,词语之间也以空格为间隔标识,便于文本特征的提取和相似计算处理; 01 文本相似性检测 中文的相似性检测相比英文文本处理则复杂得多,汉语言句法结构复杂,语义的过渡无明显标识,汉字的不同组合会产生不同的意义,如“中国人”在中文信息处理中可分为名词“中”、“中国”和“中国人”三个词,词义具有本质的差别,词语的鉴别需要借助整句语义或上下文环境。所以,中文文本数据的相似性判定需要考虑汉语言的语法、句法、语义特点,能够较为准确的将文本内容分割成符合主题思想的词条集合,是保证计算机能够模拟人类理解效果的基础所在。 01 文本相似性检测 不同的中文分词算法决定了不同的相似性检测手段,最终得到的判定结果一般也会有差异。文本相似性检测方法的优劣标准除了要求算法具有高效性和准确性两大特点,还要求算法能够分析自然语言的角度处理文本数据,让计算机理解文本主题思想和作者要表达的意图,并以此给出比较结果,达到近似人工阅读时的相似度区分效果。 01 文本相似性检测 文本的相似性检测研究主要意义在于,如何利用更加准确和高效的检测算法,有效度量文本数据之间的相似程度,将不同类别、不同规模的文本数据区分开来。相似性检测的发展能够为后文本挖掘时期的科研应用提供理论基础,尤其是对分类检索这类文本挖掘拓展领域具有决定性的影响。 01 文本相似性检测 文本相似性检测研究意义主要体现在以下几个方面: (1) 使计算机从人类语言的角度理解处理文本,为中文信息处理的各种应用开发奠定理论基础。充分发挥计算机处理数据的高效性,通过度量文本相似性,快速实现模拟人工处理文本数据的效果,协助人类开展更为复杂的文本研究工作。 (2) 提升需求信息的检索速度,目前诸如各种信息有哪些信誉好的足球投注网站系统和各大论坛、网络社区使用的文本过滤系统大多数停留在简单的字数串匹配技术上,使信息的查询效率十分低下,需要引入先进的文本相似性检测方法,实现信息的高速查询效果。 (3)提高信息查询相关资料的全面性。当我们进行信息检索时,通过文本相似度的计算,可以将最符合检索条件的检索结果展现在用户面前,同时根据检索条件的不同重排结果顺序。百度、谷歌、雅虎等有哪些信誉好的足球投注网站引擎的快速发展,充分说明了信息检索领域的巨大市场前景和发展空间。 01 文本相似性检测 文档查重是文本相似性判别研究的一个重要应用领域,能否精确的检测判定文本抄袭程度己经成为评价判别方法优劣的重要指标。Turnitin的OriginalityCheck平台的数据库涵盖了240亿万的网页资料、2.5亿万份的学生论文及数以万计书记文章,能够快速得出文章的相似度指标,并给出原作出处,但该平台仅限于英文文档检测。   01 文本相似性检测 相比之下,国内学者对中文文本相似性计算的研究起步虽晚,但发展迅速。 1999年潘谦红、王炬等人提出提取文本的基本属性建立文本属性重心剖分模型,利用坐标点距离计算关键词之间的相似性,利用单纯形计算文本之间的相似性。 2002年刘群、李素建等人研究了知网的多维知识表示模型后,提取词条的相似语义构成相似语义树,计算树节点之间的距离得出词条之间的语义距离,将语义距离作为度量两个词条是否相似的标准。 车万翔等人使用知网和《同义词词林》作为语义资源,提出采用改进编辑距离的句子相似度计算方法,利用多

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档