- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ICS 35.020L79SJ备案号:中华人民共和国电子行业标准SJ/T11615.3—2016网络数据采集分析软件规范第3部分:信息识别Specification for network data collection and analysis softwarePart 3: Information identification2016-03-01实施2016-01-15发布S.发布中华人民共和国工业和信息化部
SJ/T11615.3—2016前言SJ/T11615《网络数据采集分析软件规范》系列标准分为4个部分:第1部分:框架;第2部分:数据格式描述;第3部分:信息识别;第4部分:服务要求。ND本部分为SJ/T11615的第3部分“根准的结构和编写》给出的规则起草。本部分按照GB/T12009《标准化工作导则第1部分!本部分由工业和信息化部软件服务业司提出。本部分由全国信息技术标准化技术委员会归口。福草单发本部分起上海#机软件技术发中心、中国电术标准化研究院北京拓尔思信息技大方正公司、术股份有限司手微趣网络科技有联网信息办公室、厦.-2十算机与信息工门理工学院院。CHNOLOGY本部分主要起草人:命、振宇、胡芸、王洪俊卢海英都云程、许良奇、杨杨瑛、崔建峰、建武NVSRDV
SJ/T11615.3—2016网络数据采集分析软件规范第3部分:信息识别1范围SJ/T11615的本部分规定了网络数据采集与分析软件中分析模块信息识别部分的具体要求。注:本部分所界定的网络数据指互联网上由网民参与创造与传播的数据,可包括:新闻及评论、论坛、博客、微博以及电子商务数据。本部分适用于互联网数据采集和分析软件的开发商信息化建设单位、最终用户、第三方监理或者用以推在网络数据采集务就R的设计质量保障单位、评测单位等,开发、运行和维护等各个阶段MATIONNDUSTRY的相关工作。2规范性引用文下列文件半对于本受件的应用是必不可少凡是注日期的文件,仪注日期的版本适用于本文件。用文PTECHNOLOGY日期的引用文件,凡是不注日游于本文化新版本(包所有的修改单)用信通用多八位编码字符集(UCS)GB13000GB18030信息特集YSJ/T11615网络数据采第1部分:分析软R3术语和定、SSJ/T11615界定的术语和定适用于本文件。V24信息识别概述者从一定的目的出发,运用已有的知识信息识别是信息接收者对信息的真伪性、有用性进行和经验辨认与甄别的过程。信息识别应包信息加息抽合模块。5信息抽取5.1抽取要求信息抽取的要求如下:a)应支持结构化、半结构化、非结构化的数据源;b)单机应支持GB~TB级数据管理,集群应支持TB级的海量数据管理;c)应支持采集内容的自动排版;d)应支持自动排重功能;应支持GB18030—2005强制部分,并应与GB13000—2010相关内容建立映射关系;e)f)应支持中英文字词混合输入。5.2特征识别1
SJ/T11615.3—2016特征识别应支持从互联网不断更新的信息中发现一定时期高频出现的短语,比如人名、地名、机构名和其他常见短语。支持按领域执行热词识别。示例:领域的一种分类方法可分为政治、经济、军事、娱乐、体育、卫生、科技、社会生活。对特征热度的计算应考虑两个方面:a)词语出现的频率信息。词语出现频率越高,热度越高;b)历史波动信息。词语近期出现频率上升曲线越陡,热度越高。特征识别的要求如下:a)待识别的文本可包括标题、信息文本内容的属性等要素;b)应提供识别实体短语和非实体短语的功能;示例:实体短语包括人名、地名、机构名等短语串。非实体短语包括除了人名、地名、机构名的其他短语串,主要是名词和动词短语串。c)应提供选择实体短语识别的方法,识别方法应加以标示;注:识别方法可包括隐马尔科夫模型、条件随机场等计算模型。d)应提供选择非实体短语识别的方法,识别方法应加以标示;注:识别方法可包括高频字符串识别算法,指基于字符串出现频率等特征进行高频串的识别及其串频统计。e)应对候选实体短语和非实体短语串进行热度权值计算,短语的热度权值可包括两个部分:基础权值和波动权值。注1:基础权值的影响因素可包括标题出现频率、正文出现频率;波动权值的影响因素可包括短期基础权值变化频率、中期基础权值变化频率和长期基础权值变化频率。注2:短期频率与长期频率比值越高,则波动权值越高。注3:判断热词看重的是该词的新颖程度,最终的历史波动权值越高,则新颖度越高,更符合热点特征的含义。6数据整合6.1文本分类文本分类的要求如下:a)应事先确立类别的分类体系,分类体系一旦被确定,则不应改变;b)一篇文档可被归为多个类别;文本分类宜采用下列方法评价:a)分类状态得分:用于描述将内容归于某个类别下有多大的可信度。b)准确率:在所有被判断为正确的内容中,有
您可能关注的文档
- QB_T 2727-2017皮革 色牢度试验 耐人造光色牢度:氙弧.pdf
- SN_T 3947-2014化学品 鸟类急性经口毒性试验.pdf
- SJ 10675-2002电子及电器工业用二氧化硅微粉.pdf
- SN_T 3618.2-2013塑胶材料中苯乙酮的测定 第2部分:气相色谱-质谱联用法.pdf
- QB_T 1295-2013家用和类似用途制冷器具用门封磁条.pdf
- QC_T 66-2014摩托车和轻便摩托车湿式离合器.pdf
- SN_T 3278-2012风信子黄腐病菌检疫鉴定方法.pdf
- SN_T 2901-2011出口食品接触材料 纸和纸制品 荧光增白剂的测定 液相色谱法.pdf
- SN 1169-2002猴沙门氏菌检验操作规程.pdf
- WS 178-1999日用陶瓷中天然放射性物质的豁免.pdf
文档评论(0)