- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本关键词提取(TFIDF和TextRank)概要
基于关键词提取的TFIDF和TextRank方法的对比研究
题目:开发一个程序,在该程序中,允许输入一段文本(以界面或者文件输入方式均可),该程序自动抽取出包含的关键词,并按照关键词的权重由高到低排序后输出。
完成日期:2016.06.05
需求分析
以文本的形式读入数据,将每个单词抽象成一棵树,将单词与单词之间的关系抽象为图。
TFIDF算法部分以EXCEL形式将所有数据输出,TextRank算法部分直接以窗口形式输出排名前十位的数据。
本程序的目的是在提取文本关键词的同时,比较TFDIF和TextRank算法的准确性和性能方面的差异。
测试数据(附后)。
概要设计
抽象数据类型映射树定义如下:
ADT Map {
数据对象ID:ID是类型为char的元素集合,即为一个单词中的单个字
符,称为字符集。
数据对象val:val是类型为double或int的元素集合,为每个单词对应
的 TF值或IDF值,称为频率集。
数据对象is_end:is_end是类型为bool的元素集合,判断当前子结点是
否为单词末尾
数据关系 R :
R = { IDVal }
IDVal = { word– num| word ∈ ID,num ∈ val,表示从word到num之间的一一映射}
运算符重载:
下标运算符 [] : 运算对象为string值,返回对应string值的子 树所代表的val值。
算术运算符 =:运算对象为double或int值,等式左值的val值替换为等式右值,并返回当前子树。
算术运算符 +-*/ : 运算对象为double或int值,对其val值进行运算,并返回当前子树。
相等运算符 ==和!= : 运算对象为val值,判断其val值是否相等,返回对应的bool值。
基本操作:
InitMap (T);
操作结果:构造空树。
DestroyMap (T);
初始条件:树T存在。
操作结果:构造空树。
CreateMap (T, word);
初始条件:树T存在且word为string值。
操作结果:按照word的字符顺序自上而下遍历,如果有字符结点未创造,则构造新子结点,直到字符结束。
MapEmpty (T);
初始条件:树T存在。
操作结果:若T为空树,则返回True,否则False。
MapDepth (T);
初始条件:树T存在。
操作结果:返回树的深度。
Root (T);
初始条件:树T存在。
操作结果:返回T的根。
Value (T, value);
初始条件:树T存在,value为T中某个结点的值。
操作结果:返回value的值。
Assign (T, word, value);
初始条件:树T存在,且word结点也存在。
操作结果:结点word的value值替换为当前value。
Parent (T, word);
初始条件:树T存在,且word结点也存在。
操作结果:返回word结点的双亲。
InsertWord (T, word);
初始条件:树T存在。
操作结果:往树加入word值,并将其value值默认初始化。
DeleteChild (T, word);
初始条件:树T存在,且word结点也存在。
操作结果:将word对应子节点的is_end值改为false。
TraverseMap (T, visit() );
初始条件:树T存在,visit是对结点操作的应用函数。
操作结果:按某种次序对T的每个结点调用visit一次且至多一次。一旦visit失败,则操作失败。
}ADT Map
抽象数据类型图定义如下
ADT?Graph {?
数据对象n:n是具有相同特征的数据元素集合,称为顶点集。?
数据关系:DR = { v, w | v, w ∈ n且 v, w 表示从v指向w的
弧 }?
基本操作:?
CreateGraph (G,?V, VR)?;
初始条件:V是图的顶点集,VR是图中弧的集合?
操作结果:按V和VR的定义构造图G
DestroyGraph (G);
初始条件:图G存在?
操作结果:销毁图G?
LocateVex (G,?u);
初始条件:图G已存在,u和G中顶点有相同特征?
操作结果:若G中存在顶点u,则返回该顶点在图中位置,
否则返回其它信息?
GetVex (G,?v);?
初始条件:图G存在,v是G中某个顶点?
操作结果:返回v的值?
PutVex (G,?v,?value);?
初始条件:图G存在,v是G中某个顶点?
操作结果:对v赋值value?
FirstAdjVex (G,?v);
初始条件:图G存在,v是G中某个顶点?
操作结果:返回v的第一个邻接顶点。若顶
您可能关注的文档
- 文件济南市历城区万象新天学校办公家具办公家具、电子设备、空调采购.doc
- 文件管理系统开发案例new.ppt
- 文件系统实验3-另一份参考源码.doc
- 文件流转系统演示文稿.ppt
- 文似看山不喜平_叙事贵曲.ppt
- 文化主观题.doc
- 整车内外饰-常用材料最详细分解概要.ppt
- 文化生活复习__全书知识点概要.ppt
- 文化建设方面的概要.ppt
- 第八周外科感染资料.ppt
- 多点监督与特征融合校准:目标检测算法的创新与突破.docx
- 南宁市门诊HIV_AIDS患者抑郁状况剖析与影响因素探究.docx
- 医疗过失犯罪中客观归责理论的精准适用与深度解析.docx
- 南宁市低碳经济发展研究.docx
- 清解瘀毒胶囊对脑出血大鼠血红蛋白毒性作用及机制探究.docx
- 内蒙古赤峰市元宝山区农村小学教师培训:现状、问题与突破路径.docx
- 泉州开发区国有资产投资经营有限公司发展战略研究:基于区域经济与市场环境的分析.docx
- 能源利用效率与经济增长方式的深度耦合及中国战略抉择.docx
- 分布式信号波达方向 - 时延联合估计算法的深度剖析与创新探索.docx
- 新媒体环境下大学校园精神传播的创新变革.docx
最近下载
- 临床思维能力的培养与提高PPT讲解课件.ppt VIP
- 运用PDCA降低留置尿管相关尿路感染.pptx VIP
- 课题申报书:数智时代生成式人工智能赋能高等教育教学研究.docx VIP
- 初中生语文新课标必读模拟训练.doc VIP
- 消化道穿孔术后的护理查房.pptx VIP
- 佳能 5D3 _ 5d mark iii-中文手册.pdf VIP
- 儿童读物 神奇树屋 30 - Haunted Castle on Hallows Eve.doc VIP
- 《宁夏闽宁镇:昔日干沙滩,今日金沙滩》-中职语文高二同步课件精选(高教版2023·职业模块).pptx VIP
- 红楼梦.ppt VIP
- 消化道穿孔术后护理查房.pptx VIP
文档评论(0)