- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
老年人口健康数据分析
老年人口健康数据分析系统
技术研究报告
目 录
第一章 老年人口健康数据分析 3
1.1 数据预处理 3
1.2 C4.5算法分析 7
1.2.1 C4.5算法原理 7
2.2.2 决策树剪枝技术 9
2.2.3 决策树算法流程 10
2.2.4 医学领域中的决策树 11
1.3 数据分析 12
1.3.1 总体数据分析 12
1.3.2 老年人常见病数据分析 13
2.3.3 其他数据分析 17
1.4 小结 18
第二章 系统需求分析 18
2.1 系统需求 18
2.2 功能需求 18
2.3 接口需求 19
2.4 环境需求 19
2.5 性能及可行性分析 19
2.6 术语 20
2.7 小结 20
第三章 系统设计分析 20
3.1 系统架构设计 20
3.2 系统功能模块设计 21
3.3 系统数据库设计 23
3.4 系统界面设计 24
第四章 系统实现及测试 25
4.1 系统概述 25
4.2 数据可视化详细实现 26
4.2.1 主页 26
4.2.2 老年人自测题模块 27
4.2.3 数据可视化模块 29
4.2.4 知识补充模块 31
4.2.5 信息邮件反馈模块 31
4.3 数据可视化测试 32
4.4 小结 32
第一章 老年人口健康数据分析
将数据挖掘技术更好的应用于公共健康领域要做出很多努力:首先,数据的数量和质量至关重要,大量数据采集自动化可以很好地解决这个问题;其次数据需要进行预处理(如清洗、提炼等)以得到高质量数据,并和相关计算工具和算法相匹配;然后,需要根据数据的特点和分析目的,确定最优工具和最优算法,并且不断的调整算法的参数,不断训练和测试,最终得到最优结果,通常需要多种算法相结合来完成;最后,数据可视化尤为重要,通过适当美观的方式展示计算结果,完成机器与用户的沟通,只有计算结果得到应用,才能说明前面数据挖掘的整个过程是有意义的。
本章从数据预处理、C4.5决策树算法和数据可视化三个方面来分析所得的老年人口健康数据。
一般情况下,研究得到的数据都具有不同程度的不完整性。如果直接使用这些数据进行挖掘,那么会出现很多偏离结论的噪声数据,很大程度的影响了挖掘结果的表现。为了避免这种情况发生,通常都要首先进行数据预处理(data preprocessing)[11]。数据预处理就是对数据的清理、缺失值的补充、删除、最后进行集成等。进行了数据预处理后再进行计算,会得到事半功倍的效果。
数据预处理有多种方法:数据清理、集成,数据变换、规约等。使用这些方法处理数据,可以很大程度的提高数据挖掘的质量,并降低挖掘所需要的时间。
数据清理通过补充缺失值、光滑噪声数据、识别离群点等,来清理数据,使数据最终达到格式标准化,纠正错误,清楚重复和异常的数据。
数据集成即为建立数据仓库的过程,就是将数据源中的数据结合起来后统一储存。
数据变换,通过数据规范化、平滑聚集此类方式,将数据转换为合适挖掘之形式[29]。
数据规约即将数据集规约表示,它比规约之前的数据集小得多,但仍然接近原数据的完整性,最主要的是,它与规约前的结果几乎相同。在挖掘中如果遇到数据量很大的情况,可以使用数据规约方法。
数据挖掘中,存在着很多不确定不稳定因素,数据预处理之后,数据挖掘可以更清晰的找到挖掘结果[12]。
本研究可供处理的数据有:全国分性别、城乡镇、健康状况的60岁及以上老年人口数据集;多个省市的重点人口健康调研报告。数据中有很多无关项,并且有部分不一致不完整的脏数据,无法直接进行数据挖掘。
图1-1、1-2、1-3是多省市健康调查问卷。问卷共分5部分,本研究提取了其中前三个部分进行数据的整理和挖掘。这三部分分别是:基本信息、生活方式、患病史。
1-1 健康调查问卷-基本信息
图1-2 健康调查问卷-生活习惯
图1-3 健康调查问卷-疾病史
原始数据是以调查问卷和excel表格的形式给出的,无法直接导入数据处理软件。首先要对数据进行添加属性等操作,加入SPSS。数据的结果在储存在SPSS中,如图1-4、1-5所示。
1-4 SPSS数据处理图
图1-5 SPSS数据处理图
调查问卷得到的原数据中有不同地区共近万条数据,613个数据项。其中包括了疾病状况、生活方式等一系列资料。
首先进行老年人筛选。根据世界人口组织对老年人年龄的定义,我们选择年龄在60岁及以上的人,作为老年人群体。然后删除掉姓名、筛查日期等于健康状况基本无关的信息。由于各省市不同,老年人生活习惯也不同,因此本研究没有将不同省市的数据进行整合,而选择分别处理,将最后生成的决策树进行统一集成。
数据中整个F序列都是关于饮食方面的,在这个序列中主要采集的儿童数据,老年人的数据大多都是空白项,此处
您可能关注的文档
最近下载
- 跨学科主题作业设计.docx
- 2023年北京首都师大附中英语九上期末质量检测模拟试题含解析.doc VIP
- 第18课《我的白鸽》习题教学设计-2024-2025学年统编版语文七年级上册(2024).docx
- 5.1质量守恒定律-九年级化学人教版(2024)上册.pptx
- 2024如何高质量开好“经营分析会”培训课件分享.pdf
- AP宏观经济学 2010年真题 (选择题+问答题) AP Macroeconomics 2010 Released Exam and Answers (MCQ+FRQ).pdf VIP
- AP微观经济学 2010年真题 (选择题+问答题) AP Microeconomics 2010 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 高中数学单元教学设计(9篇).docx VIP
- 16BJ7-1 楼梯平台栏杆及扶手.pdf
- 多维阅读第9级A-Bag-in-the-Jungle-公开课课件.pptx
文档评论(0)