- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在员工网络招聘中应用研究
数据挖掘在员工网络招聘中应用研究
[摘 要] 本文首先对简历原始数据进行预处理,然后采用数据挖掘技术中的决策树算法和神经网络算法,在Clementine软件中对处理后的数据进行挖掘,以提取被企业接收面试的简历的共同特征,为日后的网络简历处理提供一定的依据。此外,本文对数据挖掘算法的优劣性与挖掘准确性进行了比较。
[ 关键词 ] 招聘 人力资源管理 数据挖掘 决策树 神经网络
一、引言
随着计算机和网络的迅速发展和普及,网络招聘正日益成为用人单位招聘人才的一种重要方式,招聘者们越来越
希望通过计算机技术协助人力资源管理来处理电子简历的评价及筛选,提升整个人力资源管理的效率。数据挖掘技术,是解决这一问题的较好方法。
本文将数据挖掘技术运用于网络电子简历的筛选,并比较了决策树与神经网络两种算法的优劣。
二、网络简历样本的获取与预处理
1.简历样本的获取
本文从某人才招聘网站数据库获得简历数据,选取十个热门的岗位(会计、销售工程师、卫生医疗、纺织服装设计、司机、建筑/结构工程师管理人员、美术/图形设计、市场经理、行政/人事人员),每个岗位中抽取50个招聘职位,每个职位抽取20份简历信息,每一份简历及其相应的招聘职位要求构成一个样本。其中10份为企业通过招聘网站发出面试通知的简历(简称A类样本),另外10份为没有被企业通知面试的简历(简称B类样本)。
2.简历样本的预处理
考虑到本研究的挖掘目的,本文选取了以下几个应聘者的属性与招聘公司的需求进行匹配,在对数据进行处理后,再应用到数据挖掘工作中。所选择的属性都需要将招聘企业的要求和应聘者的信息相匹配,再进行数据的处理。选择的输入属性是:性别、年龄、籍贯、学历、婚姻状况、工作年限、政治面貌、毕业院校、计算机水平、专业、工作经验,输出属性是:是否被接受面试。
由于原始数据库中的数据存在着各种各样现实中不可避免的缺陷,下面将根据所选择的属性分别详述对简历数据所进行的预处理。
(1)性别(R_Sex):不需要复杂的处理。
(2)年龄(R_Age):本文将应聘者划分为三个年龄段:a.小于或???于三十岁;b.三十到五十岁;c.五十岁以上,修改后的数据变为“=50”。
(3)婚姻状况(R_Married):婚姻状况仅仅分为已婚和单身,因此将数据修改前的FALSE改为单身,TRUE改为已婚。
(4)籍贯(R_Place):本文在预处理中,将籍贯与招聘单位所在省份一致的应聘者籍贯取1,其余的为0。
(5)工作年限(R_WorkYear):本文将应聘者按照工作年限的长短来划分,修改后数据分别变为“=10”。
(6)学历(R_Education):大致分为博士后、博士、硕士、本科、大专、高中/中专六类,通过观察发现这一属性中存在一些空缺值,因此对这一属性的处理仅仅是把空缺值清除。
(7)政治面貌(R_Political):本文将是党员的不做修改,将其他表述一概改为其他。
(8)毕业院校(R_School):本文将应聘者的学校分为五类,并收集了大学的排名和院校名称,211重点大学取为1,一般重点大学为2,一般本科院校为3,其他专科和民办院校为4,海外大学为0。
(9)专业(R_Specialty):本文将企业对专业的要求提取出来与应聘者简历中的信息做对比,若两者专业相符合则改为符合,否则改为不符合。
(10)计算机水平(R_ComputerGrade):本研究将初级程序员用等级1代替,中级用2,高级用3,其余的为0。
(11)工作经验(R_Experience):本文提取了招聘者要求中的一些关键字眼与应聘者简历中的描述来做对比,将应聘者的经验划分为三类:有相关经验、有实习经验、无相关经验。
(12)接受(Accept):接受与否属性是数据挖掘中唯一的输出属性,A类样本取作为接受,B类样本取为拒绝。
三、简历筛选的分类算法
本文主要选取了C5.0决策树算法和神经网络算法在数据挖掘软件Clementine中对预处理后的简历样本数据进行分类挖掘。
1. C5.0决策树算法
构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知记录的类别。本文分别抽取了几个岗位中的部分预处理后的数据作为数据挖掘的数据测试集,为决策树算法在招聘简历中的数据挖掘应用做进一步的验证和解释。
首先在Clementine中建立Excel来源节点,导入数据,对其进行读取和处理,使其符合Clementine中的挖掘要求,将数值类型改为读取,在方向列确定输入输出属性。
C5.0算法能产生决策树或规则集,并且在决策树
文档评论(0)