基于呼叫指纹的重入网识别算法研究.docVIP

基于呼叫指纹的重入网识别算法研究.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于呼叫指纹的重入网识别算法研究   摘要:为了有效解决重入网用户运营成本和运营风险“双高”的难题,在采用改进TF-IDF提取用户有效交往圈的基础上,通过加权余弦相似度衡量移动用户呼叫交往圈的匹配程度来判断新入网的用户是否为重入网用户,以此帮助通信运营商有效甄别市场虚增高和用户高流失的现象。经过实验表明,该算法具有较高的识别准确度和识别速度,并具有较好的扩展性。   关键词:呼叫指纹 重入网 改进TF-IDF 匹配度   1 引言   重入网是指移动用户正在使用或者曾经使用一家移动运营商的通信服务,而在短期内又购买所归属的同一移动运营商新号码入网,新号码全部或者部分替代原有旧号码[1]。造成移动用户重入网的原因主要包括:运营商的营销方案偏向于吸引新用户,导致老用户的忠诚度降低;运营商对社会渠道的激励政策偏重于销售佣金,社会渠道通过对部分佣金补贴到新用户的手段来诱导用户重入网。   重入网会造成卡号资源浪费、市场虚增高、用户流失率过高等严重后果,极大程度影响运营商精准营销的战略布局。如何准确有效地识别重入网用户,挖掘用户重入网的原因,进而为运营商提高用户发展的质量和降低运营的成本及风险,是近年来我国移动通信关注的一项新技术。其中,基于呼叫指纹的重入网用户的识别技术是当前的研究主流,这种方法的思路是利用移动用户在使用业务过程中所产生的相关数据,再采用数据挖掘的手段提取其中所隐含的用户特征。因为在实际生活中,每个用户都有自己的独特性,那么用户对手机的使用行为和呼叫对象也应该有鲜明的特征性。目前主要的研究方法包括:利用交往频度和通话次数计算交往圈重合度,进而识别重入网用户[1-2];利用用户交往号码的通话次数、通话时长,建立新老用户的交往圈指纹库,再通过向量的余弦值计算用户语音交往圈指纹相似度来识别重入网用户[3-4];通过改进Hausdorff算法来提高识别重入网用户的精度和速度[5];利用改进TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)的权重来排除公共号码,再通过余弦相似性来判断重入网用户,进而达到提升速度的目的[6]。本文在已有研究的基础上,基于用户的呼叫指纹建立用户的语音交往圈,再采用改进TF-IDF算法提取用户的交往圈,最后通过余弦相似度的算法来计算新老用户的有效交往圈指纹库的匹配度,并根据匹配度的排序来提取重入网用户。   2 重入网识别的思路与相关理论研究   2.1 重入网用户识别   重入网用户的识别原理是对比新增用户特征和离网用户在系统中记录的特征。如果特征符合判断条件,则认为该用户是重入网用户;如果没有符合特征的记录,则认为该用户是新增用户[7]。呼叫指纹是指移动用户在发生移动业务的过程中产生一系列的信息组合:通话群体(与用户发生通话的对象)的通话习惯(通话频次与通话时长)。因为任何的两个移动用户之间的通话群体和通话习惯都会存在一定的差异,这种差异就类似于人类的指纹一样,可作为不同用户的一个标识。因此,本文定义的重入网用户识别是通过一系列的用户呼叫指纹进行相似度计算的识别技术,进而判别重入网用户。重入网用户识别流程图如图1所示。   2.2 建立语音交往圈指   纹库   首先对用户交往圈内的呼叫详单信息进行汇总,提取的字段包括用户交往号码的通话次数和通话时长,分别建立新老用户的呼叫交往圈指纹库。   交往圈是指移动用户联系频繁且保持长时间交往的用户群体。但是,如果仅仅根据用户的通话次数和通话时长等衡量用户“紧密度”的方式来确定用户交往圈的重要通话群体,便会把一些公共号码、快递号码、送餐号码等非重要通话群体纳入其中。因此,需要采用一些技术手段处理上述非重要通话群体,提取有效的交往圈指纹库,以保证重入网用户识别的质量。本文采用改进TF-IDF算法?砑扑阌没в胪?话群体的呼叫特征系数,选取特征系数大于设定的阈值的用户群体,提取有效的用户交往圈。   2.3 采用改进TF-IDF算法提取有效的交往圈   有效交往圈是指与一个移动号码发生通信行为且具有相对重要和紧密程度的对端号码集合[8]。众所周知,用户之间的通话次数越多,表示用户之间越“紧密”,而衡量用户之间的重要程度则需要一个重要性的调整系数。   重要性调整系数来源于TF-IDF中的逆文档频率(IDF)。TF-IDF方法是Salton和MeGill在1983年针对向量空间信息检索范例(Vector Space Information Retrieval Paradigm)提出的文档特征表示方法[4],也就是提取文档的关键词的方法。该算法有两个重要的指标:TF和IDF。TF称为词频,也就是关键词在文档出现的次数;IDF称为逆文档频率,是关键词在全部文档集中出现的频率

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档