- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
时间序列异常的定义
1 时间序列异常的描述
在统计学中,异常是指那些不服从序列分、与其他数据点距离较远的数据点点;在回归模型中,异常是指与给定模型偏离很大的数据点。时间序列中的异常目前仍没有一个准确的定义,相关研究也较少。异常的概念看起来很浅显,但是想给对其给出一个确切的概念来完整的形容却很难。
桥梁监测数据具有更新快、数据量大、维度高的特点,如何有效地找出明显偏离其他序列、不满足序列的一般波动模式或行为、与其他序列特征匹配度低的序列,已成为桥梁健康监测信息挖掘的重要内容。
2 时间序列的异常量度
多变量时间序列中的异常可以定义为存在与众不同的、极少出现的、离群较远的数据段。为了判断某一段数据是否为异常段,首先要处理的难点就是如何判断该段数据与样本数据集中其他数据段的相似度。
在此我们利用数据密度来作为判断某段数据与样本数据集中其他数据段的相似度的基础量度。某段数据在相应的样本数据集特征空间中密度越大,那么就说明在样本数据集中与该数据段相似的越多,该段数据异常的可能性就越小;相反,某段数据在特征空间中密度越小,那么就说明在样本数据集中与该数据段相似的越少,那么该段数据出现异常的可能性就越高。
给定一个多变量样本数据集 D,对于其中的任何一个对象q,其k近邻的半径距离可表示为dk(q),如图4.1所示。则对于对象q,其k近邻领域为在数据集中那些与 q 距离不超过dk(q)的所有样本数据对象(不包括 q 自身)的集合。即
(式4-1)
对于样本数据集中任意一个对象o到q的k可达距离dk(o,q)为
(2)
如图 4.1 中,由于d(o,q)dk(q),所以对象o到对象q的dk(o,q)=dk(q);而对于对象r,由于d(r,q) dk(q),所以对象r到对象q的dk(o,q)=d(r,q)。
此时,对象 q 关于 k 的局部密度 lrd(q)为:
(3)
局部密度描述了对象 o 周围 k 近邻范围内的样本数据分布密度。
对象q相对样本数据集X的k局部密度计算的算法描述如表 4.1。
算法1:LRD(X,q,k)
输入变量:样本数据集X,待查询样本q,近邻值k
输出变量:样本q的k局部密度值lrd(q)
Begin
nq=length(q(1,:));// 获取样本 q 变量长度,即 q 的数据维度
nX=length(X(1,:));//获取X的变量总长度
for i=1:(nX-nq)
sX(i,:)X(i:(i+(nX-nq)-1));//以nq为单位对X进行递进式分段
end
XKBTKsearch(sX,q,k);//获取q的K领域范围内所有样本数据对象
Nk(qXK;
dk(q)max(Nk(q).x,q);
D0;
For each x in Nk(q)
DD+max(dk(q),d(x,q));
End
1rd(q)length(Nk(q))/D;
End
以局部密度为基础,定义一个可以直观反映对象q异常程度的局部异常系数LOF(q):
(4)
对象 q 的局部异常系数 LOF(q)计算的算法描述如表 4.2。
表 4.2 样本 k 近邻局部异常系数计算算法 LOF(X,q,k)的算法描述
算法1:LOF(X,q,k)
输入变量:样本数据集X,待查询样本q,近邻值k
输出变量:样本q的局部异常系数 lof(q)
Begin
[1rd(q),Nk(q)]LRD(X,q,k);
s0;
for each x in Nk(q)
1rdLRD(X,x,k);
ss+1rd(x);
end
lof(q)s/(length(Nk(x)*1rd(q));
end
LOF(q)的值直观地反映出q点在其 k 近邻范围内所含有的样本数据样本分布的稀疏程度。如果 LOF(q)的值较大,则表明q点在其k近邻范围内包含的样本数据样本分布稀疏,则对象q属于局部异常对象的可能性较大,反之,如果LOF(q)的值较小,则表明q点在其 k 近邻范围内包含的样本数据样本分布密集,则其异常的可能性也较小。
文档评论(0)