初步计算
计算单个正样本附近的n(5)个负样本和该正样本的距离,获取其最大值、最小值;对所有正样本依次执行该计算。
剔除异常值
如数据正态分布:首先分别计算最大、最小值的算数平均值,剔除与算数平均值偏差超过三倍标准差的差值,即剔除这些正样本而不纳入计算。
如数据非正态分布:首先分别计算最大、最小值的算数平均值,使用四分位数或百分位数检测异常值。
参数计算
计算其余正样本最大、最小值的均值作为max—min范围;
统计学原理
平均值是基于最小二乘法,考虑将观测值的偏差最小化时的优良推测值。对最大、最小值的计算和组合,实际是对数值变化区间的计算,区间比数值更能反映实际状况。
简化方法
直接计算最大最小值的调和平均值(调和平均受离群值影响最小),以两个调和平均值作为disk策略的两个阈值。