DISK策略参数方法

初步计算

计算单个正样本附近的n(5)个负样本和该正样本的距离,获取其最大值、最小值;对所有正样本依次执行该计算。

剔除异常值

如数据正态分布:首先分别计算最大、最小值的算数平均值,剔除与算数平均值偏差超过三倍标准差的差值,即剔除这些正样本而不纳入计算。
如数据非正态分布:首先分别计算最大、最小值的算数平均值,使用四分位数或百分位数检测异常值。

参数计算

计算其余正样本最大、最小值的均值作为max—min范围;

统计学原理

平均值是基于最小二乘法,考虑将观测值的偏差最小化时的优良推测值。对最大、最小值的计算和组合,实际是对数值变化区间的计算,区间比数值更能反映实际状况。

简化方法

直接计算最大最小值的调和平均值(调和平均受离群值影响最小),以两个调和平均值作为disk策略的两个阈值。