DISK策略参数方法

初步计算

计算单个正样本附近的n(5)个负样本和该正样本的距离,获取其最大值、最小值;对所有正样本依次执行该计算。

剔除异常值

如数据正态分布:首先分别计算最大、最小值的算数平均值,剔除与算数平均值偏差超过三倍标准差的差值,即剔除这些正样本而不纳入计算。
如数据非正态分布:首先分别计算最大、最小值的算数平均值,使用四分位数或百分位数检测异常值。

参数计算

计算其余正样本最大、最小值的均值作为max—min范围;

统计学原理

平均值是基于最小二乘法,考虑将观测值的偏差最小化时的优良推测值。对最大、最小值的计算和组合,实际是对数值变化区间的计算,区间比数值更能反映实际状况。

简化方法

直接计算最大最小值的调和平均值(调和平均受离群值影响最小),以两个调和平均值作为disk策略的两个阈值。

伪负样本的偏差

前人乃至我们之前的工作中,对伪负样本的使用,实质上是对正样本的逆向使用,将研究区域简单分为:正样本区、负样本区。

实际上可以采集到的数据是:已识别的正样本(对应已识别的正样本区),已识别的负样本(对应已识别的负样本区),未识别/无样本(对应未知区域,即未识别的正样本区+未识别的负样本区)。

伪负样本的偏差,在于未知——伪负样本——负样本这一逻辑推理上的偏差。