SRE策略参数内涵

PA.sre.quant参数用于确定选择伪缺席点时,环境变量与物种出现点之间差异的比例。在SurfaceRangeEnvelop(SRE)模型中,它定义了伪缺席点被选在与物种出现点不同的环境条件下的比例。

当PA.sre.quant=0时,伪缺席点只能被选在完全不同的环境条件下。这意味着伪缺席点位于物种可能性最小的区域,与物种出现点的环境变量几乎完全不同。这样可以减少伪缺席点与出现点的重叠,适用于已经充分采样物种气候生态位的情况,但可能会导致过于乐观的模型评估和预测。

当PA.sre.quant=0.025时,伪缺席点的选择条件更加宽松,允许伪缺席点的环境条件与物种出现点有一定的重叠(2.5%的差异阈值)。这为伪缺席点提供了更多的选择范围,有助于避免在极端环境中选择伪缺席点,从而可能产生更现实的模型预测。

简而言之,较小的PA.sre.quant(例如0)会导致更加严格的伪缺席点选择,而较大的值(例如0.025)则会放宽选择标准,使模型更能反映出实际生态位。

DISK策略参数方法

初步计算

计算单个正样本附近的n(5)个负样本和该正样本的距离,获取其最大值、最小值;对所有正样本依次执行该计算。

剔除异常值

如数据正态分布:首先分别计算最大、最小值的算数平均值,剔除与算数平均值偏差超过三倍标准差的差值,即剔除这些正样本而不纳入计算。
如数据非正态分布:首先分别计算最大、最小值的算数平均值,使用四分位数或百分位数检测异常值。

参数计算

计算其余正样本最大、最小值的均值作为max—min范围;

统计学原理

平均值是基于最小二乘法,考虑将观测值的偏差最小化时的优良推测值。对最大、最小值的计算和组合,实际是对数值变化区间的计算,区间比数值更能反映实际状况。

简化方法

直接计算最大最小值的调和平均值(调和平均受离群值影响最小),以两个调和平均值作为disk策略的两个阈值。

伪负样本的偏差

前人乃至我们之前的工作中,对伪负样本的使用,实质上是对正样本的逆向使用,将研究区域简单分为:正样本区、负样本区。

实际上可以采集到的数据是:已识别的正样本(对应已识别的正样本区),已识别的负样本(对应已识别的负样本区),未识别/无样本(对应未知区域,即未识别的正样本区+未识别的负样本区)。

伪负样本的偏差,在于未知——伪负样本——负样本这一逻辑推理上的偏差。