模型检验

对于模型的验证一方面发生在模型构建过程中,是验证集对计算集的验证,validation检验模型的拟合性能,更偏向于数值关系的表达;模型的验证另一方面发生在使用评估集对模型进行评估的过程中,evaluation检验模型的可靠性,具有直接现实性。

数学模型建成后,还必须把从数学模型分析得出的数学推论返回到现实中去,看看能否正确地回答实际问题。面且还不能仅仅简单地根据建模所用的样本数据本身是否得出合理的结论或是否与已知结果一致,判定模型的合理程度或是否有效,因为这样所得到的仅是拟合程度。它反映的是所建的数学模型使用建模样本中各变量作输入得到之结论(输出)与相应的已知结果的一致。

实际上建模的过程就是根据建模样本的输入与输出的关系不断调整的过程。这样建立的数学模型所反映的关系既可以是所论问题的本质关系,也可以仅仅是建模样本的纯数值的(不反映实质的)关系,特别是在建模样本数量不多成种类单一时,找出这样的(纯数值关系的)数学结构是并不十分困难的,这样建立的模型并不一定反映问题的实质,特别是当所用样本或所研究的区域具有局限时,所得到的模型即使有效可用,也仅是区城性的经验模型,并不一定能全面反映所论问题的主要本质规律。其结果便仅能适用于本区域和类似的区域。

所以应该尽可能地用未被用于建模(即在建模过程中没有参考和据以调整模型)的样本来检验所建的数学模型,考察所获得结果与已知结果的一致程度,即所建数学模型的符合程度,因为只有符合程度才能作为判断数学模型的可掌程度的依据。

从理论上说,一个有效的数学模型必须保证在其适用范围内的任何一种情况(即各种因案任何可能的组合),都能够得到确定的合理结论。因此用以检验数学模型符合程度的样本应该包含各种可能遇到的情况,而且严格地说各种情况的比例应与实际发生的率相同并有足够的数量,才能使得出的符合率与实际应用时的情况一致,但对地理学研究而言,要满足这种要求似乎是不可能的,因为在地理学研究中,由于资料数极为有限,故一般都只能把已有的资料的绝大部分以至全部都用于构造效学模型,即使这样,也还是不够的,特别是在要从中取得必要的统计信息时,更难以保证统计结果的稳定,所以对地理学数学模型的检验往在需要采用其它方法。

无论如何,对模型的检验不应停留在仅给出拟合率的状况。

SRE策略参数内涵

PA.sre.quant参数用于确定选择伪缺席点时,环境变量与物种出现点之间差异的比例。在SurfaceRangeEnvelop(SRE)模型中,它定义了伪缺席点被选在与物种出现点不同的环境条件下的比例。

当PA.sre.quant=0时,伪缺席点只能被选在完全不同的环境条件下。这意味着伪缺席点位于物种可能性最小的区域,与物种出现点的环境变量几乎完全不同。这样可以减少伪缺席点与出现点的重叠,适用于已经充分采样物种气候生态位的情况,但可能会导致过于乐观的模型评估和预测。

当PA.sre.quant=0.025时,伪缺席点的选择条件更加宽松,允许伪缺席点的环境条件与物种出现点有一定的重叠(2.5%的差异阈值)。这为伪缺席点提供了更多的选择范围,有助于避免在极端环境中选择伪缺席点,从而可能产生更现实的模型预测。

简而言之,较小的PA.sre.quant(例如0)会导致更加严格的伪缺席点选择,而较大的值(例如0.025)则会放宽选择标准,使模型更能反映出实际生态位。

DISK策略参数方法

初步计算

计算单个正样本附近的n(5)个负样本和该正样本的距离,获取其最大值、最小值;对所有正样本依次执行该计算。

剔除异常值

如数据正态分布:首先分别计算最大、最小值的算数平均值,剔除与算数平均值偏差超过三倍标准差的差值,即剔除这些正样本而不纳入计算。
如数据非正态分布:首先分别计算最大、最小值的算数平均值,使用四分位数或百分位数检测异常值。

参数计算

计算其余正样本最大、最小值的均值作为max—min范围;

统计学原理

平均值是基于最小二乘法,考虑将观测值的偏差最小化时的优良推测值。对最大、最小值的计算和组合,实际是对数值变化区间的计算,区间比数值更能反映实际状况。

简化方法

直接计算最大最小值的调和平均值(调和平均受离群值影响最小),以两个调和平均值作为disk策略的两个阈值。