前人乃至我们之前的工作中,对伪负样本的使用,实质上是对正样本的逆向使用,将研究区域简单分为:正样本区、负样本区。
实际上可以采集到的数据是:已识别的正样本(对应已识别的正样本区),已识别的负样本(对应已识别的负样本区),未识别/无样本(对应未知区域,即未识别的正样本区+未识别的负样本区)。
伪负样本的偏差,在于未知——伪负样本——负样本这一逻辑推理上的偏差。
前人乃至我们之前的工作中,对伪负样本的使用,实质上是对正样本的逆向使用,将研究区域简单分为:正样本区、负样本区。
实际上可以采集到的数据是:已识别的正样本(对应已识别的正样本区),已识别的负样本(对应已识别的负样本区),未识别/无样本(对应未知区域,即未识别的正样本区+未识别的负样本区)。
伪负样本的偏差,在于未知——伪负样本——负样本这一逻辑推理上的偏差。
生态位模拟中暂不支持将两种数据同时输入又有区别地使用,在计算过程中无论PAd或是TAd都只能是同作为负样本计算。
当少量负样本混入大量伪负样本时,其特殊性(对微环境的指示作用)很难得到体现。
原理:此方法按照等比例增加的间隔来划分数据类别。类间距按照一个常数因子进行增加,适用于分布极不均匀的数据。
特点:能够在数据值变化较大时提供更多的细节。
作用:对于气温数据,尤其是在覆盖极端温差的地区(如从极地到热带),几何间隔分类法可以帮助揭示温度变化的几何级数特征。这种方法可以使得高温和低温区域之间的过渡更加明显,有助于识别气温的极端值。
体现的数据性质:适合呈指数分布或对数分布的数据,强调高值数据的差异。
原理:以平均值为中心,以标准差为间隔来创建类别。数据被分为平均值上下的若干个标准差范围内。
特点:反映了数据相对于平均值的变异程度。
作用:通过标准差分类法,可以确定某个地区或时间段内的气温如何相对于平均气温分布。这有助于识别异常温度(极端高温或低温),并评估气温的波动程度。例如,可以用来分析气温异常现象,如热浪或寒潮。
体现的数据性质:适用于近似正态分布的数据集,可以清晰地看到哪些数据是异常值,哪些是正常范围内的值。
原理:将数据范围均匀划分成几个等宽的区间。区间的数量由分析者决定。
特点:简单易懂,易于实施。
作用:等间距分类法为气温数据提供了一种简单直观的分类方式,使得数据的整体分布一目了然。它适用于初步分析气温分布,特别是当需要快速概览数据范围和主要分布区间时。
体现的数据性质:等间距分类法能够清楚地展示数据的整体分布,但可能会忽略集中在特定区间的数据细节。
原理:按照数据的分位数来划分类别,确保每个类别中有相同数量的观测值。
特点:能够有效地展示数据的相对位置和分布。
作用:分位数分类法通过确保每个类别中包含相同数量的数据点,有助于识别气温分布的中位数和其他分位数位置。这种方法特别适合比较不同地区或不同时间段的气温分布,因为它强调了气温的相对排名而非绝对值。
体现的数据性质:适合于当你希望每个类别中的数据点数量相等时。这种方法特别适用于展示相对排名或百分比位置。
原理:尝试找到数据值的自然分组,以最小化各组内的方差而最大化组间的方差。
特点:更好地反映数据的自然分布,特别是当数据分布不均匀时。
作用:自然间断分类法尤其适用于气温数据,因为它可以识别并利用数据中的自然分界点,如季节性变化造成的温度断点。这种方法可以更精确地反映气温的自然聚类,有助于识别不同气候区域或季节变化的特征温度范围。
体现的数据性质:适用于数据有明显的“间断”或聚类时。这种方法试图识别并利用这些自然分界线,从而更真实地反映数据的分布特征。