0.神经网络发展概述

附件包括从Rosenblatt感知器到卷积神经网络、循环神经网络的代码实现,运行环境为python3.8.6,依赖库包括:numpy1.20.2、matplotlib3.4.1、keras2.4.3、tensorflow2.5.0,LSTM的预训练词向量体积过大需自行下载。

本篇算是机器学习相关技术总结的序章,但写在Rosenblatt感知器之后,是第二篇,重新梳理了叙述的逻辑。主要完成了对神经网络发展历史的梳理,以反向传播算法为分界,对BP算法之前的技术演进作较简要阐述,对之后的理论、算法、结构作简要概述,希望作为详细论述Rosenblatt感知器、卷积神经网络、循环神经网络等关键代表性模型之前的摘要,也作为激活函数、损失函数、优化算法等专题内容的背景铺垫。

1943年,Warren McCulloch和数学家Walter Pitts提出了神经元的首个简化数学模型,也就是McCulloch Pitts神经元模型(MCP),模拟生物神经元通过“阈值激活”处理信号,标志着神经网络理论的早期萌芽。


1958年,计算机科学家Frank Rosenblatt提出了感知器模型(Perceptron),感知器通过权重调整进行学习,是首个可训练的神经网络模型。虽然局限于处理二元线性分类问题,其已经具备现代神经网络模型中计算(前向传播)-判断(激活)-知错(计算误差/损失)-能改(权重修正)的基本思想。

尽管未显式计算梯度,感知器利用错误驱动学习的启发式权重更新规则已经暗示了梯度下降的思想。在感知器权重更新的过程中,误差信号为:

其与学习率α和输入本身共同完成权重调整:

而如果在二分类问题中使用平方误差计算损失率:

其梯度为:

感知器调整权重的方式实际上符合梯度下降理论中减去梯度的要求,只是由于其未能显式定义损失函数且阶跃函数不可微,导致感知器始终局限于处理线性可分问题(Marvin Minsky和Seymour Papert在《感知机》一书中指出感知机无法解决非线性问题),直接导致了神经网络研究20年的漫长寒冬。


20世纪80年代,Rumelhart、Williams等人在输入层和输出层之间加入隐藏层(Hidden Layer),提出了多层感知器(MLP,Multilayer Perceptron),也称人工神经网络(ANN,Artificial Neural Network):

当多层感知器的隐藏层的数量超过三层时,也就成为了今天的深度神经网络(DNN,Deep Neural Network),其中每个神经元都具有加权计算+激活函数输出的功能,并且每一层神经元的输出都作为下一层神经元的输入:

在多层感知器的发展过程中,非线性激活函数(如Sigmoid)被引入神经网络:

其图像是一个S形的平滑曲线:

非线性激活函数将线性组合z=Wx+b映射到非线性区间 (0,1),自此神经网络开始能够解决线性不可分问题。其引入非线性的同时,也引入了可导性,为反向传播的提出奠定了基础:


在1986年,Rumelhart、Hinton和Williams提出反向传播(Backpropagation),其数学本质是计算损失函数 L对所有权重系数W和偏置系数b的梯度 ∂L/∂W​ 和 ∂L/∂b,通过复合函数求导的链式法则将误差逐层传播到所有权重系数和偏置系数。反向传播作为一个更普适、在数学上更严谨的优化框架,能够有效训练多层神经网络,推动了多层感知器的发展。

以3层MLP 为例(输入层(0)→隐藏层(1)→输出层(2)),设置损失函数为均方误差:
符号含义
x输入向量
W(1),b(1)输入层→隐藏层的权重和偏置
z(1)=W(1)x+b(1)隐藏层的加权输入
a(1)=σ(z(1))隐藏层激活输出(σ为激活函数)
W(2),b(2)隐藏层→输出层的权重和偏置
z(2)=W(2)a(1)+b(2)输出层的加权输入
a(2)=ϕ(z(2))神经网络最终输出(ϕ为输出层激活函数)
L损失函数(如均方误差、交叉熵)

(1)损失函数-输出层:

损失函数:

损失函数对神经网络最终输出的梯度:


神经网络最终输出对输出层的加权输入的梯度:

在回归任务中ϕ为可能为恒等函数,∂a(2)/∂z(2)=1;在分类任务中ϕ可能为Softmax,按Softmax导数规则计算

损失函数对输出层的加权输入的梯度:

(2)损失函数-输出层-隐藏层:

输出层加权输入对隐藏层→输出层权重系数的梯度:

损失函数对隐藏层→输出层权重系数的梯度:

输出层加权输入对隐藏层→输出层偏置系数的梯度:

损失函数对隐藏层→输出层偏置系数的梯度:

(3)损失函数-输出层-隐藏层-输入层:

隐藏层的加权输入对输入层→隐藏层权重系数的梯度:

损失函数对输入层→隐藏层权重系数的梯度:

隐藏层的加权输入对输入层→隐藏层偏置系数的梯度:

损失函数对输入层→隐藏层偏置系数的梯度:

反向传播算法的提出,使得神经网络完成了从理论走向实践的关键转折,也为现代深度学习的多样化发展奠定了理论基础。其通过层级非线性变换逼近复杂函数的思想,至今仍是人工智能研究的核心范式。


神经网络相关理论的发展是问题导向的,每一次的突破都针对原先的不足而展开。McCulloch Pitts神经元模型解决了从无到有的问题;Rosenblatt感知器建立了神经网络知错-能改的思想框架;非线性激活函数的引入打破了线性操作的叠加性;反向传播算法的提出实现了误差的梯度更新。

反向传播算法的提出神经网络从理论迈向实践的转折点,MLP的局限性和潜力共同推动了后续的技术演进。为解决梯度爆炸、梯度消失和计算效率问题,研究者开始探索更贴合数据特性的结构创新:卷积神经网络(CNN)通过局部连接和权值共享,在图像处理中实现了参数精简与空间特征提取;循环神经网络(RNN)及其变体LSTM则针对序列建模引入时间维度记忆,但这些结构在深层训练时稳定性仍然不足;残差网络(ResNet)通过跨层跳跃连接重构梯度传播路径,使千层网络的训练成为可能,极大释放了深度学习的潜力。

除结构创新外,模型优化技术也得到了发展:动量法(Momentum)引入了历史梯度方向惯性,加速收敛并减少震荡;AdaGrad为不同参数分配不同学习率;Adam优化器则是动量加速与自适应学习率的结合;正则化技术如Dropout和批量归一化(BatchNorm)能够有效缓解过拟合,提升模型泛化能力。

再后来,生成对抗网络(GAN)和对比学习等理论的出现推动了无监督与自监督学习。Transformer架构以自注意力机制取代传统循环结构,解决了长依赖问题的同时,凭借并行计算优势成为自然语言与多模态任务的通用框架,如BERT、GPT、ViT等。


神经网络的本质和初衷在于对于人脑神经系统的模仿,其训练拟合、检验优化、测试修正进而开展判断识别、分类描述、推理预测的过程,在认识-实践的哲学意义上同样有着优美的表达,譬如说理论在实践中形成并得到检验,模型在训练中拟合并得到评估;譬如说理论具备普遍性的品格,要求了模型具有泛化能力;譬如说理论具备特殊性的品格,暗示了模型复杂多样的结构。在可预见的未来,在丰富计算资源和数据资源的支撑下,神经网络相关的研究必然进入一个更加勃勃生机、万物竞发的境界。

1.Rosenblatt感知器

Rosenblatt感知器是第一次实现完整算法描述和数学证明的神经元模型:

其结构主要包括:
(1)输入

(2)权重

(3)独立偏置项b
(4)加权求和函数

(5)激活函数

在以上结构中实现的是一次前向传播,若预测结果与真实标签不一致,则
(6)计算预测结果与真实值间的误差

(7)引入学习率α控制参数调整步长,更新权重系数

(8)更新独立偏置系数

在达到预设的最大迭代次数或者误差小于某个阈值、权重更新量小于某个阈值之前,上述步骤不断重复迭代,由此不断调整权重和偏置,使得感知器的输出能够尽可能接近真实标签,从而实现对输入数据的分类。

Rosenblatt感知器概念的提出显然具备里程碑式的意义,其在非线性可分问题上的局限性,既是神经网络研究20年漫长寒冬的根源,也促使后来的研究者引入非线性激活函数,提出梯度下降等概念,使得神经网络从简单的线性分类器进化成为能够处理复杂非线性问题的强大模型。

生态位变动与通用量化指标的开发

Hutchinson作为现代生态学之父,其多元资源生态位理论是当前生态位理论的主流。这一理论及其应用基于一个重要的假设:物种属性决定物种适应性,物种适应性决定生态位,也就是物种属性直接决定物种生态位,而物种生态位的确定性作用决定群落物种共存和多样性动态。这一假设使得物种生态位成为了可以被量化的物种属性,但当我们将物种生态位认定为固有的物种属性,就忽视了生物适应、生物间相互作用、生物对环境的反馈在生态位形成中的影响,也暗示了生态位保守假说。

生态位概念的萌芽

生态位概念由Johnson提出[1],由Grinnell具体化[2],强调物种对环境条件的需求[3]。Elton对生态位进行了重新定义,更强调物种的功能[4]。两种概念的本质都是生物和环境的相互作用,只是侧重不同。侧重有机体(物种)对环境需求的是生境生态位,广泛应用于生物地理学研究;侧重有机体(物种)影响其他生物及环境的功能生态位,广泛应用于群落生态学研究。
在以上生态位概念的基础上,竞争排斥原理被提出,即生态位相似的物种难以稳定共存[5]。这一原理在实验中得到了证实[6],成为生态位理论/群落生态学理论的基石。自此,物种间生态位差异被用于解释物种分布、群落构建和群落动态等。

生态位概念的发展

Hutchinson对生态位概念进一步发展,认为生态位是物种所需环境条件的综合。物种属性决定物种适应性,物种适应性决定生态位,也就是物种属性直接决定物种生态位,而物种生态位的确定性作用决定群落物种共存和多样性动态[7]。其贡献在于将生态学研究从现象描述推向了假设检验,构建了通过研究物种属性研究群落物种共存和多样性动态的理论桥梁,但生态位的确定性作用作为假设,并未得到严格证明。
Hutchinson的理论将生态位分为基础生态位和现实生态位[7],两者的比较研究有助于阐明物种对生物-非生物整体环境的反馈和影响。但是无论基础生态位还是现实生态位,都无法被直接观测,只能通过观测现实生态位在真实地理空间中的投影,即物种分布状况,进行间接的不完全的观测。

生态位理论的发展

MacArthur实现了对生态位的量化,用于解释物种生态位和群落生物多样性的动态平衡规律[8]。而这些研究工作的前提是有关生态位两个基本假设,生态位保守,生态位作用的确定性。但同时MacArthur也肯定群落构建随机过程的重要性[9],只是MacArthur之后,缺少对生态位构建扩散限制和随机过程的研究。

生态位理论的巩固

Tilman的资源比例假说[10]支持了Hutchinson的多维资源生态位理论[11],解释了物种多样性的稳定机制[12],解释了生物多样性的影响[13]

对生态位理论的质疑

生态位理论以及资源比例假说在其假设前提和适用性方面受到质疑,当代物种共存理论[14]对资源比例假说做出修正,首先考虑适合度,其次再肯定生态位的决定性作用。
而零模型[15]和群落中性理论[16]无视生物属性及其相互作用,仅考虑扩散限制、环境波动等随机过程,否定基于生物属性的生态位确定性作用。虽然从假设、逻辑推理和机理解释上存在显著的缺陷,但能够以较少的参数的预测较多的模式,迫使生态学家正视群落构建随机过程的重要性。

生态位模拟

生态位模拟的原理:受Hutchinson生态位理论的影响,主流生态学界长期使用还原论的逻辑,通过量化物种属性与环境的关系,量化物种的生态位,从而解释和预测群落动态、物种共存等现象。在生态位模拟过程中,就是通过量化物种分布与环境的关系,量化物种的生态位,从而模拟物种在当前气候情景下的潜在分布区,以及预测未来气候情景下的分布区域。

群落构建随机过程的体现:在现阶段的生态位模拟工作中,受限于生态位理论的基本假设,暂时无法体现群落构建随机过程的重要性。

生物适应、生物间相互作用、生物对环境反馈作用的体现:物种分布数据来源于真实地理空间,本身能够体现物种间的相互作用以及该物种对环境的反馈在生态位形成中的影响。

生态位保守假说的体现:生态学家无法获取真实未来的物种分布数据以及气候、土壤数据等环境数据,所以生态位模拟得到的永远只能是过去或者当前的物种生态位,当我们需要将模拟得到的生态位投影到其它时间、空间时,要求该物种生态位具有保守性。也就是说,我们希望该物种的生态位在一定的时空尺度内保持不变。

针对生态位保守假说的改进:静止是相对的,而运动是绝对的;生态位保守是相对的,而生态位变化是绝对的。生态位保守假说对于不同的研究对象,在不同的时空尺度无法绝对生效。生态位保守特征的区别,究其原因是生物属性的区别造成的生物适应特征的区别,而生物适应特征的区别广泛存在于不同层次水平。生态位保守假说作为生态位模拟的基本假设,其适用性应当在生态位模拟之初得到考量和验证。某一物种生态位保守的程度直接决定其模型的泛化能力,也就是模型投影至另一地理空间或时间下的合理性。对团队内生态位模拟工作的初步改进思路是,在生态位模拟工作起始阶段对工作的合理性做一次检验,也就是采用生态位演化速率(niche evolution rate, NER)对生态位保守的特征进行量化,暂时保留使用入侵物种生态位漂移量化方法的可能。如能够获取连续时间序列的物种分布数据,结合变化的生物气候变量进行分析,有希望实现对较短时间尺度内物种生态位变化(保守)特征的量化乃至通用指标的开发,研究对象初步定为具有扩散能力强、扩散距离远的“类入侵植物(黄帚橐吾等典型毒杂草)”。

[1] Johnson, R.H. (2009). Determinate Evolution in the Color-Pattern of the Lady-Beetles.
[2] Grinnell, J. (1917). The Niche-Relationships of the California Thrasher. The Auk, 34, 427-433.
[3] Grinnell, J. (1924). Geography and Evolution. Ecology, 5, 225-229.
[4] Elton, C.C. Animal Ecology. Nature, 119, 193-193.
[5] Colwell, R.K., & Rangel, T.F. (2009). Hutchinson’s duality: The once and future niche. Proceedings of the National Academy of Sciences, 106, 19651 – 19658.
[6] Gauze, G.F. (1934). The struggle for existence, by G. F. Gause.
[7] Hutchinson, C.E. (1957). Concluding remarks, Coldspring Harbor Symposium.
[8] Macarthur, R.H., & Levins, R.A. (1967). The Limiting Similarity, Convergence, and Divergence of Coexisting Species. The American Naturalist, 101, 377 – 385.
[9] KeChang, N., Yining, L., Zehao, S., Fangliang, H., & Jing-yun, F. (2009). Community assembly: the relative importance of neutral theory and niche theory. Biodiversity Science, 17, 579-593.
[10] Tilman, D. (1983). Resource competition and community structure. Monographs in population biology, 17, 1-296 .
[11] Tilman, D. (1988). Plant Strategies and the Dynamics and Structure of Plant Communities.
[12] Tilman, D., & Pacala, S.W. (1993). The maintenance of species richness in plant communities.
[13] Tilman, D., Lehman, C., & Thomson, K.T. (1997). Plant diversity and ecosystem productivity: theoretical considerations. Proceedings of the National Academy of Sciences of the United States of America, 94 5, 1857-61 .
[14] Chesson, P. (2000). Mechanisms of Maintenance of Species Diversity. Annual Review of Ecology, Evolution, and Systematics, 31, 343-366.
[15] Connor, E.F., & Simberloff, D. (1979). The Assembly of Species Communities: Chance or Competition? Ecology, 60, 1132-1140.
[16] Rosindell, J., Hubbell, S.P., & Etienne, R.S. (2011). The unified neutral theory of biodiversity and biogeography at age ten. Trends in ecology & evolution, 26 7, 340-8 .