2.5 ARTMAP神经网络

ARTMAP神经网络[38]源于自适应谐振理论(Adaptive Resonance Theory,ART)神经网络[39],作为自适应谐振理论神经网络家族中的一员,该方法不仅能够在变化的环境中学习新样本,而且不会破坏已记忆的信息,有效地解决了“稳定性—可塑性”的两难问题,并且对任意序列的输入模式都能进行稳定的实时监督学习,具有较好的泛化能力。目前已有多种ARTMAP神经网络模型与结构,主要包括原始ARTMAP神经网络[38]、模糊ARTMAP(Fuzzy ARTMAP,FAM)神经网络[40]以及贝叶斯ARTMAP(Bayesian ARTMAP,BA)神经网络[41]等。本书1.3.2小节对ARTMAP神经网络的起源和发展进行了简要介绍,本节将对以上3种常用的ARTMAP神经网络方法进行详细介绍。

2.5.1 ARTMAP神经网络

在1.3.2小节提到的一系列的基于自适应谐振理论(ART)的模型和结构中,ART1模型、ART2模型、ART3模型以及模糊ART模型都属于无监督学习,存在着如分类精度固定等问题。为解决该问题,Carpenter等[38]将两个自适应谐振理论网络模块(ART1模块)通过匹配场(Map Field)进行连接,建立ARTMAP神经网络模型,能够稳定地对任意输入模式序列进行有监督的增量式学习。下面将详细介绍ARTMAP神经网络模型。

ARTMAP神经网络模型的体系结构如图2.7所示。

图2.7 ARTMAP神经网络结构示意图

从图2.7中可以看出,ARTMAP神经网络由通过匹配场连接的两个自适应谐振理论网络模块ARTa和ARTb组成。其中模块ARTa和ARTb分别用于读取输入向量a和输出向量b,二者相互独立,通过内部控制器连接在一起。这里内部控制器包含匹配场、增益控制子系统及定向子系统,其功能是确保系统自动实时运行。ρaρbρab分别为ARTa模块、ARTb模块和匹配场的警戒系数。

在ARTMAP神经网络中,ARTa和ARTb模块均为ART-1型自适应谐振理论神经网络模块,ART-1模型能够实现二值输入模式的数据处理。下面以ARTa模块为例介绍其实现过程。

ARTa模块由竞争层和识别层构成。层到层之间的连接用于进行分类操作;层到层的反馈连接用于进行模式的回忆。当一个输入模式被传递到层时,通过竞争学习过程将在层形成多个识别的原型模式,当层的一个节点被激活 (此节点被称为优胜神经元)时,将在层对应一个期望值,层将期望值与输入模式进行比较,如果期望值与输入模式不能很好地匹配,则对层进行重置处理,并取消当前的优胜神经元与当前的期望值,从而产生新一轮的竞争。层新的优胜神经元通过反馈连接向层产生一个新的期望值,在层产生再一次的比较,如此反复进行调整、重置,直到反馈值与输入模式足以匹配才完成学习。

ARTMAP神经网络内部控制器中匹配场(Map Field)的作用是在ARTa的类别节点与ARTb教师信号间建立联系,执行匹配跟踪规则。增益控制子系统用于处理已学习的模式,对已经熟悉的模式进行微调和建立精确的内部表示。定向子系统则用于处理新出现的模式,当出现不熟悉的事件时,它回调增益控制子系统,在内部建立新的内部编码来表示不熟悉的事件。ARTMAP神经网络的内部控制器需要创建满足精度标准所需最小数量的ARTa类别节点,这个过程是通过实现一个最小、最大学习规则来完成的,即最小化预测误差和最大化编码压缩率。该规则通过上调ARTa模块的警戒参数ρa来实现对预测误差的控制,通过匹配跟踪来调节信息的压缩率,使ARTMAP模型能够快速、有效地进行学习。

当提供给ARTMAP神经网络进行学习的是一个网络中已记忆的、或是与已记忆的十分相似的模式时,网络将会把这个模式回想出来,给出正确的分类。如果提供给网络学习的是一个网络记忆中不存在的模式,则网络将在不影响原有记忆的前提下,将这一模式记忆下来,并分配一个新的分类节点作为这一模式的分类标记。在所有的自适应谐振理论神经网络模型中都存在着将外部输入与内部存储模式进行比较的模式匹配过程,正是在这一匹配过程中产生了谐振状态。神经网络在谐振状态下不断学习和调整,从而达到新的平衡。

2.5.2 模糊ARTMAP神经网络

在2.5.1小节介绍的ARTMAP神经网络是由两个ART-1型自适应谐振理论网络模块组成的,只能处理二值输入模式,因而限制了它的使用。为此,1992年Carpenter等在原始ARTMAP基础上,利用Fuzzy-ART型网络模块代替ART-1型网络模块,提出模糊ARTMAP(Fuzzy ARTMAP,FAM)神经网络。模糊ARTMAP神经网络利用模糊子集计算与原始ARTMAP神经网络在类别选择方法中的形式相似性,将模糊逻辑与原始ARTMAP神经网络的优点进行了融合,从而扩展了对模糊属性的学习能力,使其具有更高的分类性能和更广泛的适用性[42]。目前,模糊ARTMAP已成为发展较为全面的一类竞争型网络模型,其最大优势是能够根据样本空间的特征分布情况自适应调节网络的结构复杂度[43,44],已在语音识别[45]、故障诊断[46]、风速预测[47]、遥感数据挖掘[48]等多个领域得到了广泛的应用。

下面将对模糊ARTMAP神经网络的运行机制进行详细的介绍。

模糊ARTMAP神经网络结构如图2.8所示,其中两个相同类型的模糊ART模块 (ARTa与ARTb)通过匹配域(MapField)来实现输入模式A与目标模式B的相互匹配关系。图2.8中,a代表待分类的输入向量,b表示ARTb的输入向量。下角标ijk则是层、层与层神经元的序号。为补码的预处理层,为竞争层,为识别层,竞争层既要接受预处理层从下到上的输入,也要接受识别层从上到下的输入,识别层中的各神经元节点分别表示相应的类别。中神经元的数目和层神经元的数目相等且一一对应。Fab层之间是全互连权重连接,权值向量记为}。ARTa模块中的是从层到层的权值向量,而ARTb模块中的是从层到层的权值向量,层到的权值,xaxb)是层的神经元向量,yayb)是层的神经元向量,层的神经元向量,

图2.8 模糊ARTMAP神经网络结构示意图

ρaρbρab则分别表示ARTa模块、ARTb模块与层的警戒系数。图中方框一侧的阴影突起部分表示需要使用权值向量进行加权运算。

模糊ARTMAP神经网络的学习算法主要包括网络的训练算法与分类算法这两个部分。训练算法主要是通过对样本的学习对网络权值与参数进行调节。分类算法则是按照“胜者为王”的准则,将输入向量分到相似度最高的某一类别中。

模糊ARTMAP神经网络的训练过程可以简要地表述如下:ARTa与ARTb模块分别接受模式对(AB),其中BA的匹配函数。模糊ARTMAP (FAM)网络首先要通过自身的联想传递来获得yaF层的神经元)、yb层的神经元)与xab层的神经元);然后,中间的匹配场根据匹配准则来检验AB是否是匹配的,假如满足了匹配的条件,则表示分类是正确的,并进一步对调整权值状态进行调整;反之匹配场就会触发匹配跟踪程序,ARTa会在层中继续寻找正确的匹配类或者生成一个新的类节点来表征这个输入模式。

模糊ARTMAP神经网络的训练算法流程图如图2.9所示。

下面对其中的关键步骤进行说明。

模糊ARTMAP网络的训练算法在层进行补码计算,即

式中:ma为输入向量特征维数。

ARTa模块所对应的输入向量a层的各个类别的节点j的选择函数Tj的定义表示为

式中:α为可以选择的参数,只需满足0<α<1,模糊交集定义为(pqi=min(piqi),其中|·|定义为Na为ARTa模块的层神经元的个数。

模型判断获胜类别的条件是TJ=max{Tj},其中的J代表获胜神经元序号。假如含有多个Tj,则不妨将索引号最小的一类作为获胜的神经元。在第J类被选定为获胜者以后,层的节点状态被设置为j=1,…,NajJ)。

在选择了获胜节点J后,对其进行警戒检测,即

如果获胜的神经元所对应的权值向量不能够满足式 (2.59),则将节点J复位,并从剩余的节点中选取优胜者;如果模糊ARTMAP神经网络的全部节点都无法满足式 (2.59),则按照式 (2.60)创建新的节点,即

图2.9 模糊ARTMAP神经网络算法流程图

如果获胜的节点J能够满足式 (2.59),则进行匹配场检测,匹配场中的神经元状态向量可以设置为

匹配场的校验准则是:如果|xab|<ρab,则把获胜的节点复位同时进行匹配跟踪,有

其中ε≅0.01,然后在余下的节点中重新进行获胜者的选择。

如果|xab|≥ρab,则执行获胜节点网络权值的学习运算,有

式中:β为学习率,0<β≤1。

2.5.3 贝叶斯ARTMAP神经网络

当使用2.5.2小节介绍的模糊ARTMAP神经网络对分布重合的样本进行训练时,网络往往会生成大量的冗余类别节点,增加了网络的复杂度。另外,当有类别扩张情况出现时,模糊ARTMAP神经网络极易产生过拟合现象。为解决这些问题,一些学者将统计学方法与ARTMAP神经网络相结合,提出了多种性能优越的统计型ARTMAP神经网络[49]。其中由Vigdor和Lerner[41]提出的贝叶斯ARTMAP(Bayesian ARTMAP,BA)神经网络是最具代表性的统计型ARTMAP神经网络。该模型按照统计学中的贝叶斯框架对模糊ARTMAP神经网络进行重新构建,利用概率与贝叶斯理论有效地解决了上述问题,并能够降低网络的复杂度,提高分类的精度[50]

下面将分别对贝叶斯ARTMAP神经网络的训练过程与测试过程进行介绍。

贝叶斯ARTMAP神经网络的训练过程主要包含节点选择、警戒测试、匹配和跟踪测试、参数调整与节点创建5个步骤。

(1)节点的选择

首先按照式(2.65)计算出贝叶斯ARTMAP神经网络中各节点关于输入样本x的后验概率值,即

式中:xm维的输入样本向量;γjx)为网络节点j状态对于输入样本x的后验概率值;Ncat为网络节点的个数;πj为网络节点j状态的先验概率;Nx|μjj)为样本x对于节点j的条件概率密度。πjNx|μjj)分别可以由式(2.66)与式(2.67)得到,即

式中:nj为被划归节点j的样本个数(即节点j被激活的次数)。

式中:μj为网络节点j状态对应的m维均值向量;为网络节点j状态对应的m×m维协方差矩阵。

然后选取具有最大后验概率的节点J作为获胜的节点,即

(2)警戒测试

警戒测试的目标是要防止由于个别节点过于强大所造成的不利影响。警戒测试准则的定义为

式中:SJ为对应获胜节点J的协方差矩阵J的行列式;Smax为协方差矩阵行列式的阈值。

如果获胜节点J使警戒测试准则不等式式(2.69)成立,则进入第(3)步;否则将复原获胜节点J(即将节点J的后验概率γJx)设置为零),并寻找余下节点中的获胜者。假设全部节点都没有通过警戒测试,则算法进入第(5)步。

(3)匹配跟踪测试

首先计算出节点所对应类别的后验概率,即

式中:Pi|j)为节点j对于类别i的后验概率;H为贝叶斯ARTMAP神经网络的假设矩阵;C为类别的数目;nij为被划归网络节点j并且属于类别i的训练样本的个数。

对获胜节点J进行匹配跟踪测试,即

式中:Pi|J)为获胜节点J对于类别i的后验概率;Pmin为后验概率的阈值。

假设获胜节点J能够满足式(2.71),则意味着获胜节点J是属于类别i的;否则复原获胜节点J同时减小协方差矩阵的行列式的阈值,即

式中:δ为调节阈值的步长。

依据调整后的阈值Smax来寻找余下节点中的获胜者。假设全部节点都没有通过匹配跟踪测试,则算法进入第(5)步。

(4)参数调整

对能够满足警戒测试与匹配跟踪测试的获胜节点J做参数调整操作。获胜节点J所对应的均值向量μJ、协方差矩阵J与激活次数nJ根据以下方式进行更新,即

在此基础上,更新贝叶斯ARTMAP神经网络的假设矩阵,即

此时,返回到算法第(1)步,接着对下一个输入的样本进行学习。

(5)节点创建

如果贝叶斯ARTMAP神经网络现有的节点都不能够满足警戒测试或者匹配跟踪测试,则算法将会按照以下的方式在网络中创建新的节点,即

式中:λ为一个正的系数(通常情况下取0.01[51]);Im×m维的单位矩阵。

按照式(2.81)把新的节点在贝叶斯ARTMAP神经网络的假设矩阵中的相对应的节点数值设为1,即

然后返回到第(1)步开始对下一个输入的样本进行学习。

到此,算法完成了网络的训练过程。而网络的测试过程则包括类别竞争与基于贝叶斯判据的类别归属确定这两个步骤。

模糊ARTMAP神经网络对样本类别的分类是硬性划分[52,53],而贝叶斯ARTMAP神经网络则通过和类别相关的每个节点进行推理,从而实现了对样本类别的软划分[51]。为此要对样本的类别概率密度进行计算,即

式中:πjNx|μjj)、Pi|j)分别通过式(2.66)、式(2.67)、式(2.70)计算得到。

同时,在得到类别概率的基础上确定出测试样本点x最终所属的类别,即

式中:Ix为测试样本点x的类别标记。

通过上述介绍可知,贝叶斯ARTMAP神经网络具有以下主要特性:①使用多维高斯函数作为节点的激活函数,见式 (2.68);②允许节点数目自适应地增加或缩减 (通过节点创建步骤和将节点后验概率置零实现);③使用贝叶斯判决理论 (Bayes'Decision Theory)进行学习和推理,见式 (2.65);④利用概率反映节点与类别之间的关系,见式 (2.70)。凭借上述特性,贝叶斯ARTMAP神经网络能够处理分布重合的样本序列,同时在分类精度和鲁棒性上较模糊ARTMAP网络均有显著提高。

根据统计学中的贝叶斯方法对ARTMAP神经网络进行改进得到的贝叶斯ARTMAP神经网络不仅提升了ARTMAP神经网络的泛化能力,并且可以较容易地与其他统计学方法(如期望最大化算法)结合,凭借其自适应结构调整能力补充统计学方法的不足。