反馈型网络
人工神经网络具有的良好的学习能力是其区别与其他人工智能的重要特征,它能够通过获取外界信息,并利用动态修正网络连接权值和阈值等自身调节手段来使整个网络趋于一种稳定的状态。神经网络的学习方式可以归纳为以下三种类型。
(1) 有监督学习(有教师学习)
有监督学习相当于在网络训练拟合的过程中,外界存在一个“教师”来指导网络的学习。 它是通过提供一组有着特殊映射关系的输入输出信息组合,网络根据分析目标输出与实际输出之间的误差来调整系统的参数,这组输入输出信息组合一般被称为训练样本。网络的学习规则由一组描述网络行为的训练集给出:
{x(1) , t(1)},{x(2) , t(2)},…,{xp , t p },…,{xN , t N }
其中,xp 为网络的第p 个输入数据向量;t p 为对应x p 的目标输出向量;N 为训练集中的样本数。
在有监督学习当中,网络通过比较期望输出与实际输出的误差是否满足网络学习精度的要求,然后根据给定的学习规则不断地修正网络中的连接权值和阈值,从而得到能够真实反映输入与输出之间映射关系的神经网络。
(2) 无监督学习(无教师学习)
无监督学习时外界不存在一个“教师”来指导网络的学习,系统是只是分析并利用外界的输入数据中隐含的统计规律来调整网络自身的参数(权值和阈值)[45]。由于没有目标输出,网络一般是采用聚簇等算法来分类不同样本,在特征提取阶段,无监督学习没有有监督学习中类似反向传播修改权值的操作,这是两者之间的明显区别。
(3) 强化学习(或再励学习)
强化学习有别于上述的两种学习方式,它是系统从环境到行为映射的学习方式。环境提
供的强化信号对系统输出结果只是给出好坏的评价,并没有告知强化学习系统(ReinforcementLearning System,RLS) 当前的动作反映是否正确。由于外界环境赋予RLS 的信息并不明确,RLS 必须通过不断的自身学习来获得最优化的方案。