第八章 学习控制系统 联系客服

发布时间 : 星期日 文章第八章 学习控制系统更新完毕开始阅读4e291fed59fb770bf78a6529647d27284a733760

(8.2)

式中,

为第k次过程的输出偏差,即:

, 而Ψ、Φ和Γ为n×r常系数矩阵.

(8.3)

(8.4)

对于任何类型的学习控制方案,收敛的充分条件是由(机器人)系统的一般状态方程决定的。 2.机器人控制系统的实现与仿真

在机器人系统中,广义动量p无法直接测量。学习控制律可被简化为:

(8.5)

p的时间导数,需要按下列符号公式进行多步计算:

(8.6)

这需要计算几乎整个动态公式,而且非常费时。为保证学习控制过程迅速收敛保持p的计算不变(这是合理的),而力图减轻对式(8.6)的计算工作量。

3.仿真PUMA560得到的结论

已对PUMA560机器人操作机完成了新学习控制方案的仿真研究,而且此仿真过程已经确定。从这个仿真可得出下列结论:

(1) 第一个(次)过程具有大的输出偏差,因为试探输入是随意选择的。不过,第二次试探之后,输出明显地收敛而接近于期望输出。

(2) 对于每个过程,初始输出必须与期望输出一样,即对于如果不这样做,那么该过程将收敛于与期望轨迹平行且保持恒定距离的轨迹。

8.3.2 学习控制的稳定性和收敛性分析

1.离线学习控制系统的稳定性和收敛性分析

图8.8给出一个CMAC离线学习控制系统的结构。该装置的控制输入u由两个分量组成:

(8.7)

图8.8 CMAC离线学习控制系统

定理8.1 存在一个反馈控制:

使得系统的状态误差边界为:

式中,

定理8.2 设

为有界函数:

(8.10)

且定理8.1中的反馈增益满足下列不等式:

(8.11)

规定:

(8.8)

(8.9)

(8.12)

式中,使该系统收敛:

(8.13)

(8.14)

2.在线学习控制系统的稳定性与收敛性分析

自适应过程的定义

定义8.14 控制系统在每个采样期内实时地训练神经网络的过程,称为自适应过程。 学习过程的定义

定义8.15 控制系统在积累了一系列样本之后离线地训练神经网络的过程,称为学习过程。

图8.9表示一个基于CMAC的在线学习控制系统的框图,该系统具有从系统输出的反馈作用。

图8.9 基于CMAC的在线学习控制系统

CMAC中神经网络的收敛性

定理8.3 基于CMAC神经网络的在线学习控制用于一类仿射非线性系统

(8.15)

(8.16)

如果系统满足下列条件: (1) 可逆;

(2) 理想状态和是严格混合和平稳随机过程; (3) PD控制保证系统全局渐进稳定; (4) 正定。

那么,CMAC神经网络算法收敛,即:

(8.17)

8.4 小 结

根据学习和学习控制的定义,把学习控制机理归纳为:

(1) 寻求并发现动态控制系统输入输出间比较简单的关系; (2) 执行由上一次控制过程的学习结果更新过的每一控制过; (3) 改善每个过程的性能,使其优于前个过程。重复这一学习过程,并记录全过程积累的控制结果必将稳步地改善学习控制系统的性能。

存在许多种学习控制方案,诸如基于模式识别的学习控制、反复学习控制、重复学习控制以及连接主义学习控制等。本章介绍了上述四种学习控制系统的原理与结构。

第三节的讨论重点放在学习控制的一些重要研究问题上,例如,学习控制系统的建模,以及离线和在线系统学习控制的稳定性和收敛性分析等