
內容簡介
在人工智能技術的大力驅動下,智能控製與強化學習發展迅猛,先進自動化設計與控製日新月異。本書針對複雜離散時間係統的優化調節、最優跟蹤、零和博弈等問題,以實現穩定學習、演化學習和快速學習為目標,建立一套先進的值迭代評判學習控製理論與設計方法。首先,對先進值迭代框架下迭代策略的穩定性進行全麵深入的分析,建立一係列適用於不同場景的穩定性判據,從理論層麵揭示值迭代算法能夠實現離線最優控製和在線演化控製。其次,基於迭代歷史信息,提出一種新穎的收斂速度可調節的值迭代算法,有助於加快學習速度、減少計算代價,更高效地獲得非線性係統的最優控製律。結合人工智能技術,對無模型值迭代評判學習控製的發展前景也進行了討論。
本書內容豐富、結構清晰、由淺入深、分析透徹,既可作為智能控製、強化學習、優化控製、計算智能、自適應與學習係統等領域研究人員和學生的參考書,又可供相關領域的技術人員使用。
本書內容豐富、結構清晰、由淺入深、分析透徹,既可作為智能控製、強化學習、優化控製、計算智能、自適應與學習係統等領域研究人員和學生的參考書,又可供相關領域的技術人員使用。
作者簡介
王鼎,男,北京工業大學教授、博士生導師,現任計算智能與智能係統北京市重點實驗室副主任。北京市自然科學基金傑出青年項目獲得者、科睿唯安(Clarivate)全球高被引科學家、中國科協青年人才托舉工程入選者,主要研究方向為智能控製與智能優化、神經網絡與強化學習,涉及複雜智能控製優化、人工智能理論基礎。針對不確定係統優化控製中的共性難題進行了長期研究攻關,建立並逐步完善智能評判控製框架,並為工業複雜係統的智能優化控製提供了理論支撐。目前已在人工智能及相關領域的國際期刊和會議上發表學術論文120餘篇,其中82篇被SCI檢索(以第一作者發表在IEEE Transactions係列期刊和Automatica領域頂刊的論文共25篇),已出版專著4本,申請和已授權發明專利9項。先後榮獲吳文俊人工智能優秀青年獎、中國自動化學會自然科學獎一等獎、廣東省自然科學獎一等獎等。先後擔任人工智能及相關領域多個著名期刊的編委,包括:IEEE Transactions on Systems, Man, and Cybernetics: Systems、IEEE Transactions on Neural Networks and Learning Systems、Neural Networks、International Journal of Robust and Nonlinear Control、International Journal of Adaptive Control and Signal Processing、Neurocomputing、自動化學報。
目錄
封麵
版權信息
內容提要
序
前言
第1章 智能評判控製的先進值迭代方法概述
1.1 引言
1.2 麵向最優調節的值迭代算法
1.2.1 離散時間HJB方程
1.2.2 傳統值迭代算法
1.2.3 廣義值迭代算法
1.2.4 集成值迭代算法
1.2.5 演化值迭代算法
1.2.6 可調節值迭代算法
1.3 麵向最優跟蹤的值迭代算法
1.3.1 求解穩態控製的值迭代跟蹤算法
1.3.2 無穩態控製的值迭代跟蹤算法
1.4 麵向零和博弈的值迭代算法
1.4.1 離散時間HJI方程
1.4.2 零和博弈最優調節問題
1.4.3 零和博弈最優跟蹤問題
1.5 小結
參考文獻
第2章 基於折扣廣義值迭代的線性最優調節與穩定性分析
2.1 引言
2.2 問題描述
2.3 線性係統的折扣廣義值迭代算法
2.3.1 折扣廣義值迭代算法推導
2.3.2 性能分析
2.4 仿真實驗
2.5 小結
參考文獻
第3章 基於折扣廣義值迭代的非線性最優控製與穩定性分析
3.1 引言
3.2 問題描述
3.3 非線性係統的折扣廣義值迭代算法
3.3.1 折扣廣義值迭代算法推導
3.3.2 性能分析
3.4 仿真實驗
3.5 小結
參考文獻
第4章 基於折扣廣義值迭代的非線性智能最優跟蹤
4.1 引言
4.2 問題描述
4.3 麵向智能最優跟蹤的廣義值迭代
4.3.1 麵向最優跟蹤的折扣廣義值迭代算法推導
4.3.2 麵向最優跟蹤的折扣廣義值迭代算法性質
4.4 基於神經網絡的算法實現
4.5 仿真實驗
4.6 小結
參考文獻
第5章 基於廣義值迭代的新型事件觸發最優跟蹤控製
5.1 引言
5.2 問題描述
5.3 基於事件的近似最優跟蹤控製設計
5.3.1 廣義值迭代算法推導
5.3.2 事件觸發最優控製設計
5.4 基於神經網絡的算法實現
5.4.1 模型網絡
5.4.2 評判網絡
5.4.3 執行網絡
5.5 仿真實驗
5.6 小結
參考文獻
第6章 具有先進評判學習結構的廣義值迭代軌跡跟蹤
6.1 引言
6.2 問題描述
6.2.1 傳統代價函數的局限性
6.2.2 基於新型代價函數的最優跟蹤控製
6.3 基於新型代價函數的廣義值迭代算法
6.3.1 具有新型代價函數的廣義值迭代算法推導
6.3.2 具有新型代價函數的廣義值迭代算法性質
6.4 具有新型代價函數的迭代二次啟發式規劃算法
6.4.1 迭代二次啟發式規劃算法推導
6.4.2 未知係統動態辨識
6.4.3 單一神經網絡算法實現
6.5 仿真實驗
6.6 小結
參考文獻
第7章 融合集成與演化值迭代的非線性零和博弈設計
7.1 引言
7.2 問題描述
7.3 麵向零和博弈的廣義值迭代算法
7.3.1 非線性零和博弈的廣義值迭代算法推導
7.3.2 線性零和博弈的廣義值迭代算法推導
7.3.3 麵向零和博弈的廣義值迭代算法特性
7.4 零和博弈問題的演化值迭代控製設計
7.5 仿真實驗
7.6 小結
參考文獻
第8章 收斂速度可調節的新型值迭代機製
8.1 引言
8.2 問題描述
8.3 新型可調節值迭代框架
8.3.1 新型可調節值迭代算法推導
8.3.2 新型可調節值迭代算法性質
8.3.3 加速值迭代算法的實際設計
8.4 仿真實驗
8.5 小結
參考文獻
第9章 融合可調節與穩定值迭代的約束跟蹤控製
9.1 引言
9.2 問題描述
9.3 麵向最優跟蹤的可調節值迭代算法
9.3.1 約束跟蹤問題的可調節值迭代算法推導
9.3.2 約束跟蹤問題的可調節值迭代算法性質
9.4 穩定值迭代算法及演化控製設計
9.4.1 約束跟蹤問題的穩定值迭代算法推導
9.4.2 約束跟蹤問題的穩定值迭代演化控製
9.5 仿真實驗
9.6 小結
參考文獻
第10章 麵向非線性零和博弈的演化與增量值迭代
10.1 引言
10.2 問題描述
10.3 麵向零和博弈的演化值迭代算法
10.3.1 零和博弈問題的折扣值迭代算法推導
10.3.2 零和博弈問題的演化值迭代算法特性
10.4 麵向零和博弈的增量值迭代算法
10.4.1 考慮歷史迭代信息的值迭代算法
10.4.2 零和博弈最優調節的增量值迭代算法
10.4.3 零和博弈最優跟蹤的增量值迭代算法
10.5 仿真實驗
10.6 小結
參考文獻
後記
版權信息
內容提要
序
前言
第1章 智能評判控製的先進值迭代方法概述
1.1 引言
1.2 麵向最優調節的值迭代算法
1.2.1 離散時間HJB方程
1.2.2 傳統值迭代算法
1.2.3 廣義值迭代算法
1.2.4 集成值迭代算法
1.2.5 演化值迭代算法
1.2.6 可調節值迭代算法
1.3 麵向最優跟蹤的值迭代算法
1.3.1 求解穩態控製的值迭代跟蹤算法
1.3.2 無穩態控製的值迭代跟蹤算法
1.4 麵向零和博弈的值迭代算法
1.4.1 離散時間HJI方程
1.4.2 零和博弈最優調節問題
1.4.3 零和博弈最優跟蹤問題
1.5 小結
參考文獻
第2章 基於折扣廣義值迭代的線性最優調節與穩定性分析
2.1 引言
2.2 問題描述
2.3 線性係統的折扣廣義值迭代算法
2.3.1 折扣廣義值迭代算法推導
2.3.2 性能分析
2.4 仿真實驗
2.5 小結
參考文獻
第3章 基於折扣廣義值迭代的非線性最優控製與穩定性分析
3.1 引言
3.2 問題描述
3.3 非線性係統的折扣廣義值迭代算法
3.3.1 折扣廣義值迭代算法推導
3.3.2 性能分析
3.4 仿真實驗
3.5 小結
參考文獻
第4章 基於折扣廣義值迭代的非線性智能最優跟蹤
4.1 引言
4.2 問題描述
4.3 麵向智能最優跟蹤的廣義值迭代
4.3.1 麵向最優跟蹤的折扣廣義值迭代算法推導
4.3.2 麵向最優跟蹤的折扣廣義值迭代算法性質
4.4 基於神經網絡的算法實現
4.5 仿真實驗
4.6 小結
參考文獻
第5章 基於廣義值迭代的新型事件觸發最優跟蹤控製
5.1 引言
5.2 問題描述
5.3 基於事件的近似最優跟蹤控製設計
5.3.1 廣義值迭代算法推導
5.3.2 事件觸發最優控製設計
5.4 基於神經網絡的算法實現
5.4.1 模型網絡
5.4.2 評判網絡
5.4.3 執行網絡
5.5 仿真實驗
5.6 小結
參考文獻
第6章 具有先進評判學習結構的廣義值迭代軌跡跟蹤
6.1 引言
6.2 問題描述
6.2.1 傳統代價函數的局限性
6.2.2 基於新型代價函數的最優跟蹤控製
6.3 基於新型代價函數的廣義值迭代算法
6.3.1 具有新型代價函數的廣義值迭代算法推導
6.3.2 具有新型代價函數的廣義值迭代算法性質
6.4 具有新型代價函數的迭代二次啟發式規劃算法
6.4.1 迭代二次啟發式規劃算法推導
6.4.2 未知係統動態辨識
6.4.3 單一神經網絡算法實現
6.5 仿真實驗
6.6 小結
參考文獻
第7章 融合集成與演化值迭代的非線性零和博弈設計
7.1 引言
7.2 問題描述
7.3 麵向零和博弈的廣義值迭代算法
7.3.1 非線性零和博弈的廣義值迭代算法推導
7.3.2 線性零和博弈的廣義值迭代算法推導
7.3.3 麵向零和博弈的廣義值迭代算法特性
7.4 零和博弈問題的演化值迭代控製設計
7.5 仿真實驗
7.6 小結
參考文獻
第8章 收斂速度可調節的新型值迭代機製
8.1 引言
8.2 問題描述
8.3 新型可調節值迭代框架
8.3.1 新型可調節值迭代算法推導
8.3.2 新型可調節值迭代算法性質
8.3.3 加速值迭代算法的實際設計
8.4 仿真實驗
8.5 小結
參考文獻
第9章 融合可調節與穩定值迭代的約束跟蹤控製
9.1 引言
9.2 問題描述
9.3 麵向最優跟蹤的可調節值迭代算法
9.3.1 約束跟蹤問題的可調節值迭代算法推導
9.3.2 約束跟蹤問題的可調節值迭代算法性質
9.4 穩定值迭代算法及演化控製設計
9.4.1 約束跟蹤問題的穩定值迭代算法推導
9.4.2 約束跟蹤問題的穩定值迭代演化控製
9.5 仿真實驗
9.6 小結
參考文獻
第10章 麵向非線性零和博弈的演化與增量值迭代
10.1 引言
10.2 問題描述
10.3 麵向零和博弈的演化值迭代算法
10.3.1 零和博弈問題的折扣值迭代算法推導
10.3.2 零和博弈問題的演化值迭代算法特性
10.4 麵向零和博弈的增量值迭代算法
10.4.1 考慮歷史迭代信息的值迭代算法
10.4.2 零和博弈最優調節的增量值迭代算法
10.4.3 零和博弈最優跟蹤的增量值迭代算法
10.5 仿真實驗
10.6 小結
參考文獻
後記
最後修改:2025 年 02 月 01 日
© 允許規範轉載
