Lucian Buşoniu
荷蘭代爾夫特理工大學代爾夫特係統與控製中心博士後研究員。2009 年獲得代爾夫特理工大學博士學位,2003 年獲得羅馬尼亞剋盧日·納波卡科技大學碩士學位。他目前的主要研究方嚮包括強化學習與近似動態規劃、麵嚮控製問題的智能與學習技術以及多Agent學習等。
Robert Babuška
荷蘭代爾夫特理工大學代爾夫特係統與控製中心教授。1997 年獲得代爾夫特理工大學控製專業博士學位,1990 年獲得布拉格捷剋技術大學電機工程專業碩士學位。他目前的主要研究方嚮包括模糊係統建模與識彆、神經模糊係統的數據驅動結構與自適應、基於模型的模糊控製和學習控製,並將這些技術應用於機器人、機電一體化和航空航天等領域。
Bart De Schutter
荷蘭代爾夫特理工大學代爾夫特係統與控製中心海洋與運輸技術係教授。1996 年獲得比利時魯汶大學應用科學博士學位。他目前的主要研究方嚮包括多Agent 係統、混雜係統控製、離散事件係統和智能交通係統控製等。
Damien Ernst
分彆於1998 年和2003 年獲得比利時列日大學理學碩士及博士學位。他目前是比利時FRS-FNRS 的助理研究員,就職於列日大學的係統與建模研究院。Damien Ernst在2003—2006年間為FRS- FNRS 的博士後研究人員,並在此期間擔任劍橋管理機構、麻省理工學院和美國國立衛生研究院的訪問研究員,2006—2007學年在高等電力學院(法國)擔任教授。他目前的主要研究方嚮包括電力係統動力學、最優控製、強化學習和動態治療方案設計等。
本書討論大規模連續空間的強化學習理論及方法,重點介紹使用函數逼近的強化學習和動態規劃方法。該研究已成為近年來計算機科學與技術領域中最活躍的研究分支之一。全書共分6 章。第1 章為概述;第2 章為動態規劃與強化學習介紹;第3 章為大規模連續空間中的動態規劃與強化學習;第4 章為基於模糊錶示的近似值迭代;第5 章為用於在綫學習和連續動作控製的近似策略迭代;第6 章為基於交叉熵基函數優化的近似策略搜索。本書可以作為理工科高等院校計算機專業和自動控製專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。
發表於2024-11-14
基於函數逼近的強化學習與動態規劃 2024 pdf epub mobi 電子書 下載
圖書標籤: 計算機科學 有電子版 強化學習
基於函數逼近的強化學習與動態規劃 2024 pdf epub mobi 電子書 下載