簡易檢索 / 詳目顯示

研究生: 劉鎧源
Liu, Kai-Yuan
論文名稱: 強化學習在離散時間下最優平穩策略的存在性證明
The Existence of Optimal Stationary Policies in Discrete-time Reinforcement Learning.
指導教授: 呂忠津
Lu, Chung-Chin
口試委員: 林茂昭
蘇賜麟
蘇育德
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 電機工程學系
Department of Electrical Engineering
論文出版年: 2022
畢業學年度: 110
語文別: 英文
論文頁數: 41
中文關鍵詞: 強化學習最優策略存在性
相關次數: 點閱:1下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 強化學習為機器學習中的一個分支,它不僅可以學習資料間的關聯,
    還可以解決最優控制的問題,因而被視為是達到通用人工智慧的方法之
    一。
    然而這個研究領域大多專注在如何有效率的計算價值函數上,較少有
    人討論最優策略的存在性,確定最優策略的存在可以減少因為最優策略不
    存在而造成的演算法發散問題。更進一步若能知道最優策略的簡單形式能
    大幅減少資料運算量而使計算加快。
    本篇論文討論強化學習在離散時間、隨機獎勵、歷史性策略下最優策
    略的存在性證明。我們證明了只要每個時刻動作空間是有限的,最優策略
    即存在,並且在計算最優策略時只需考慮馬可夫最優平穩策略即可,這可
    以大幅減少需要考慮的策略集合。


    This thesis studies Markov decision processes with probabilistic rewards, expected discounted return, discrete-time, finite action space, stationary transition probability, and probabilistic nonstationary policy. In this thesis, we focus on the existence of optimal policies under this framework. We prove that an optimal policy exists if the set of actions that can be selected at each moment is finite. And when computing the optimal policy, we can restrict our attention to stationary deterministic Markovian policies that only consider the current state. This can greatly reduce the computational complexity.

    Introduction 4 2 Reinforcement Learning 6 2.1 Markov Decision Processes . . . . . . . . . . . . . . . . . . . . . 8 2.2 Seven Elements in a Markov Decision Process . . . . . . . . . . . 9 2.3 Value Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4 Criteria for an Optimal Policy . . . . . . . . . . . . . . . . . . . 15 2.5 Markov Decision Processes Expressed in Vector Notation . . . . . 16 3 The Existence of an Optimal Policy 21 3.1 A Reduction Result . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2 The Existence of Optimal Stationary Policies . . . . . . . . . . . 24 4 Conclustion 39

    [1] A. Rao, and T. Jelvis, “Foundations of reinforcement learning with applications
    in finance,”[Unpublished manuscript] Stanford University, 2020.
    [2] D. Blackwell, “Discounted dynamic programming,” The Annals of Mathematical
    Statistics 36.1: 226-235. 1965
    [3] A. Gosavi, Simulation-based Optimization, Berlin: Springer, 2015.
    [4] M. L. Puterman, Markov Decision Processes: Discrete Stochastic Dynamic
    Programming, New York: John Wiley Sons, 2014.
    [5] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd
    ed. Cambridge, MA: MIT Press, 2018.

    QR CODE