Chinh Phục Chứng Minh Hội Tụ Q-Learning: Từ Robbins-Monro Đến Action Replay Process
Lê Lân
0
Giải Thích và Chứng Minh Lemma B.3 và Định Lý Chính trong Bài Báo của Watkins về Q-Learning
Mở Đầu
Trong bài báo về Q-learning do Watkins phát triển, tác giả giới thiệu một mô hình mới gọi là Action Replay Process (ARP) dựa trên Mô hình Quyết định Markov (MDP). Bài viết này nhằm giúp bạn hiểu sâu sắc toàn bộ quy trình chứng minh Lemma B.3 cũng như định lý chính về sự hội tụ của thuật toán Q-learning, vốn là nền tảng quan trọng trong học tăng cường.
Chúng ta sẽ đi qua từng bước diễn giải, bổ sung luận cứ mang tính hình thức và rõ ràng hơn để giải thích làm sao Lemma và định lý có thể được chứng minh dựa trên tính chất của chuỗi ngẫu nhiên, các điều kiện về hệ số học tập và các đặc trưng của ARP.