Chinh Phục Chứng Minh Hội Tụ Q-Learning: Từ Robbins-Monro Đến Action Replay Process

Lê Lân

20/06/2025

Giải Thích và Chứng Minh Lemma B.3 và Định Lý Chính trong Bài Báo của Watkins về Q-Learning

Mở Đầu

Trong bài báo về Q-learning do Watkins phát triển, tác giả giới thiệu một mô hình mới gọi là Action Replay Process (ARP) dựa trên Mô hình Quyết định Markov (MDP). Bài viết này nhằm giúp bạn hiểu sâu sắc toàn bộ quy trình chứng minh Lemma B.3 cũng như định lý chính về sự hội tụ của thuật toán Q-learning, vốn là nền tảng quan trọng trong học tăng cường.

Chúng ta sẽ đi qua từng bước diễn giải, bổ sung luận cứ mang tính hình thức và rõ ràng hơn để giải thích làm sao Lemma và định lý có thể được chứng minh dựa trên tính chất của chuỗi ngẫu nhiên, các điều kiện về hệ số học tập và các đặc trưng của ARP.

1. Chứng Minh Lemma B.3 (Robbins-Monro)

1.1 Phát Biểu Lemma

Cho dãy biến ngẫu nhiên có kỳ vọng cố định

﻿

là

﻿

, và dãy học tốc độ

﻿

thoả mãn:

$0 \le \beta_n< 1 $$ \sum_{n=1}^\infty \beta_n = +\infty $$ \sum_{n=1}^\infty \beta_n^2 < +\infty$.