DPO: "Người Hùng" Mới Trong Làng Tinh Chỉnh AI – Đơn Giản Hóa Mọi Thứ!

Lê Lân

27/06/2025

Tối Ưu Hóa Ưu Tiên Gần Đỉnh: Phương Pháp Cải Tiến Trong Đào Tạo Tăng Cường

Mở Đầu

Phương pháp Tối ưu hóa Ưu tiên Gần Đỉnh (Proximal Preference Optimization - PPO) đã được cải tiến nhằm nâng cao hiệu quả cập nhật chính sách trong học tăng cường (Reinforcement Learning - RL).

Trong lĩnh vực trí tuệ nhân tạo, việc huấn luyện các mô hình dựa trên phản hồi từ người dùng (preference-based learning) đang ngày càng trở nên phổ biến. Bài viết này sẽ giới thiệu về phương pháp tối ưu hóa ưu tiên gần đỉnh — một kỹ thuật được đề xuất bởi Rafael Rafailov và nhóm tại Stanford nhằm cải thiện hiệu quả đào tạo bằng cách trực tiếp tối ưu hóa sự ưu tiên mà không cần mô hình hóa phần thưởng (reward modeling) phức tạp.

Chúng ta sẽ lần lượt tìm hiểu các bước tiến hành RL fine-tuning, cách sử dụng hàm phân vùng (partition function), và cách loại bỏ các phần tử khó tính toán để tăng tốc quá trình học.

Phương Pháp Đề Xuất: Tối Ưu Hóa Ưu Tiên Gần Đỉnh

Bối Cảnh Về Tối Ưu Hóa Ưu Tiên Trong RL

Tối ưu hóa ưu tiên truyền thống thường gồm hai bước chính:

Xây dựng mô hình phần thưởng dựa trên phản hồi ưu tiên của người dùng.

Sử dụng mô hình phần thưởng đó để cập nhật chính sách RL.

Tuy nhiên, phương pháp này tốn nhiều tài nguyên và phức tạp do phải mô hình hóa phần thưởng một cách chính xác.

Điểm quan trọng: Phương pháp mới trực tiếp tối ưu hóa sự ưu tiên mà không cần xây dựng mô hình phần thưởng, giảm thiểu sai số và tăng tốc độ hội tụ.

Cải Tiến Trong Cập Nhật Chính Sách

Phương pháp của Rafael Rafailov sử dụng kỹ thuật Direct Preference Optimization (DPO). Thay vì cập nhật chính sách dựa trên phần thưởng ước lượng, DPO trực tiếp làm việc với phản hồi ưu tiên.

Các bước chính:

Thu thập bộ dữ liệu các cặp hành động hoặc chính sách được ưu tiên hơn.

Xây dựng hàm mất mát tương ứng với xác suất chính sách chọn ra ưu tiên đó.

Cập nhật chính sách bằng cách giảm thiểu hàm mất mát mà không cần tính toán phần thưởng trung gian.

Ứng Dụng Hàm Phân Vùng Trong Tối Ưu Hóa

Để tính toán chính xác xác suất của các ưu tiên mà không cần mô hình phần thưởng, nhóm nghiên cứu tận dụng hàm phân vùng (partition function).

Ưu điểm của việc sử dụng hàm phân vùng:

Loại bỏ sự phụ thuộc vào hàm phần thưởng có thể phức tạp và không ổn định.

Cho phép tính toán trực tiếp xác suất ưu tiên mà không cần ước lượng tham số trung gian.

Việc xóa bỏ biến Z(x,x) trong biểu thức giúp đơn giản hóa tính toán, làm cho phương pháp trở nên khả thi và hiệu quả hơn trong thực tế.

Lợi Ích và Ứng Dụng

Ưu Điểm Nổi Bật

Giảm thiểu độ phức tạp trong mô hình hóa phản hồi của người dùng.

Tăng tốc độ hội tụ trong quá trình đào tạo.

Cung cấp khả năng tối ưu hóa trực tiếp các ưu tiên có ảnh hưởng trực tiếp đến hiệu quả mô hình.

Phạm Vi Ứng Dụng

Huấn luyện các mô hình ngôn ngữ lớn dựa trên phản hồi người dùng.

Điều chỉnh các hệ thống tương tác như chatbot, trợ lý ảo.

Tối ưu hóa nhóm chính sách trong các hệ thống học tăng cường phức tạp.

Kết Luận

Phương pháp Direct Preference Optimization được Rafael Rafailov và nhóm tại Stanford đề xuất đã tạo ra một bước đột phá trong việc huấn luyện mô hình RL dựa trên phản hồi ưu tiên. Bằng cách loại bỏ mô hình phần thưởng trung gian và sử dụng hàm phân vùng để xử lý xác suất ưu tiên, method này giúp đơn giản hóa và tối ưu hóa quá trình cập nhật chính sách.

Nếu bạn đang làm việc trong lĩnh vực học tăng cường hoặc phát triển các ứng dụng sử dụng phản hồi người dùng, phương pháp này xứng đáng được thử nghiệm và áp dụng để tăng hiệu suất mô hình.

Tham Khảo

Rafailov, R., et al. "Direct Preference Optimization: Perceiving Feedback without Reward Modeling." Stanford University, 2024.

Christiano, P. F., et al. "Deep reinforcement learning from human preferences." Advances in Neural Information Processing Systems, 2017.

OpenAI Blog. "Training language models to follow instructions with human feedback." May 15, 2023

Sutton, R. S., & Barto, A. G. Reinforcement Learning: An Introduction, 2nd Edition, 2018.