programming ai machinelearning computerscience

Refact.ai: Trợ Lý AI Lập Trình Mã Nguồn Mở Vượt Mọi Giới Hạn trên SWE-bench Verified!

Lê Lân

13/06/2025

Refact.ai: Đại Diện AI Agent Mã Nguồn Mở Xuất Sắc Nhất Trên SWE-bench Verified

Mở Đầu

Sự phát triển mạnh mẽ của trí tuệ nhân tạo (AI) đang làm thay đổi căn bản cách thức phát triển phần mềm hiện nay. Refact.ai đã xây dựng một AI Agent mã nguồn mở đạt thành tích xuất sắc trên chuẩn đánh giá SWE-bench Verified, với tỷ lệ giải quyết thành công lên đến 69.9% các tác vụ kỹ thuật phần mềm thực tế.

Trong bài viết này, chúng ta sẽ cùng tìm hiểu chi tiết về Refact.ai Agent, nền tảng SWE-bench Verified cùng các yếu tố kỹ thuật giúp AI Agent không chỉ đạt điểm số cao mà còn mang lại giá trị thực tiễn cho các nhà phát triển và nhóm kỹ thuật. Nội dung sẽ bao gồm cách thiết lập mô hình, chiến lược hoạt động, cải tiến từ SWE-bench Lite, vai trò của sub-agent debug, các cơ chế “guardrails” giữ AI đi đúng hướng, cho đến cách AI Agent đã được ứng dụng thành công trong sản phẩm thực tế.

SWE-bench Verified: Chuẩn Đánh Giá AI Agent Mã Nguồn Mở

SWE-bench Và Phiên Bản Verified

SWE-bench Verified là một phiên bản nâng cấp của SWE-bench gốc, chứa 500 bài toán thực tế được tuyển chọn kỹ lưỡng từ các issue trên GitHub. Đây là bộ dữ liệu benchmark nhằm đánh giá năng lực của AI Agent trong việc xử lý các tác vụ kỹ thuật phần mềm phức tạp và đa dạng.

Tính năng chính	Mô tả
Số lượng bài toán	500
Nguồn dữ liệu	Github issues thực tế
Mục tiêu	Đánh giá khả năng tự động hóa sửa lỗi, phát triển phần mềm
Tiêu chí chấm điểm	Tỷ lệ giải quyết thành công các tác vụ

Tầm Quan Trọng Của SWE-bench Verified

Sự chuẩn hóa dữ liệu, tập trung vào các bài toán thực tiễn giúp benchmark này phản ánh sát sao hiệu quả của AI trong môi trường làm việc thực tế, thay vì những bài toán tổng quát hoặc đơn giản.

SWE-bench Verified cho phép đánh giá AI Agent dựa trên 1 lần chạy duy nhất tại mỗi nhiệm vụ, tạo điều kiện kiểm soát chất lượng và độ tin cậy cao hơn.

Kiến Trúc Và Thiết Lập Mô Hình Của Refact.ai Agent

Mô Hình Orchestration Và Các Sub-Agent

Orchestration model: Claude-3.7 đảm nhiệm vai trò chỉ huy tổng thể.

debug_script() sub-agent: Sử dụng Claude-3.7 cùng mô hình tóm tắt o4-mini nhằm mục đích gỡ lỗi, sử dụng pdb để theo dõi, chỉnh sửa, và tạo các script.

strategic_planning() tool: Dựa trên o3pass@1 giúp lên kế hoạch chiến lược nhằm cải thiện và tinh chỉnh phương án sửa lỗi.

Chiến Lược Nhiệm Vụ

Mỗi bài toán trong SWE-bench Verified được Agent chạy một lần đa bước với mục tiêu tạo ra một giải pháp cuối cùng chính xác. Nhiệt độ (temperature) cài đặt cho tất cả Claude model là 0 để tăng độ ổn định và giảm tính ngẫu nhiên trong trả lời.

Chiến Lược Tối Ưu: Prompt Đơn Giản và Hiệu Quả

Quy Trình 4 Bước Cơ Bản

Khám Phá Vấn Đề: Dùng các lệnh như cat() , search_symbol_definition() , search_symbol_usages() , search_pattern() , search_semantic() để hiểu rõ nguyên nhân.

Tái Hiện Lỗi Với debug_script(): Viết và chạy script kiểm thử để tái hiện lỗi; dùng pdb để gỡ lỗi chi tiết.

Lập Kế Hoạch Và Sửa Lỗi: Sử dụng strategic_planning() để brainstorm giải pháp rồi áp dụng trực tiếp vào mã nguồn.

Kiểm Tra Lại: Chạy lại script tái hiện lỗi và toàn bộ test hiện có để đảm bảo sửa không gây lỗi phụ.

Tinh Giản Prompt: Tại sao càng đơn giản càng hiệu quả?

Kinh nghiệm của Refact.ai cho thấy khi prompt càng đơn giản và rõ ràng, AI Agent càng dễ tập trung vào mục tiêu và tuân thủ quy trình đã định.

Việc thông báo rõ ràng từng bước tiếp theo và bắt buộc AI suy nghĩ minh bạch trước các hành động (bằng cách dùng thẻ <think></think> ) giúp tăng tính logic và hiệu quả thực thi.

Giới Thiệu Debugging Sub-agent Và Guardrails

Vai Trò Của debug_script()

debug_script() giống như một “nhà điều tra lỗi” chuyên nghiệp, sử dụng pdb để gỡ lỗi sâu, kiểm tra chi tiết các tập tin liên quan, xác định chính xác nguyên nhân lỗi và đề xuất cách sửa.

Hệ Thống Guardrails: Giữ Agent Đi Đúng Hướng

Các guardrails tự động phát hiện các dấu hiệu đi sai hướng và gửi tin nhắn “hướng dẫn” ẩn danh vào cuộc trò chuyện để điều chỉnh hành vi Agent.

Ví dụ: Sau khi debug_script() gọi, hệ thống yêu cầu mở tất cả tập tin đã truy cập bằng cat() .

Quy tắc bắt buộc như không gọi debug_script quá 3 lần, luôn lập kế hoạch trước khi sửa code để tránh sai sót.

Guardrails giúp giảm thiểu mô hình chạy lỗi hoặc vòng lặp vô tận, tăng sự ổn định và hiệu quả trong một lần chạy duy nhất.

Cải Tiến So Với Chiến Lược SWE-bench Lite

Từ 59.7% Đến 69.9% Thành Công

Cải tiến	Mô tả
Đổi tên công cụ rõ ràng hơn	Ví dụ: `definition()` thành `search_symbol_definition()`
Khắc phục lỗi trong phân tích cú pháp AST	Giúp nhận diện các symbol được trang trí (decorated) chính xác hơn
Ổn định việc đánh chỉ số dòng (line numbers)	Tăng độ tin cậy khi truy vẫn dữ liệu
Giảm độ nén ngữ cảnh chat	Cho phép nhận lại các file đã mở để tránh lặp lệnh vô ích
Tăng khuyến khích mở toàn bộ file thay vì từng dòng	Hạn chế tình trạng giảm chất lượng do ngữ cảnh tràn

Các Thử Nghiệm Không Thành Công

Công cụ phê bình tự động (critique tool) gây giảm hiệu suất.

Quy trình chi tiết phức tạp của strategic_planning() làm chậm và rối.

Thiếu sub-agent debug_script() khiến Agent ưa dùng shell() không hiệu quả.

Chạy Agent không có sub-agent dẫn đến mất chính xác.

Việc đơn giản hóa và tập trung vào những phần quan trọng là bài học rút ra từ các thử nghiệm này, giúp Refact.ai Agent hoạt động trơn tru và hiệu quả hơn.

Ứng Dụng Trong Sản Phẩm Thực Tế Và Kết Quả Cuối Cùng

Ứng Dụng Thực Tế

Refact.ai phát triển sản phẩm tích hợp AI Agent vào các IDE phổ biến như Visual Studio Code và JetBrains, giúp tự động hóa các tác vụ lập trình thường ngày, tăng hiệu suất lên tới 10 lần.

Các cơ chế guardrails và sub-agent debug đã được áp dụng trực tiếp vào dòng sản phẩm, vừa bảo đảm hiệu quả vừa linh hoạt cho người dùng khi cần kiểm soát thủ công.

Kết Quả Đánh Giá SWE-bench Verified

Kết quả chung	Giá trị
Tổng số task	500
Task được giải quyết	349 (69.8%)
Task chưa giải quyết	151 (30.2%)

Phân bố điểm theo Repository lớn

Repository	Tỷ lệ giải quyết
django/django	71.43%
pytest-dev/pytest	84.21%
scikit-learn/scikit-learn	87.5%
pydata/xarray	81.82%
sympy/sympy	72%

Tổng Kết Và Kêu Gọi Hành Động

Refact.ai đã tạo nên bước đột phá đáng kể trong lĩnh vực AI Agent cho lập trình với thành tích xuất sắc trên benchmark thực tế SWE-bench Verified, đồng thời xây dựng được hệ thống công cụ và chiến lược đáng tin cậy và hiệu quả trong đời sống thực.

Nếu bạn là nhà phát triển hay quản lý dự án phần mềm, hãy thử trải nghiệm Refact.ai Agent ngay trên IDE của mình để thấy sự khác biệt trong năng suất và chất lượng công việc!

Cài đặt Refact.ai cho VS Code

Cài đặt Refact.ai cho JetBrains

Tham Khảo

Refact.ai Blog – Open-source SOTA on SWE-bench Verified by Refact.ai

OpenAI – Introducing SWE-bench Verified

Refact.ai GitHub – Refact-Bench Pipeline

Refact.ai Blog – SOTA on SWE-bench Lite Run

Documentations và tài liệu mô hình Claude 3.7 và o3/o4 models