llm architecture rag softwareengineering

Kiến trúc Nhận thức và RAG: Xây dựng Ứng dụng LLM Hiệu quả

Lê Lân

07/07/2025

Tổng Quan Các Mẫu Kiến Trúc Nhận Thức Trong Ứng Dụng Dựa Trên LLM: Áp Dụng cho Hệ Thống Retrieval Augmented Generation (RAG)

Mở Đầu

Trong thế giới phát triển nhanh chóng của trí tuệ nhân tạo (AI), đặc biệt là các mô hình ngôn ngữ lớn (LLM), việc hiểu rõ các mô hình kiến trúc nhận thức (cognitive architecture patterns) là điều then chốt để thiết kế những hệ thống hiệu quả và đáng tin cậy.

Khi xây dựng một ứng dụng dựa trên LLM, chúng ta dễ dàng mất phương hướng trong mê cung của các chi tiết kỹ thuật hay những “cơn sốt” AI mới nhất, khiến ta bỏ lỡ cái nhìn tổng thể – điều rất quan trọng để xác định đâu là phần nên sử dụng LLM và đâu nên giữ cố định nhằm đảm bảo tính ổn định và khả năng tái lập. Bài viết này sẽ trình bày các mẫu kiến trúc nhận thức phổ biến, phân loại theo cấp độ tự chủ của hệ thống, đồng thời minh họa qua trường hợp sử dụng hệ thống Retrieval Augmented Generation (RAG) – một kỹ thuật kết hợp khả năng truy xuất dữ liệu thực tế với sức mạnh ngôn ngữ của LLM.

Các Mẫu Kiến Trúc Nhận Thức Trong Ứng Dụng AI

1. Cấp Độ 1: Mã Hoá Từng Bước (Code Every Step)

Thông thường nhất, tất cả các bước và lệnh gọi đều được lập trình cứng nhắc, không sử dụng LLM. Đây là cách làm truyền thống, đảm bảo mục tiêu tính ổn định và dễ tái lập.

2. Cấp Độ 2: Gọi LLM (LLM Call)

Lần đầu tiên có sự tham gia của LLM, ví dụ như dịch văn bản. Lập trình viên vẫn xác định chính xác khi nào bước đó được thực thi, còn lại quy trình có cấu trúc tuyến tính, dễ dự đoán.

3. Cấp Độ 3: Chuỗi Lệnh (Chain)

Thay vì gọi LLM một lần, nhiều lời gọi LLM sẽ diễn ra theo thứ tự cố định. Ví dụ, đầu tiên dịch, rồi sau đó tóm tắt nội dung văn bản để người dùng có thể nhận được tin tức dưới dạng ngắn gọn.

4. Cấp Độ 4: Bộ Điều Hướng (Router)

Ở cấp độ này, LLM không chỉ tạo ra kết quả mà còn đóng vai trò quyết định bước tiếp theo là gì dựa trên tình huống và đầu vào, hình thành nên một đồ thị có hướng không chu trình (DAG). Ví dụ, một web crawler phân loại và quyết định xem có nên thêm công ty vào danh sách hay không dựa trên chất lượng thông tin thu thập.

5. Cấp Độ 5: Máy Trạng Thái (State Machine)

Bước sang hệ thống có chu trình (có thể lặp lại), tạo ra các tác nhân (agent) có thể tự điều chỉnh hành động dựa trên phản hồi và lặp lại quá trình cho đến khi đạt mục tiêu đặt ra. Nhà phát triển kiểm soát được các trạng thái và hành vi tiềm năng, tránh hệ thống quá rối loạn. Ví dụ: một trình thu thập thông tin liên tục cải thiện tiêu chí lọc dữ liệu dựa trên kết quả từng vòng lặp.

6. Cấp Độ 6: Tác Nhân Tự Chủ (Autonomous Agents)

Ở cấp độ cao nhất, tác nhân không chỉ tự lập trình các bước đi mà còn có thể lựa chọn công cụ, cải tiến prompt, học hỏi và bổ sung thêm các công cụ mới cho bản thân. Đây là hệ thống mạnh mẽ nhưng cũng khó dự đoán và cần sự giám sát chặt chẽ.

Lưu ý: Các thang đo tự chủ có thể được phân tách chi tiết hơn, ví dụ như thư viện smolagents từ cấp 2-3 trở lên.

Retrieval Augmented Generation (RAG): Củng Cố AI Bằng Thực Tế

Định Nghĩa Nhanh về RAG

LLM truyền thống gặp hạn chế khi kiến thức chỉ cập nhật đến một thời điểm nhất định, dễ phát sinh hiện tượng "ảo tưởng" (hallucination), và không thể truy cập dữ liệu riêng tư hay thời gian thực. RAG giải quyết bằng cách kết nối LLM với một cơ sở tri thức và cơ chế truy xuất dữ liệu, cho phép mô hình:

Dựa trên cơ sở thông tin thực tế và có căn cứ

Tập trung vào lĩnh vực chuyên biệt

Cập nhật thông tin gần như thời gian thực

Kiểm soát dữ liệu truy xuất

RAG Có Còn Phù Hợp?

Mặc dù kích thước cửa sổ ngữ cảnh (context window) của LLM ngày càng lớn, thì:

Đối với các dữ liệu tĩnh lớn, tìm kiếm chính xác một mẩu nhỏ thông tin vẫn cần RAG.

Độ chính xác suy giảm nếu dữ liệu bị "mất" trong ngữ cảnh dài.

Giảm chi phí và tăng tốc độ khi lượng dữ liệu lớn.

Không yêu cầu hiểu toàn bộ văn bản mà chỉ các đoạn trích xuất.

Các Phương Thức Truy Xuất

Không nhất thiết phải chỉ dựa trên tìm kiếm nhúng vector. Tìm kiếm bằng từ khóa hoặc phương pháp hỗn hợp rất phổ biến và hiệu quả trong nhiều tình huống.

Sự Tiến Hóa Tự Chủ Trong Các Hệ Thống RAG

Cấp Độ 1: Tìm Kiếm Cổ Điển (Classic Search)

Người dùng gửi truy vấn.

Hệ thống tìm kiếm tài liệu liên quan trong cơ sở dữ liệu.

Trả kết quả trực tiếp, không tham gia LLM.

Cấp Độ 2: RAG Cổ Điển (Classic RAG)

Hệ thống truy xuất tài liệu.

Tích hợp tài liệu vào ngữ cảnh.

Gọi LLM một lần để tạo phản hồi.

Quy trình tuyến tính, dễ hiểu.

Ví dụ hệ thống có thể truy vấn song song nhiều nguồn dữ liệu, sau đó hợp nhất kết quả (ví dụ dùng kỹ thuật reciprocal rank fusion – RRF).

Cấp Độ 3: RAG Chuỗi Lệnh (Chained RAG)

Kết hợp nhiều lời gọi LLM nhằm tăng cường hiệu quả.

Ví dụ:

Rewrite-Retrieve-Read (RRR): Chỉnh sửa câu truy vấn trước khi tìm kiếm để cải thiện kết quả.

Rerank RAG: Lời gọi LLM thứ hai để chấm điểm và sắp xếp lại tài liệu theo mức độ liên quan.

Hypothetical Document Embeddings (HyDE): Tạo embedding giả định cho tài liệu dựa trên truy vấn để nâng cao chất lượng tìm kiếm.

Bạn vẫn có thể kết hợp đa phương pháp như rewrite+multi-query+rerank trước khi tạo phản hồi.

Cấp Độ 4: RAG Có Bộ Điều Hướng (RAG with Routers)

LLM quyết định bước tiếp theo dựa trên kết quả hiện có.

Ví dụ: After retrieving documents, LLM đánh giá chất lượng. Nếu điểm thấp, LLM ra lệnh thực hiện lại truy vấn bằng web search (corrective RAG).

Vẫn giữ mô hình DAG, không vòng lặp.

Cấp Độ 5: RAG với Máy Trạng Thái (State Machines)

Thêm chu trình lặp.

Hệ thống tự đánh giá kết quả, lặp lại hoặc điều chỉnh hành động nhằm cải thiện đầu ra.

Ví dụ: Self-RAG áp dụng đến 3 bước tự đánh giá chất lượng tài liệu, phản hồi gắn liền với thực tế, và đánh giá tính hữu dụng.

Phức tạp hơn, đòi hỏi có hệ thống theo dõi và ghi chép quá trình để dễ dàng hiểu và sửa lỗi.

Cấp Độ 6: Tác Nhân RAG Tự Chủ (Autonomous RAG Agents)

LLM được cấp lệnh ban đầu và bộ công cụ (retrieval techniques, web search, v.v.).

Quyết định thực thi các bước, số lần gọi, và thứ tự gọi hoàn toàn do LLM quyết định.

Có thể tự viết mã và mở rộng bộ công cụ như mô hình CodeAct.

Điều này mở ra khả năng tạo ra hệ thống RAG hoàn toàn thích ứng và linh hoạt, nhưng cũng đòi hỏi quản lý và kiểm soát nghiêm ngặt.

Công Cụ Phù Hợp Cho Nhiệm Vụ

Không phải lúc nào cũng cần hoặc nên chọn hệ thống có độ tự chủ cao nhất. Mức độ tự chủ càng cao, hệ thống càng phức tạp, khó dự đoán và dễ gây lỗi.

Với dữ liệu lớn và chủ yếu tĩnh, hệ thống RAG đơn giản có thể phù hợp hơn.

Khi quy trình rõ ràng và ít thay đổi, nên ưu tiên giải pháp quyết định và dự đoán được.

Nghiên cứu cho thấy các agent có công cụ truy xuất dựa trên tìm kiếm từ khóa như BM25, kết hợp với khả năng tương tác của agent, có thể đạt hiệu quả tương đương các RAG phức tạp nhưng tiết kiệm chi phí vận hành.

Kết Luận

Trong kỷ nguyên AI phát triển mạnh mẽ, các mẫu kiến trúc nhận thức giúp chúng ta có cái nhìn có hệ thống để xây dựng và đánh giá các hệ thống dựa trên LLM. Từ các giải pháp cứng nhắc không dùng LLM cho tới các tác nhân tự chủ phức tạp, mỗi cấp độ mang lại những lợi ích và thách thức riêng.

Việc lựa chọn mô hình phù hợp phụ thuộc vào yêu cầu bài toán, độ phức tạp, và khả năng kiểm soát của nhà phát triển. Một xu hướng đáng chú ý hiện nay là sự kết hợp giữa mô hình agentic với retrieval, cho phép hệ thống vừa có sức mạnh truy xuất phong phú vừa có sự thông minh linh hoạt trong vận hành.

Hãy bắt đầu từ kiến trúc đơn giản nhất phù hợp với nhu cầu và dần nâng cấp để tận dụng tối đa lợi thế của LLM và các công nghệ liên quan.

Tham Khảo

Harrison Chase. What is a cognitive architecture?

smolagents Documentation. Introduction to Agents

Jeongwoo Pyo et al. "Query Rewriting for Retrieval-Augmented Large Language Models." ArXiv

Benjamin Heintz et al. "Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection." ArXiv

Dominik Otte et al. "Corrective Retrieval Augmented Generation." ArXiv

Yuval Merzon et al. "Executable Code Actions Elicit Better LLM Agents." ArXiv

SIMPL Engineering Blog: RAG autonomy levels explained

Pashpashpash Substack: Why I no longer recommend RAG for coding agents

Jobergum Twitter: Deep research & keyword search