llm architecture rag softwareengineering

Những "Viên Gạch" Xây Dựng AI: Khám Phá Các Mô Hình Kiến Trúc Nhận Thức

Lê Lân

17/06/2025

Các Mẫu Kiến Trúc Nhận Thức Trong Ứng Dụng Dựa Trên Mô Hình Ngôn Ngữ Lớn (LLM)

Mở Đầu

Trong bối cảnh phát triển ứng dụng trí tuệ nhân tạo ngày càng phổ biến, việc hiểu rõ các mẫu kiến trúc nhận thức đóng vai trò quan trọng giúp xây dựng hệ thống hiệu quả và đáng tin cậy.

Khi xây dựng một ứng dụng dựa trên mô hình ngôn ngữ lớn (LLM), bạn thường dễ bị cuốn vào những chi tiết kỹ thuật hay các xu hướng AI mới nhất mà quên mất việc nhìn nhận tổng thể hệ thống. Việc xác định rõ phần nào trong ứng dụng cần sử dụng sức mạnh của LLM và phần nào cần cố định để đảm bảo tính ổn định, có thể lặp lại là những câu hỏi rất quan trọng. Bài viết này sẽ giúp bạn có cái nhìn tổng quan về các mẫu kiến trúc nhận thức phổ biến và cách áp dụng chúng trong thực tế, tập trung vào ví dụ đơn giản là hệ thống RAG (Retrieval Augmented Generation) để minh họa.

Tổng Quan Về Mẫu Kiến Trúc Nhận Thức

Định Nghĩa Mẫu Kiến Trúc Nhận Thức

Thuật ngữ mẫu kiến trúc nhận thức được vay mượn từ một bài viết đầy cảm hứng của Harrison Chase (Langchain), phân loại các kiến trúc AI dựa trên mức độ tự chủ trong hoạt động.

Các mức độ tự chủ trong kiến trúc AI

Level 1: Code Mọi bước và lời gọi đều được code cố định, không dùng LLM. Đây là lập trình truyền thống.

Level 2: LLM Call Có một bước duy nhất gọi đến LLM, ví dụ như dịch văn bản. Developer vẫn kiểm soát toàn bộ luồng.

Level 3: Chain Dùng nhiều lời gọi LLM theo trình tự định sẵn, như gọi LLM để dịch rồi gọi LLM thứ hai để tóm tắt.

Level 4: Router LLM đóng vai trò là bộ điều phối (router), quyết định bước tiếp theo dựa trên ngữ cảnh, tạo ra luồng xử lý dạng DAG (đồ thị có hướng không chu trình).

Level 5: State Machine Thêm chu trình (cycle) vào DAG, thành state machine. AI có thể tự lặp lại hoặc điều chỉnh hành động cho đến khi đạt mục tiêu.

Level 6: Autonomous Agents Hệ thống cho phép LLM tự kiểm soát việc gọi các công cụ/phương thức, tự tạo hoặc điều chỉnh chiến lược hoạt động mà không cần định nghĩa trước.

Mức độ tự chủ cao giúp hệ thống linh hoạt, mạnh mẽ nhưng đồng thời cũng gây phức tạp và khó đoán hơn.

RAG – Đưa AI Tiếp Cận Thực Tế

Khái Niệm RAG

Mô hình RAG giúp giải quyết giới hạn truyền thống của LLM như: kiến thức lỗi thời, khả năng tạo thông tin sai lệch (hallucination), không thể truy cập dữ liệu riêng tư hoặc thời gian thực.

Bằng cách kết hợp cơ chế tra cứu dữ liệu (retrieval) với LLM, RAG cho phép:

Cung cấp câu trả lời có căn cứ thực tế

Chuyên biệt hoá theo lĩnh vực

Cập nhật thông tin mới

Trích dẫn nguồn tin

Một điểm quan trọng: Phần retrieval trong RAG không nhất thiết chỉ là tìm kiếm vector embedding, mà có thể là tìm kiếm từ khoá hoặc kết hợp nhiều phương pháp.

Liệu RAG còn cần thiết trong thời đại LLM ngày càng thông minh?

Mặc dù thông số của LLM ngày càng lớn và khả năng hiểu ngữ cảnh tăng, nhiều trường hợp RAG vẫn hiệu quả hơn:

Dữ liệu chủ yếu tĩnh, cần tìm kiếm có chọn lọc cao (needle-in-haystack)

Tránh mất thông tin trong ngữ cảnh dài

Giảm chi phí gọi API (ít token hơn)

Xử lý khối lượng tài liệu lớn

Chỉ cần hiểu từng phần nhỏ, không cần tổng quan toàn bộ

Tiến Trình Phát Triển Của Các Mẫu Kiến Trúc RAG

Để minh họa cách áp dụng các mức độ kiến trúc nhận thức vào RAG, ta cùng xem xét từng cấp độ cụ thể:

Level 1: Classic Search

Hệ thống tìm kiếm truyền thống: Người dùng gửi truy vấn, hệ thống tìm tài liệu liên quan trong cơ sở dữ liệu, trả về kết quả mà không dùng LLM.

Level 2: Classic RAG

Sử dụng LLM chỉ một lần duy nhất để tạo ra câu trả lời dựa trên tài liệu đã được truy xuất.

Tùy chọn đa truy vấn (multi-query) cũng nằm trong cấp độ 2, khi truy xuất song song từ nhiều kho kiến thức nhưng vẫn chỉ gọi LLM một lần cuối cùng.

Level 3: Chained RAG

Nhiều lời gọi LLM nối tiếp để nâng cao chất lượng hệ thống. Ví dụ:

Rewrite-Retrieve-Read (RRR): Viết lại truy vấn để tối ưu việc truy xuất.

Rerank RAG: Sử dụng LLM hoặc mô hình khác để sắp xếp tài liệu theo độ liên quan.

Hypothetical Document Embeddings (HyDE): Tạo embedding giả định dựa trên truy vấn để tìm kiếm chính xác hơn.

Level 4: RAG with Routers

LLM được sử dụng làm bộ định tuyến, quyết định bước đi tiếp theo dựa trên đánh giá kết quả hiện tại, mở ra hệ thống linh hoạt hơn nhưng vẫn đảm bảo quy trình tuần tự.

Ví dụ về Corrective RAG (CRAG), LLM đánh giá điểm số tài liệu và quyết định có kích hoạt bước bổ sung (ví dụ tìm kiếm web) khi cần.

Level 5: RAG with State Machines

Thêm chu trình phản hồi và lặp lại để cải thiện kết quả. Ví dụ như Self-RAG tự đánh giá nhiều bước (điểm tài liệu, câu trả lời căn cứ, độ hữu ích) và có thể quay lại thực hiện lại quy trình để đạt chất lượng tốt nhất.

Kiến trúc phức tạp này đòi hỏi có hệ thống theo dõi và phân tích kỹ lưỡng để tránh lỗi và dễ dàng gỡ rối.

Level 6: Autonomous RAG Agents

Ở cấp độ cao nhất, LLM không chỉ quyết định các bước tiếp theo mà còn có thể tự viết code, tạo công cụ mới phục vụ việc truy xuất và xử lý.

Ví dụ như CodeAct, cho phép LLM viết và chạy mã nguồn theo yêu cầu, nâng cao tính tự chủ và thích ứng của hệ thống.

Lựa Chọn Công Cụ Phù Hợp

Không phải lúc nào cũng nên chọn mức độ tự chủ cao nhất. Mô hình phức tạp đồng nghĩa với nhiều thách thức trong kiểm soát và độ tin cậy.

Với khối lượng lớn dữ liệu tĩnh, RAG đơn giản có thể hiệu quả hơn.

Khi quy trình rõ ràng, nên ưu tiên phương pháp định trước và ít tự chủ.

Trong những trường hợp nghiên cứu sâu hoặc yêu cầu linh hoạt, agent với công cụ truy xuất đơn giản cùng logic agent có thể đạt hiệu quả cao, giảm chi phí so với các mô hình vectơ phức tạp.

Kết Luận

Việc thiết kế hệ thống ứng dụng LLM dựa trên các mẫu kiến trúc nhận thức cung cấp cho nhà phát triển một khung tư duy rõ ràng để xây dựng hệ thống từ đơn giản đến phức tạp. Mỗi mức độ tự chủ mở ra những khả năng mới nhưng cũng cần cân nhắc kỹ về tính ổn định và khả năng kiểm soát.

Bắt đầu từ kiến trúc đơn giản, nâng cấp theo nhu cầu chính là phương pháp tiếp cận hiệu quả nhất. Xu hướng agentic RAG kết hợp sức mạnh truy xuất và linh hoạt xử lý hứa hẹn rất tiềm năng trong tương lai, đặc biệt khi các giao thức mới như Model Context Protocol (MCP) cho phép mở rộng công cụ dễ dàng.

Nhớ rằng đôi khi, những công cụ đơn giản được sử dụng đúng cách sẽ tạo nên sức mạnh vượt mong đợi.

Tham Khảo

Chase, H. (2023). What is a Cognitive Architecture?

Huggingface. Smolagents Conceptual Guides

Reranking Research: ACL Anthology 2023

Xu, Z., et al. (2023). Rewrite-Retrieve-Read for LLMs

Simpl Engineering Blog: RAG Autonomy Patterns

Nakano, R., et al. (2024). Executable Code Actions Elicit Better LLM Agents

Kim, J., et al. (2023). Self-RAG: Learning through Self-Reflection

Aghajanyan, A., et al. (2024). Corrective RAG