Phỏng Vấn LLM Engineer: Xây Dựng Chatbot RAG 'Xịn Sò' Từng Bước Một!

Lê Lân

23/06/2025

Thiết Kế Chatbot Hỗ Trợ Khách Hàng Dựa Trên Retrieval-Augmented Generation (RAG): Hướng Dẫn Chi Tiết

Giới Thiệu

Chatbot hỗ trợ khách hàng đã trở thành công cụ không thể thiếu trong việc tối ưu hóa dịch vụ và giảm tải nhân sự. Công nghệ Retrieval-Augmented Generation (RAG) mang đến một bước tiến lớn khi kết hợp khả năng truy xuất thông tin chính xác và tạo phản hồi tự nhiên, giúp chatbot không chỉ trả lời nhanh mà còn chính xác theo tài liệu chính thức.

Trong bài viết này, chúng ta sẽ khám phá quy trình thiết kế một chatbot hỗ trợ khách hàng sử dụng RAG với khả năng mở rộng, bảo mật dữ liệu và độ trễ phản hồi dưới 2 giây. Hướng dẫn chi tiết từng bước triển khai hệ thống từ kiến trúc, lựa chọn mô hình, thực thi RAG cho tới chiến lược triển khai, giám sát và tối ưu chi phí bằng các công cụ mã nguồn mở và giao diện thân thiện như Gradio.

Yêu Cầu và Mục Tiêu

Mô tả nhiệm vụ

Thiết kế một hệ thống chatbot hỗ trợ khách hàng có khả năng trả lời dựa trên tài liệu công ty sử dụng các mô hình ngôn ngữ lớn (Large Language Models - LLMs) được tinh chỉnh kỹ lưỡng.

Yêu cầu chính

Sử dụng mô hình mã nguồn mở để bảo đảm bảo mật dữ liệu.

Hỗ trợ tối thiểu 100 người dùng đồng thời.

Phản hồi dựa hoàn toàn trên tài liệu công ty, không tạo nội dung sai lệch (hallucination).

Đảm bảo độ trễ phản hồi dưới 2 giây.

Thu thập và phân tích dữ liệu sử dụng bao gồm loại câu hỏi và mức độ hài lòng.

Hệ thống phải hiệu quả chi phí và có khả năng mở rộng.

Sản phẩm đầu ra

Tài liệu thiết kế chi tiết kiến trúc và luồng dữ liệu.

Lý do chọn mô hình và mô tả triển khai RAG.

Chiến lược triển khai và mở rộng hệ thống.

Kế hoạch giám sát, thu thập số liệu.

Dự toán chi phí vận hành.

Các thách thức và giải pháp khắc phục.

Kiến Trúc Hệ Thống

Tổng quan kiến trúc

Hệ thống được xây dựng theo kiến trúc module, đảm bảo mở rộng dễ dàng và đáp ứng đồng thời:

Frontend (React): Giao diện người dùng thân thiện, hỗ trợ tải tài liệu và chat trực tuyến.

API Gateway (NGINX): Điều phối các kết nối HTTP và WebSocket cho chat real-time.

Kafka: Luồng xử lý dữ liệu và lưu trữ log phục vụ phân tích.

Backend Service (FastAPI): Xử lý yêu cầu, quản lý tài liệu, điều phối truy vấn.

LLM Service: Chạy các mô hình Llama-2 tinh chỉnh trên máy chủ AWS GPU.

RAG System: Với Milvus làm hệ thống tìm kiếm vector và BGE-M3 sinh embedding.

Databases: MinIO lưu file tài liệu, MongoDB quản lý metadata và logs.

Giám sát, phân tích: Prometheus và Grafana giám sát hiệu năng, Kafka tích hợp phân tích truy vấn và phản hồi người dùng.

Luồng dữ liệu

Người dùng upload tài liệu qua frontend.

Backend lưu file lên MinIO, trích xuất văn bản bằng Apache Tika, chia nhỏ văn bản thành đoạn.

Sinh embedding dùng BGE-M3, lưu trên Milvus cùng metadata trong MongoDB.

Khi truy vấn, backend truy xuất các tài liệu liên quan từ Milvus.

Lựa chọn LLM phù hợp (Llama-7B hay 13B) dựa trên độ phức tạp truy vấn.

Mô hình tạo phản hồi và trả về cho người dùng qua websocket.

Kafka ghi lại truy vấn và sử dụng để phân tích hành vi người dùng.

Sơ đồ kiến trúc (đơn giản)

React Frontend	→	NGINX Gateway	→	Kafka	→	FastAPI Backend
					→	Milvus (RAG)
					→	Llama-2 (LLM)
					→	MinIO, MongoDB
					→	Prometheus, Grafana

Lựa Chọn Mô Hình

Mô hình chính sử dụng

Llama-2 (7B và 13B): Mô hình mã nguồn mở, đa ngôn ngữ, dễ tinh chỉnh, 7B xử lý các câu hỏi thông thường, 13B dành cho truy vấn phức tạp.

BGE-M3: Mô hình embedding đa ngôn ngữ, chính xác cao cho truy xuất tài liệu đa dạng nội dung và ngôn ngữ.

sentence-transformers/all-MiniLM-L6-v2: Nhẹ, nhanh, dùng đánh giá độ phức tạp truy vấn phân luồng đến mô hình LLM phù hợp.

Lý do lựa chọn

Llama-2's mã nguồn mở đảm bảo dữ liệu không bị rò rỉ.

BGE-M3 đặc biệt tốt với embedding đa ngôn ngữ, hỗ trợ cho tài liệu công ty đa dạng.

MiniLM-L6-v2 giúp tối ưu hiệu suất bằng cách phân loại truy vấn nhanh trước khi gọi LLM lớn.

Triển Khai RAG

Xử lý tài liệu

Người dùng tải lên file định dạng (doc, pdf, text).

Hệ thống FastAPI lưu file vào MinIO.

Trích xuất văn bản với Apache Tika.

Tách văn bản thành đoạn nhỏ, sinh embedding qua BGE-M3.

Lưu embedding và metadata vào Milvus và MongoDB.

Xử lý truy vấn

Truy vấn đầu vào được chuyển sang embedding cùng mô hình BGE-M3.

Milvus truy xuất các đoạn văn bản tương đồng cao nhất.

MiniLM-L6-v2 đánh giá mức độ phù hợp để chọn LLM xử lý.

LLM tạo phản hồi giới hạn theo ngữ cảnh tài liệu với prompt chống hallucination: “Answer only from the provided context or say ‘I don’t know.’”

Nếu không tìm được tài liệu phù hợp, thông báo: “No relevant information found.”

Tối ưu

Cache các câu hỏi thường gặp để giảm tải mô hình LLM.

Áp dụng quy trình truy xuất 2 giai đoạn nhằm tăng độ chính xác.

Cập nhật embedding định kỳ theo tài liệu mới tải lên.

Điểm quan trọng: RAG giúp chatbot trả lời dựa trên dữ liệu thật, giảm thiểu rủi ro sai lệch thông tin so với chỉ dựa vào mô hình LLM đơn thuần.

Chiến Lược Triển Khai

Hạ tầng AWS

LLM service vận hành trên các instance g4dn.12xlarge (4 GPU T4) với kỹ thuật 4-bit quantization để tiết kiệm tài nguyên.

Backend và các dịch vụ khác chạy trên EC2 (m5.large cho FastAPI, t3.medium cho MongoDB, MinIO).

Kafka triển khai trên nhiều máy m5.large.

Container hóa bằng Docker, điều phối qua Kubernetes.

NGINX làm cân bằng tải.

Kubernetes tự động mở rộng khi cần đáp ứng > 100 người dùng.

Đáp ứng độ trễ

Milvus trả lời truy xuất ~0.1 giây.

Mô hình LLM tạo câu trả lời ~1.5 giây.

Tổng thời gian dưới 2 giây đảm bảo trải nghiệm mượt mà.

Giám Sát và Phân Tích

Sử dụng Prometheus và Grafana theo dõi trạng thái CPU, GPU, độ trễ phản hồi.

Kafka ghi lại truy vấn, phân loại tự động theo kiểu câu hỏi và lưu phản hồi người dùng (đánh giá).

Định kỳ kiểm tra chất lượng phản hồi, cập nhật mô hình khi tài liệu mới thay đổi.

Dự Toán Chi Phí

Dịch vụ	Số lượng & Loại	Chi phí hàng tháng (USD)
LLM Service	5 x g4dn.12xlarge	$1,417
Backend Service	2 x m5.large	$201
MongoDB	t3.medium	$16.52
MinIO	t3.medium	$16.52
Milvus	m5.large	$100.80
Kafka	3 x m5.large	$301.44
Analytics	t3.medium	$16.52
Tổng cộng		$2,069.80

Chiến lược tối ưu chi phí

Sử dụng 4-bit quantization để giảm tải GPU.

Cache và gom nhóm truy vấn với vLLM.

Dùng AWS spot instances cho các tác vụ không thời gian thực đòi hỏi.

Giám sát chi phí liên tục qua công cụ như Cast AI.

Thách Thức và Giải Pháp

Thách Thức	Giải Pháp
Truy xuất không liên quan	Tinh chỉnh BGE-M3, cho phép chọn tài liệu cụ thể
Không có tài liệu phù hợp	Thông báo người dùng, đề xuất hỗ trợ nhân viên
Mô hình lỗi thời	Tự động tinh chỉnh khi cập nhật tài liệu mới
Vấn đề mở rộng	Tự động scale Kubernetes, kiểm thử tải thường xuyên
Bảo mật & Riêng tư	Mã hóa toàn bộ dữ liệu, giới hạn truy cập trong mạng nội bộ
Quá tải chi phí	Giám sát chặt chẽ, tối ưu tài nguyên, sử dụng spot instances

Giải pháp tích hợp đầy đủ và đồng bộ mang lại sự ổn định, hiệu quả trong vận hành hệ thống RAG chatbot.

Kết Luận

Hệ thống chatbot hỗ trợ khách hàng dựa trên Retrieval-Augmented Generation kết hợp sức mạnh của mô hình ngôn ngữ Llama-2 với khả năng truy xuất tài liệu đa ngôn ngữ BGE-M3, mang đến câu trả lời nhanh, chính xác và đảm bảo dữ liệu luôn được bảo mật.

Với khả năng phục vụ hơn 100 người dùng đồng thời và phản hồi dưới 2 giây, hệ thống phù hợp với các doanh nghiệp có nhu cầu tự động hóa dịch vụ khách hàng quy mô lớn mà vẫn tối ưu chi phí vận hành.

Đây là một nền tảng vững chắc và có thể phát triển thêm nhằm đáp ứng những yêu cầu kỹ thuật và kinh doanh trong tương lai.

Tham Khảo

finetune-tinyllama-lora/system_design

Hugging Face - Llama-2 Models: https://huggingface.co/meta-llama

Milvus Documentation: https://milvus.io/docs

Apache Tika: https://tika.apache.org/

Prometheus & Grafana: https://prometheus.io/ , https://grafana.com/

AWS g4dn Instances: https://aws.amazon.com/ec2/instance-types/g4/