Giải Mã Siêu Năng Lực AI: Cách Triển Khai LLM (Mistral 7B) Trên Amazon EKS với Ray & vLLM – Mượt Mà Như Lụa!

Lê Lân

25/06/2025

Triển Khai Giải Pháp Inference LLM Trên Amazon EKS Sử Dụng GPU NVIDIA

Mở Đầu

Trong thời đại Trí tuệ nhân tạo tạo sinh (Generative AI) phát triển mạnh mẽ, khả năng triển khai các mô hình ngôn ngữ lớn (Large Language Models - LLM) một cách tối ưu trên nền tảng đám mây là chìa khóa để ứng dụng công nghệ này vào thực tiễn.

Hôm nay, tôi đã triển khai thành công một giải pháp inference LLM trên Amazon EKS (Elastic Kubernetes Service) sử dụng GPU NVIDIA. Đây là kết quả học hỏi thực hành từ một buổi workshop hands-on của AWS, trong đó tôi sử dụng mô hình Mistral 7B Instruct v0.3, kết hợp giữa Ray Serve và vLLM để phục vụ nhiệm vụ inference trên EKS.

Bài viết này sẽ cung cấp cái nhìn tổng quan, kiến trúc, các thành phần sử dụng và kinh nghiệm thực tiễn để bạn có thể tham khảo, áp dụng hoặc mở rộng khi làm việc với LLM trên nền tảng cloud.

Kiến Trúc Giải Pháp Inference LLM Trên Amazon EKS

Tổng Quan Kiến Trúc

Dưới đây là sơ đồ kiến trúc của giải pháp inference LLM mà tôi đã triển khai trên EKS:

Hệ thống bao gồm:

Amazon EKS làm nền tảng quản lý Kubernetes, cung cấp khả năng scale và quản lý container chuyên nghiệp.

NVIDIA GPU được trang bị trong node giúp tăng tốc inference các mô hình LLM.

Ray Serve chịu trách nhiệm scaling và quản lý API inference.

vLLM tối ưu hiệu suất chạy mô hình, giảm độ trễ và tiết kiệm bộ nhớ.

Open WebUI là giao diện dashboard để giám sát trạng thái và thử nghiệm khả năng inference dễ dàng.

Điểm Nổi Bật

Tính linh hoạt và khả năng mở rộng trên nền Kubernetes.

Quản lý GPU chi tiết với NVIDIA Data Center GPU Manager Exporter.

Khả năng vận hành end-to-end cho các mô hình LLM có kích thước lớn.

Các Thành Phần Chính Sử Dụng

Amazon EKS

Dịch vụ Kubernetes được quản lý giúp bạn dễ dàng thiết lập, vận hành và mở rộng ứng dụng container có sử dụng GPU.

Ray & Ray Serve

Ray là framework mã nguồn mở được thiết kế để xây dựng và quản lý các ứng dụng AI tạo sinh.

Ray Serve là thư viện phục vụ mô hình quy mô lớn, từ đó xây dựng các API inference trực tuyến mượt mà.

vLLM

vLLM là engine inference hiệu suất cao và tiết kiệm bộ nhớ, hỗ trợ việc triển khai trên Kubernetes một cách dễ dàng.

Kuberay Operator

Sử dụng kuberay operator cho việc triển khai Ray trên Kubernetes giúp giảm thiểu độ phức tạp. Operator này tự động xử lý các bước cần thiết để chạy Ray cluster hiệu quả.

Công Cụ Giám Sát

Ray dashboard: Cung cấp thông tin trực quan về sức khỏe cluster, jobs và nodes.

Open WebUI: Dashboard thân thiện để tương tác và theo dõi inference.

NVIDIA DCGM Exporter: Xuất các chỉ số quan trọng của GPU như nhiệt độ, công suất, mức sử dụng GPU cho các hệ thống giám sát như Grafana.

Hiện tại, để lấy dữ liệu giám sát về GPU NVIDIA trên Kubernetes, bạn phải cài đặt NVIDIA Data Center GPU Manager exporter . Đây là công cụ dễ sử dụng và cho phép theo dõi các chỉ số GPU một cách đầy đủ và chính xác.

Hướng Dẫn Triển Khai Nhanh

Chuẩn bị môi trường EKS có GPU Node.

Cài đặt kuberay operator để triển khai cluster Ray.

Cấu hình Ray Serve và vLLM phục vụ mô hình Mistral 7B Instruct.

Cài đặt và chạy Open WebUI để test mô hình cũng như giám sát inference.

Cài đặt NVIDIA DCGM Exporter để thu thập metrics GPU.

Kết nối Grafana hoặc công cụ giám sát khác để theo dõi hoạt động GPU.

Lợi Ích Khi Triển Khai LLM Trên Amazon EKS

Lợi ích	Mô tả thực tế
Quản lý quy mô dễ dàng	Khả năng scale tự động khi mô hình hoặc lượng request tăng lên.
Kiểm soát hoàn toàn	Toàn quyền với môi trường, mô hình và dữ liệu, thích hợp cho các tổ chức có yêu cầu bảo mật cao.
Tối ưu GPU	Khai thác hiệu quả sức mạnh NVIDIA GPU cho việc inference LLM.
Hỗ trợ công cụ mã nguồn mở	Sử dụng các framework phổ biến như Ray, vLLM, dashboard Open WebUI, đảm bảo tính linh hoạt.

Kết Luận

Việc kết hợp các công cụ mã nguồn mở mạnh mẽ như Ray, Open WebUI, vLLM cùng với mô hình Mistral giúp triển khai inference LLM trên Amazon EKS không chỉ hiệu quả mà còn có khả năng mở rộng rất cao. Đây thực sự là một hướng phát triển hứa hẹn trong lĩnh vực AI tạo sinh và điện toán đám mây.

Nếu bạn quan tâm đến việc xây dựng, triển khai các giải pháp LLM trên cloud hoặc muốn khám phá sâu hơn về quản lý GPU trong Kubernetes, hãy thử áp dụng kiến thức và công nghệ trên.

Follow Me

Nếu bạn thích các bài viết của tôi về AWS, MCP, Kubernetes và điện toán đám mây, hãy theo dõi tôi qua các kênh sau:

LinkedIn của tôi

dev.to posts

Blog cá nhân

Tham Khảo

Ray Documentation

Ray Serve Documentation

vLLM Documentation

kuberay Operator GitHub

NVIDIA Data Center GPU Manager Exporter

Open WebUI GitHub