Docker Model Runner: Khi AI 'Ngoan Ngoãn' Chạy Ngay Trong Máy Bạn!

Lê Lân

14/06/2025

Docker Model Runner: Chạy Mô Hình AI Cục Bộ Hiệu Quả Với Docker

Mở Đầu

Docker Model Runner là một tính năng đột phá trong Docker Desktop (bắt đầu từ phiên bản 4.40) giúp các nhà phát triển dễ dàng chạy các mô hình AI ngay trên máy tính cá nhân. Tính năng này tối ưu quá trình phát triển, thử nghiệm và tích hợp mô hình trí tuệ nhân tạo (AI) mà không cần phụ thuộc vào dịch vụ đám mây.

Trong thời đại AI ngày càng phát triển, việc thử nghiệm và vận hành mô hình ngôn ngữ lớn (LLM) thường gây khó khăn do yêu cầu về tài nguyên và phí dịch vụ đám mây. Docker Model Runner mang đến giải pháp chạy mô hình AI tại chỗ, giúp tăng tốc độ phát triển, giảm chi phí và tối ưu quản lý tài nguyên. Bài viết này sẽ cung cấp cái nhìn tổng quan và hướng dẫn chi tiết để bạn tận dụng tối đa công cụ này cùng với LangChain - một thư viện phổ biến trong xây dựng ứng dụng AI.

Docker Model Runner Là Gì?

Docker Model Runner là một phần mở rộng trong Docker Desktop, cho phép chạy các mô hình AI trực tiếp trên môi trường Docker bằng câu lệnh docker model . Tính năng này tích hợp sâu với hệ sinh thái Docker, hỗ trợ thử nghiệm mô hình trên máy cục bộ một cách nhanh chóng và thuận tiện.

Các tính năng nổi bật

Chạy mô hình AI cục bộ giúp giảm phụ thuộc API đám mây

Tương thích API OpenAI dễ dàng hoán đổi giữa mô hình cục bộ và đám mây

Quản lý tài nguyên hiệu quả, tự động tải/nạp mô hình theo nhu cầu

Tích hợp chặt chẽ với Docker Compose để xây dựng môi trường đa container đồng bộ

Lưu ý quan trọng: Docker Model Runner chỉ khả dụng trên Docker Desktop phiên bản 4.40 trở lên với hỗ trợ cho Windows, macOS và Linux (đang trong giai đoạn preview trên Linux).

Lợi Ích Của Docker Model Runner Trong Quyết Định Giải Pháp AI

1. Thử nghiệm mô hình AI ngay tại máy (Local testing)

Chạy mô hình ngôn ngữ lớn (LLM) trực tiếp trên thiết bị giúp bạn:

Dễ dàng kiểm tra và tinh chỉnh tham số mô hình

Đánh giá hành vi mô hình trong những tình huống cụ thể

Tránh chi phí gọi API đám mây và hạn chế rủi ro bảo mật dữ liệu

2. Tích hợp trong workflow sẵn có

Docker Model Runner dễ dàng phối hợp với Docker Compose, giúp vận hành mô hình AI song song với các phần mềm khác trong một môi trường chạy đa container. Điều này mang lại sự nhất quán và khả năng tái tạo môi trường phát triển.

3. Tương thích API OpenAI

Model Runner cung cấp các điểm cuối (endpoint) tương thích API OpenAI, giúp bạn tận dụng các ứng dụng hoặc thư viện hiện tại mà không cần thay đổi nhiều:

Lợi ích	Mô tả
Tính tương thích cao	Sử dụng các công cụ, thư viện dựa trên API OpenAI với mô hình local
Dễ dàng chuyển đổi	Chọn sử dụng dịch vụ đám mây hoặc local tùy nhu cầu

4. Quản lý tài nguyên thông minh

Mô hình chỉ được load khi có yêu cầu và tự động unload khi không sử dụng, đảm bảo máy tính không bị quá tải quá trình chỉnh sửa hay chạy thử.

Đây là một cải tiến lớn giúp tận dụng tối đa hiệu năng mà vẫn giữ được sự linh hoạt.

Khi Nào Nên Sử Dụng Docker Model Runner?

Thử nghiệm và phát triển mô hình ngôn ngữ lớn (LLM) mà không muốn trả phí dịch vụ API bên ngoài.

Làm việc offline trong workshop, sự kiện hoặc môi trường mạng giới hạn, đảm bảo bảo mật.

Tích hợp AI trong quy trình phát triển nội bộ qua Docker Compose, giúp synchro giữa các dịch vụ.

Trải nghiệm mô hình AI như Docker image — thao tác dễ dàng, tái sử dụng nhanh chóng.

Hướng Dẫn Tích Hợp Docker Model Runner Với LangChain

1. Yêu cầu hệ thống

Docker Desktop phiên bản 4.40 trở lên (Windows, macOS hoặc Linux)

Python 3.8 trở lên

Cài đặt gói langchain_openai :

pip install langchain_openai

Phần cứng:

Hệ điều hành	Yêu cầu phần cứng
Windows	NVIDIA GPU có CUDA
macOS	Apple Silicon (M1, M2, ...)
Linux	Đang trong giai đoạn preview

2. Kích hoạt Docker Model Runner

Có thể bật tính năng này trong Docker Desktop:

Mở Docker Desktop

Vào Settings → Features in development

Bật Enable Docker Model Runner

Bật Enable host-side TCP support và đặt cổng là 12434

Nhấn Apply & Restart

Hoặc dùng dòng lệnh:

docker desktop enable model-runner --tcp 12434

3. Tải mô hình về máy

Ví dụ tải mô hình LLaMA 3.2:

docker model pull ai/llama3.2:3B-Q4_K_M

4. Viết script Python sử dụng LangChain kết nối Docker Model Runner

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="ai/llama3.2:3B-Q4_K_M",
    base_url="http://localhost:12434/engines/v1",
    api_key="ignored"
)

response = llm.invoke("Explain the Doppler effect in simple terms.")
print(response)

5. Chạy thử mô hình

Lưu script trên với tên test_model.py và chạy:

python test_model.py

Bạn sẽ nhận được câu trả lời từ mô hình AI hiển thị trên terminal.

Tài Nguyên Tham Khảo Bổ Sung

Docker Model Runner Official Documentation

Docker Compose Integration Guide

From Zero to Local LLM: A Developer's Guide to Docker Model Runner

Video hướng dẫn kích hoạt Docker Model Runner trên YouTube: Link

Bài viết trên DEV Community: Link

Kết Luận

Docker Model Runner mở ra một kỷ nguyên mới cho phát triển ứng dụng AI khi giúp các nhà phát triển chạy mô hình trí tuệ nhân tạo ngay trên máy cá nhân một cách nhanh chóng, tiết kiệm và dễ dàng tích hợp. Với sự tương thích cao cùng API OpenAI và khả năng phối hợp chặt chẽ trong môi trường Docker, đây là công cụ không thể thiếu cho những ai muốn thử nghiệm, phát triển và tối ưu các giải pháp AI mà không cần phụ thuộc nhiều vào dịch vụ đám mây.

Hãy thử ngay Docker Model Runner để trải nghiệm một quy trình phát triển AI linh hoạt, bảo mật và chủ động nhất!

Bạn muốn trao đổi thêm về AI, điện toán đám mây và kiến trúc phần mềm? Kết nối với tôi qua:

LinkedIn: /cfraposo

Instagram:
osertaoseracloud

Sẽ có nhiều kiến thức kỹ thuật cập nhật và các công cụ mới hữu ích được chia sẻ thường xuyên!