Tự tay "chế" AI Agent "siêu đỉnh" với Google Gemini, TypeScript và Node.js!

Lê Lân

18/06/2025

Xây Dựng AI Agent Tự Động Với Google Gemini và TypeScript: Hướng Dẫn Chi Tiết

Mở Đầu

Bạn đã bao giờ tưởng tượng một AI agent có thể tự động hoàn thành các nhiệm vụ phức tạp, suy nghĩ, lập kế hoạch và hành động thay bạn chưa? Nếu có, thì dự án AI agent sử dụng Google Gemini kết hợp với TypeScript dưới đây sẽ là nguồn cảm hứng tuyệt vời dành cho bạn.

Trong thời đại AI phát triển mạnh mẽ hiện nay, việc xây dựng các agent (tác nhân AI) tự động đang trở thành xu hướng trọng điểm. Dựa trên khoá học nổi tiếng Agent From Scratch của Scott Moss, dự án ai-agent-gemini mang đến một giải pháp modular, dễ mở rộng và hackable bằng việc áp dụng Google Gemini API cùng ngôn ngữ TypeScript trên môi trường Node.js hiện đại.

Bài viết này sẽ cùng bạn khám phá toàn diện về cách xây dựng một AI agent, từ ý tưởng, kiến trúc, các công nghệ sử dụng, đến những thử thách và kế hoạch phát triển tương lai của dự án.

Tổng Quan Về AI Agent

🧠 Agent Là Gì?

AI agent là một chương trình thông minh có khả năng nhận mục tiêu từ người dùng, suy nghĩ, lên kế hoạch chi tiết, thực hiện các hành động cần thiết thông qua các công cụ hỗ trợ và tự động lặp lại quá trình đến khi hoàn thành mục tiêu.

👉 Những Chức Năng Chính Của AI Agent Trong Dự Án

Tiếp nhận mục tiêu người dùng định nghĩa

Sử dụng mô hình Google Gemini 2.0 flash để lập luận, lên kế hoạch

Thực thi hành động qua các công cụ tích hợp (ví dụ: lấy bài đăng trending trên Reddit, tạo ảnh qua Gemini)

Lưu trữ và truy xuất bộ nhớ giữa các bước thông qua hệ thống nhẹ LowDB

Vòng lặp tự động cho đến khi mục tiêu được hoàn tất

Điểm nổi bật là toàn bộ quy trình hoạt động của AI agent đều diễn ra một cách hoàn toàn tự chủ, không cần can thiệp thủ công.

Kiến Trúc và Công Nghệ Sử Dụng

⚙️ Bộ Công Nghệ Cốt Lõi

Công nghệ	Vai trò	Mô tả ngắn
TypeScript	Ngôn ngữ lập trình	Đảm bảo code gọn gàng, mạnh type và dễ bảo trì
Node.js (v20.17.0)	Môi trường thực thi	Mạnh mẽ và tích hợp tốt với volitalenv
Google Gemini Pro	Mô hình LLM đa phương tiện	Xử lý ngôn ngữ tự nhiên, lập luận và tạo ảnh
LowDB	Hệ thống lưu trữ bộ nhớ	Cơ sở dữ liệu JSON nhẹ, dễ dùng
dotenv	Quản lý biến môi trường bảo mật	Giữ an toàn thông tin cấu hình
Ora + Colors	CLI thân thiện	Phản hồi trực quan, màu sắc rõ ràng cho người dùng
TSX	Hỗ trợ phát triển	Giúp chạy TypeScript dễ dàng trong quá trình dev

🧱 Kiến Trúc Agent Modular

Project được chia thành những module riêng biệt dễ bảo trì và nâng cấp:

agent.ts : Vòng lặp tư duy chính xử lý logic tổng thể

ai.ts : Tích hợp và tương tác trực tiếp với Google Gemini

toolRunner.ts : Khởi chạy các công cụ hỗ trợ thực thi tác vụ

memory.ts : Quản lý lưu trữ và truy vấn bộ nhớ

systemPrompt.ts : Định hình cách Gemini phản hồi, tạo prompt thông minh

ui.ts : Giao diện dòng lệnh thân thiện để tương tác với người dùng

Thiết kế phân tách chức năng rõ ràng tạo điều kiện thuận lợi để kết hợp thêm các tính năng mới hoặc thay thế phần backend/phía giao diện dễ dàng.

Công Cụ và Tích Hợp

🔌 Bộ Công Cụ Hiện Có

Agent hiện hỗ trợ những mô-đun công cụ sau:

Reddit Reader: Truy cập để fetch 5 bài đăng hot nhất từ trang https://www.reddit.com/.json

Dad Joke Fetcher: Lấy truyện cười hài hước từ API cổ điển https://icanhazdadjoke.com/

Gemini Image Generator: Chuyển đổi câu lệnh chữ thành hình ảnh bằng API đa phương tiện của Google Gemini.

Bạn có thể tự do thêm hoặc thay thế các công cụ mới theo chuẩn giao diện tích hợp, giúp agent chọn lựa công cụ phù hợp dựa theo yêu cầu nhiệm vụ.

Thử Thách và Bài Học Khi Phát Triển

🧪 Các Khó Khăn Khi Xây Dựng

Prompt Engineering: Để Gemini hiểu và chọn đúng công cụ cũng như lập luận chính xác, tác giả đã phải thử nghiệm nhiều kịch bản và gợi ý prompt

Streaming Response: Gemini hiện chưa hỗ trợ stream nội dung mượt mà trong Node.js, dẫn đến các xử lý cần tùy biến để cập nhật feedback real-time hiệu quả

Tạo Ảnh Với API Đa Phương Tiện: Khác biệt về cách đặt prompt khiến việc tạo ảnh cần cách thiết kế kỹ thuật đặc thù hơn

Việc tích hợp các công nghệ mới như Gemini luôn là một hành trình thử nghiệm, đòi hỏi sự kiên nhẫn và sáng tạo trong xử lý vấn đề.

Kế Hoạch Phát Triển Trong Tương Lai

🚀 Những Tính Năng Đang Được Lên Kế Hoạch

Thêm Công Cụ Tìm Kiếm Google hoặc Wikipedia — giúp agent có khả năng tra cứu thông tin rộng rãi hơn

Truy Cập Hệ Thống File — hỗ trợ những nhiệm vụ phép giám sát và quản lý tài liệu phức tạp

Sử Dụng Bộ Nhớ Vector — cải thiện khả năng nhớ và tìm kiếm thông minh qua lưu trữ vector embedding

Phát Triển Giao Diện Web UI — sử dụng Next.js hoặc Electron để cải thiện trải nghiệm người dùng

Kết Luận

Trong bối cảnh AI ngày càng phát triển, việc xây dựng những AI agent tự động và modular là một bước tiến quan trọng để tối ưu hóa quy trình làm việc và khai thác tiềm năng công nghệ. Dự án ai-agent-gemini không chỉ là minh chứng cho điều đó mà còn là nền tảng khởi đầu tuyệt vời cho các nhà phát triển đam mê khám phá và tùy biến các tác nhân AI theo nhu cầu riêng.

Hãy khám phá, thử nghiệm, và đóng góp cho dự án để cùng nhau đẩy mạnh giới hạn những gì AI có thể làm được cho cuộc sống và công việc của chúng ta.

Tham Khảo

Scott Moss, Agent From Scratch — https://github.com/Hendrixer/agent-from-scratch

Google Gemini API Documentation — https://developers.google.com/ai/gemini

Reddit API Guide — https://www.reddit.com/dev/api/

iCanHazDadJoke API — https://icanhazdadjoke.com/api

GitHub Repository của dự án — https://github.com/gsk-007/ai-agent-gemini