Biến PC Của Bạn Thành Trợ Lý AI Thông Minh: Xây Dựng Chatbot Cục Bộ Với Ollama và Langchain!

Lê Lân

10/07/2025

Phát Triển Ứng Dụng Chatbot Truy Xuất Nội Dung Tập Tin Cục Bộ Với Ollama và Langchain

Mở Đầu

Trong thời đại trí tuệ nhân tạo (AI) bùng nổ, việc xây dựng các ứng dụng sử dụng mô hình ngôn ngữ lớn (LLM) ngay trên máy tính cá nhân đang trở nên dễ dàng hơn bao giờ hết. Ollama là một công cụ mã nguồn mở giúp bạn chạy và quản lý các LLM một cách thuận tiện ngay trên PC của mình.

Nếu bạn đã từng muốn phát triển một chatbot ứng dụng AI có thể truy vấn và trả lời dựa trên nội dung trong thư mục tệp tin của mình, bài viết này sẽ hướng dẫn chi tiết cách làm. Từ việc tải Ollama, cài đặt môi trường phát triển Python, đến xử lý dữ liệu văn bản, tạo cơ sở dữ liệu vectơ và dùng mô hình Mistral trong Ollama để trả lời câu hỏi theo mô hình RAG (Retrieval-Augmented Generation).

Bạn sẽ nắm được toàn bộ quá trình phát triển một chatbot hỗ trợ tìm kiếm thông tin dựa trên tập tài liệu cục bộ — một công cụ rất có ích cho các doanh nghiệp, cá nhân muốn quản lý kiến thức nội bộ thông minh.

1. Giới Thiệu Về Ollama — Môi Trường LLM Cục Bộ

1.1 Ollama Là Gì?

Ollama là một nền tảng mã nguồn mở, giúp bạn dễ dàng download, chạy và vận hành các mô hình ngôn ngữ lớn (LLM) trực tiếp trên máy tính cá nhân hoặc máy chủ nội bộ.

Ưu điểm chính:

Không cần kết nối Internet khi sử dụng mô hình

Quản lý mô hình đơn giản qua dòng lệnh (CLI)

Hỗ trợ đa dạng các mô hình LLM

Tăng tốc xử lý nhờ sử dụng GPU và kiến trúc phân tán

1.2 Cài Đặt OLlama

Bạn có thể cài đặt Ollama trên Linux bằng lệnh:

curl -fsSL https://ollama.com/install.sh | sh

Sau khi cài xong, kiểm tra phiên bản bằng

ollama -v

ví dụ:

ollama version 0.6.5

1.3 Thử Chạy Mô Hình Mistral Trực Tiếp Từ Terminal

Ví dụ để chạy chatbot đơn giản trong terminal với mô hình Mistral:

ollama run mistral

Bạn có thể nhập truy vấn trực tiếp để nhận câu trả lời dựa trên kiến thức của mô hình.

2. Chuẩn Bị Môi Trường Phát Triển Python

2.1 Các Thư Viện Cần Thiết

Để xây dựng chatbot truy xuất tài liệu cục bộ, chúng ta cần những thư viện sau:

langchain : Framework xây dựng luồng xử lý cho LLM

chromadb : Cơ sở dữ liệu vector để lưu embeddings tài liệu

sentence-transformers : Tạo embeddings chất lượng cao cho văn bản

langchain-ollama : Tích hợp Ollama với Langchain

Một số thư viện hỗ trợ khác như langchain-community

2.2 Tạo Virtual Environment và Cài Đặt

Trên hệ điều hành Fedora Linux, cài đặt môi trường:

sudo dnf install gcc-c++ python3-devel
python3 -m venv venv
source venv/bin/activate

Sau đó tạo file requirements.txt với nội dung:

langchain
chromadb
sentence-transformers
langchain-ollama
langchain-community
langchain-huggingface

Và cài đặt:

pip install -r requirements.txt

3. Xử Lý Tài Liệu Đầu Vào Và Tạo Vector Database

3.1 Đọc Tài Liệu Từ Thư Mục Cục Bộ

Chúng ta cần một module riêng để tải các tài liệu dạng md , asciidoc , txt từ thư mục.

# utils/loaders.py
from langchain_community.document_loaders import DirectoryLoader, TextLoader
import os

def load_sop_files(directory: str):
    allowed_exts = ('.md', '.asciidoc', '.txt')
    docs = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.lower().endswith(allowed_exts):
                path = os.path.join(root, file)
                try:
                    loader = TextLoader(path, encoding='utf-8')
                    docs.extend(loader.load())
                except Exception as e:
                    print(f"❌ Error loading {path}: {e}")
    return docs

Mục đích: Lấy tất cả các tài liệu văn bản trong thư mục, chuyển thành dạng đối tượng Document của langchain để xử lý tiếp.

3.2 Tách Văn Bản Thành Các Phần Nhỏ

LLM thường hoạt động tốt hơn khi dữ liệu đầu vào được chia nhỏ. Sử dụng RecursiveCharacterTextSplitter để chia nhỏ tài liệu thành các đoạn nhỏ ~500 ký tự, chồng lấp 100 ký tự giúp giữ ngữ cảnh.

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
chunks = splitter.split_documents(docs)

3.3 Tạo Vector Embeddings và Cơ Sở Dữ Liệu Vector (ChromaDB)

Chuyển các đoạn văn bản thành dạng vector số để LLM có thể truy xuất nhanh bằng cách sử dụng mô hình embeddings từ HuggingFace:

from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma

embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
db = Chroma.from_documents(chunks, embeddings)

Việc tạo embeddings giả lập quá trình "hiểu" nội dung văn bản thành dạng số, là bước quan trọng để có thể tìm kiếm tương đồng nhanh chóng.

4. Kết Nối Ollama Mistral Với RAG Pattern

4.1 Khởi Tạo OllamaLLM Và Retrieval Chain

Chúng ta dùng mô hình Mistral từ Ollama làm LLM, kết hợp với cơ sở dữ liệu vectơ để tạo mô hình truy vấn tên RetrievalQA , tức mém mô hình có thể lấy dữ liệu từ bộ nhớ ngoài (docs) rồi mới trả lời.

from langchain.chains import RetrievalQA
from langchain_ollama import OllamaLLM

retriever = db.as_retriever()
llm = OllamaLLM(model="mistral")
qa = RetrievalQA.from_chain_type(llm=llm, retriever=retriever, return_source_documents=True)

4.2 Vòng Lặp Trò Chuyện Với Chatbot

Sau khi thiết lập xong, ta tạo một bộ vòng lặp nhận câu hỏi từ người dùng, truyền câu hỏi vào qa chain để nhận đáp án kèm theo nguồn tài liệu tham khảo.

print("🤖 SOP Assistant ready. Type your question below. Type 'exit' to quit.")
while True:
    query = input("\n📝 You: ")
    if query.lower() in ("exit", "quit"):
        print("👋 Bye! Take care.")
        break
    result = qa.invoke({"query": query})
    print("\n🤖 Assistant:\n", result["result"])
    print("\n📎 Sources:")
    for doc in result["source_documents"]:
        print(f" - {doc.metadata.get('source')}")

5. Tổng Quan Mã Nguồn Và Hướng Phát Triển

5.1 Cấu Trúc File

Tệp tin	Công dụng
`utils/loaders.py`	Tải và chuyển đổi tài liệu văn bản thành Document
`main.py`	Chạy toàn bộ quy trình, từ tải tài liệu, tạo embeddings đến xử lý truy vấn chatbot

5.2 Link Dự Án & Tài Nguyên Tham Khảo

Mã nguồn: https://github.com/austincunningham/sop_assistant

Ollama documentation: https://ollama.com

Ollama API Github: Ollama API docs

Kết Luận

Trong bài viết, chúng ta đã cùng nhau tìm hiểu cách xây dựng một ứng dụng chatbot thông minh truy xuất dữ liệu trực tiếp từ thư mục tài liệu cục bộ, sử dụng Ollama làm nền tảng mô hình ngôn ngữ lớn và kết hợp Langchain với vector database Chroma.

Việc vận dụng mô hình RAG kết hợp kiến thức offline giúp chatbot trả lời chính xác và có căn cứ hơn, rất hữu ích cho các ứng dụng doanh nghiệp hoặc cá nhân cần quản lý tri thức nội bộ.

Bạn có thể mở rộng ứng dụng này bằng cách:

Tích hợp nhiều mô hình Ollama khác nhau

Mở rộng loại tài liệu đọc được

Kết nối frontend web hoặc ứng dụng di động cho trải nghiệm tốt hơn

Hãy thử ngay hôm nay để tận dụng sức mạnh của AI trên chính máy tính của bạn!

Tham Khảo

Ollama Official Site

Valery Mo. (2023). "Building a Local AI Assistant with Ollama and Langchain." Dev.to article.

Langchain Documentation

ChromaDB Documentation

Github Repo: https://github.com/austincunningham/sop_assistant

Ollama API Docs: https://github.com/ollama/ollama/blob/main/docs/api.md

Ảnh minh họa: Giao diện chatbot truy xuất tài liệu cục bộ

Nguồn ảnh: Valery Mo GitHub