Bí quyết kết nối "Bộ não AI" với kho kiến thức riêng của bạn!

Lê Lân

29/06/2025

Hướng Dẫn Toàn Diện Về Cơ Sở Dữ Liệu Vector và Ứng Dụng Với Mô Hình Ngôn Ngữ Lớn

Mở Đầu

Cơ sở dữ liệu vector đang mở ra một kỷ nguyên mới trong cách chúng ta lưu trữ, truy xuất và xử lý thông tin, đặc biệt khi kết hợp với các mô hình ngôn ngữ lớn như ChatGPT hay DeepSeek.

Trong bối cảnh trí tuệ nhân tạo ngày càng phát triển, việc tích hợp các mô hình ngôn ngữ lớn với cơ sở dữ liệu kiến thức của doanh nghiệp hay các dự án cá nhân trở thành nhu cầu thiết yếu. Tuy nhiên, bài toán làm sao để liên kết hiệu quả thông tin lưu trữ khổng lồ với mô hình AI vẫn còn nhiều thử thách. Một trong những giải pháp đột phá là sử dụng cơ sở dữ liệu vector để biểu diễn dữ liệu theo dạng số học dễ dàng phân tích và so sánh theo nghĩa semantíc.

Bài viết này sẽ giúp bạn hiểu rõ về bản chất, lợi ích cùng cách xây dựng và vận hành một hệ thống tìm kiếm thông minh dựa trên cơ sở dữ liệu vector bằng công cụ ChromaDB, kết hợp với các mô hình AI như DeepSeek hoặc ChatGPT. Nội dung bao gồm cả lý thuyết và ví dụ thực hành chi tiết với Python.

Tổng Quan Về Cơ Sở Dữ Liệu Vector

Cơ Sở Dữ Liệu Vector Là Gì?

Cơ sở dữ liệu vector là hệ thống lưu trữ dữ liệu được biểu diễn dưới dạng vector số học — những dãy số đặc trưng cho ý nghĩa hoặc đặc điểm của dữ liệu, thay vì lưu trữ nguyên văn bản hay hình ảnh trực tiếp.

Ví dụ, từ "hola" trong dạng vector có thể giống như:

-0.012, 0.124, -0.056, 0.203, …, 0.078

Những con số này được tạo ra bằng các mô hình ngôn ngữ hoặc mô hình xử lý ngôn ngữ tự nhiên chuyên biệt (embedding models). Mô hình càng tốt, vector biểu diễn càng chính xác ý nghĩa nội dung.

Tại Sao Phải Sử Dụng Vector?

Các mô hình AI hiện nay không thể "đọc" trực tiếp văn bản hay hình ảnh như con người mà xử lý dựa trên biểu diễn số học. Do đó, việc chuyển đổi dữ liệu đầu vào sang dạng vector là bước bắt buộc để mô hình có thể hiểu và xử lý thông tin được hiệu quả.

Khác Biệt So Với Tìm Kiếm Truyền Thống

Tìm kiếm truyền thống (Ctrl+F): Tìm kiếm theo khớp từ khóa chính xác. Ví dụ: tìm “coche” chỉ ra kết quả chính xác từ từ khoá đó.

Tìm kiếm vector (semantíc search): Tìm kiếm theo ý nghĩa tương tự, có thể trả về kết quả gần nghĩa dù từ khóa khác biệt hoàn toàn. Ví dụ: với truy vấn “transporte”, sẽ trả về kết quả có từ “coche”, “vehículo” vì ý nghĩa liên quan.

Ứng Dụng Cơ Sở Dữ Liệu Vector Trong Mô Hình AI

Vấn Đề Khi Kết Nối Mô Hình Ngôn Ngữ Lớn Và Cơ Sở Kiến Thức

Mô hình như ChatGPT được thiết kế để nhận văn bản đầu vào dạng chuỗi có ngữ cảnh cụ thể (prompt). Nếu bạn có hàng nghìn trang tài liệu, đưa toàn bộ vào prompt là không khả thi do giới hạn kích thước và sẽ gây lỗi "quá tải ngữ cảnh".

Giải Pháp: Tìm Kiếm Ngữ Nghĩa Với Cơ Sở Dữ Liệu Vector

Thay vì load toàn bộ tài liệu, ta chỉ bổ sung ngữ cảnh cần thiết cho truy vấn hiện tại bằng cách:

Biểu diễn các đoạn văn bản trong tài liệu thành vector và lưu trong cơ sở dữ liệu vector.

Với truy vấn của người dùng, chuyển truy vấn thành vector.

Tìm kiếm các vector tương tự nhất trong cơ sở dữ liệu.

Trả về nội dung tương ứng để đưa vào prompt cho mô hình AI.

Lợi Ích:

Tăng độ chính xác cho câu trả lời.

Tiết kiệm tài nguyên khi không truyền quá nhiều dữ liệu.

Hỗ trợ tìm kiếm hiểu nghĩa, không chỉ theo từ khóa.

Lưu ý: Các truy vấn và dữ liệu phải được giới hạn kích thước phù hợp dựa trên giới hạn token của mô hình chuyển đổi vector (thường từ 256 đến 512 tokens).

Cách Xây Dựng Cơ Sở Dữ Liệu Vector Với ChromaDB Và Python

Chuẩn Bị Môi Trường

Bao gồm các thư viện chính:

chromadb — Cơ sở dữ liệu vector mã nguồn mở.

sentence-transformers — Chuyển đổi văn bản thành vector.

langchain — Framework tích hợp các mô hình ngôn ngữ và công cụ tìm kiếm.

torch — Framework Deep Learning cho mô hình.

Các thư viện hỗ trợ: loguru , pydantic-settings ,...

File `requirements.txt` mẫu

langchain-huggingface==0.1.2
torch==2.6.0
loguru==0.7.3
chromadb==0.6.3
sentence-transformers==3.4.1
langchain-chroma==0.2.2
pydantic-settings==2.8.1
langchain-text-splitters==0.3.7
langchain-deepseek==0.1.3
langchain-openai==0.3.11

Ví Dụ Sơ Bộ: Tạo Cơ Sở Dữ Liệu Vector Với Danh Sách Sản Phẩm

SHOP_DATA = [
    {
        "text": 'Portátil Lenovo IdeaPad 5: 16 Gb RAM, SSD 512 Gb, LED 15.6", precio 550 $.',
        "metadata": {
            "id": "1",
            "type": "product",
            "category": "laptops",
            "price": 55000,
            "stock": 3,
        },
    },
    {
        "text": 'Smartphone Xiaomi Redmi Note 12: 128 Gb RAM, SSD 512 Gb, LED 15.6", precio 1550 $.',
        "metadata": {
            "id": "2",
            "type": "product",
            "category": "phones",
            "price": 18000,
            "stock": 10,
        },
    },
]

Tạo database vector đơn giản bằng ChromaDB

from langchain_huggingface import HuggingFaceEmbeddings
import torch
from langchain_chroma import Chroma

CHROMA_PATH = "./shop_chroma_db"
COLLECTION_NAME = "shop_data"

def generate_chroma_db():
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
        model_kwargs={"device": "cuda" if torch.cuda.is_available() else "cpu"},
        encode_kwargs={"normalize_embeddings": True},
    )

    chroma_db = Chroma.from_texts(
        texts=[item["text"] for item in SHOP_DATA],
        embedding=embeddings,
        ids=[str(item["metadata"]["id"]) for item in SHOP_DATA],
        metadatas=[item["metadata"] for item in SHOP_DATA],
        persist_directory=CHROMA_PATH,
        collection_name=COLLECTION_NAME,
    )
    return chroma_db

if __name__ == "__main__":
    db = generate_chroma_db()

Xây Dựng Công Cụ Tìm Kiếm Dựa Trên Cơ Sở Dữ Liệu Vector

Kết Nối Và Tìm Kiếm Với ChromaDB

def connect_to_chroma():
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
        model_kwargs={"device": "cuda" if torch.cuda.is_available() else "cpu"},
        encode_kwargs={"normalize_embeddings": True},
    )
    chroma_db = Chroma(
        persist_directory=CHROMA_PATH,
        embedding_function=embeddings,
        collection_name=COLLECTION_NAME,
    )
    return chroma_db


def search_products(query: str, k: int = 4, metadata_filter: dict = None):
    chroma_db = connect_to_chroma()
    results = chroma_db.similarity_search_with_score(
        query, k=k, filter=metadata_filter
    )
    formatted_results = [
        {"text": doc.page_content, "metadata": doc.metadata, "similarity_score": score}
        for doc, score in results
    ]
    return formatted_results

Ví dụ lọc theo metadata

filter_condition = {
    "category": "laptops",
    "price": {"$lt": 600}
}
results = search_products("notebook", k=5, metadata_filter=filter_condition)

Ứng Dụng Thực Tiễn: Tìm Kiếm Thông Minh Kết Hợp Với Mạng Neural Lớn

Ý Tưởng Chính

Người dùng gửi truy vấn.

Tìm kiếm thông minh trong cơ sở dữ liệu vector lấy ra đoạn văn bản phù hợp.

Gửi truy vấn kèm ngữ cảnh vừa tìm được tới mô hình ngôn ngữ lớn (DeepSeek, ChatGPT).

Nhận được câu trả lời chính xác và giàu ngữ nghĩa từ AI.

Cấu Trúc Lớp Xử Lý Chat Với AI

from langchain_deepseek import ChatDeepSeek
from langchain_openai import ChatOpenAI
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

class ChatWithAI:
    def __init__(self, provider="deepseek"):
        self.provider = provider
        self.embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
            model_kwargs={"device": "cuda" if torch.cuda.is_available() else "cpu"},
            encode_kwargs={"normalize_embeddings": True},
        )
        if provider == "deepseek":
            self.llm = ChatDeepSeek(api_key="YOUR_DEEPSEEK_API_KEY", model="deepseek-chat")
        elif provider == "openai":
            self.llm = ChatOpenAI(api_key="YOUR_OPENAI_API_KEY", model="gpt-3.5-turbo")
        else:
            raise ValueError("Unsupported provider")
        self.chroma_db = Chroma(persist_directory=CHROMA_PATH, embedding_function=self.embeddings, collection_name=COLLECTION_NAME)

    def get_relevant_context(self, query, k=3):
        results = self.chroma_db.similarity_search(query, k=k)
        return [{"text": doc.page_content, "metadata": doc.metadata} for doc in results]

    def format_context(self, context):
        formatted = []
        for item in context:
            metadata_str = "\n".join(f"{k}: {v}" for k, v in item["metadata"].items())
            formatted.append(f"Text: {item['text']}\nMetadata:\n{metadata_str}\n")
        return "\n---\n".join(formatted)

    def generate_response(self, query):
        context = self.get_relevant_context(query)
        if not context:
            return "Xin lỗi, không tìm thấy ngữ cảnh phù hợp."
        formatted_context = self.format_context(context)
        messages = [
            {"role": "system", "content": "Bạn là trợ lý AI giúp trả lời chính xác câu hỏi về cơ sở dữ liệu."},
            {"role": "user", "content": f"Câu hỏi: {query}\nNgữ cảnh: {formatted_context}"}
        ]
        response = self.llm.invoke(messages)
        return response.content if hasattr(response, "content") else str(response)

Chạy tương tác với AI

if __name__ == "__main__":
    chat = ChatWithAI(provider="deepseek")
    print("=== Bắt đầu hội thoại với AI ===")
    while True:
        user_input = input("Bạn: ")
        if user_input.lower() == "exit":
            print("Kết thúc phiên trò chuyện.")
            break
        print("AI đang suy nghĩ...", end="\r")
        answer = chat.generate_response(user_input)
        print(f"AI: {answer}\n")

Kết Luận

Trong bài viết này, bạn đã được làm quen với:

Khái niệm và lợi ích của cơ sở dữ liệu vector trong lưu trữ và tìm kiếm thông tin.

Các bước chuyển dữ liệu văn bản thành vector semantíc và lưu trữ với ChromaDB.

Xây dựng hệ thống tìm kiếm thông minh dựa trên so sánh vector tương tự.

Cách kết nối tìm kiếm vector với các mô hình ngôn ngữ lớn như DeepSeek hay ChatGPT để trả lời câu hỏi chính xác hơn.

Hãy bắt đầu xây dựng nền tảng kiến thức semantíc cho dự án AI của bạn ngay hôm nay với những công cụ mã nguồn mở hiện đại và có khả năng mở rộng cực kỳ tốt như ChromaDB và LangChain!

Tham Khảo

Yacovenko, A. "Conectar redes neuronales a bases de datos vectoriales: introducción práctica con ChromaDB y DeepSeek." Medium, 2024.

ChromaDB documentation

LangChain GitHub

Sentence-Transformers

Vaswani et al. (2017). "Attention is All You Need." Advances in Neural Information Processing Systems.