Giải Mã Sức Mạnh Đa Phương Thức: Hướng Dẫn Xây Dựng Ứng Dụng RAG AI "Chất Lừ"!

Lê Lân

13/07/2025

Xây Dựng Ứng Dụng RAG Đa Phương Thức Với Mô Hình Nhúng Multimodal và LLM

Mở Đầu

Trong kỷ nguyên của trí tuệ nhân tạo, việc xử lý dữ liệu đa phương thức — bao gồm văn bản, hình ảnh, âm thanh và video — đã trở thành xu hướng trọng tâm. Tuy nhiên, nhiều ứng dụng gần đây chủ yếu tập trung vào xử lý dữ liệu dạng văn bản do mô hình nhúng và LLM trước đây chỉ chuyên xử lý văn bản. Điều này đang thay đổi nhanh chóng với sự xuất hiện của các mô hình như Gemini và GPT-4o có khả năng hiểu và sinh dữ liệu đa dạng.

Bài viết này sẽ hướng dẫn bạn cách xây dựng một ứng dụng RAG (Retrieval-Augmented Generation) sử dụng kiến thức từ các tài liệu đa phương tiện gồm văn bản, hình ảnh và bảng biểu. Chúng ta sẽ tìm hiểu về:

Khái niệm và thách thức của đa phương thức trong AI

Cách xử lý dữ liệu đa phương thức để tìm kiếm và truy xuất hiệu quả

So sánh hai kiến trúc mô hình nhúng đa phương thức phổ biến: CLIP và VLM

Xây dựng ứng dụng RAG tích hợp các công nghệ mới này cùng MongoDB và Voyage AI

Hãy cùng khám phá từng phần chi tiết để hiểu rõ cách thức triển khai và lợi ích của đa phương thức trong ứng dụng AI hiện đại.

Đa Phương Thức Trong AI

Khái Niệm Đa Phương Thức (Multimodality)

Đa phương thức trong AI đề cập đến khả năng của các mô hình học máy trong việc xử lý, hiểu biết và có thể tạo ra các loại dữ liệu khác nhau như:

Văn bản (text)

Hình ảnh (images)

Âm thanh (audio)

Video

Các mô hình nhúng đa phương thức và LLM đa phương thức có thể ánh xạ các loại dữ liệu này vào cùng một không gian vector kích thước cao, giúp kết nối và đồng bộ thông tin từ các nguồn dữ liệu hỗn hợp.

Thông Tin Quan Trọng

Không phải mọi mô hình đều hỗ trợ tất cả các loại dữ liệu. Khi lựa chọn mô hình nhúng hoặc LLM đa phương thức, cần xác nhận kỹ về dữ liệu đầu vào và đầu ra mà mô hình hỗ trợ để đảm bảo chúng phù hợp với yêu cầu ứng dụng.

Thách Thức Khi Làm Việc Với Dữ Liệu Đa Phương Thức

Quy Trình RAG Truyền Thống

Trong các hệ thống RAG thuần văn bản, quá trình như sau:

Tài liệu lớn được chia thành các đoạn nhỏ (chunk).

Văn bản trong mỗi đoạn được nhúng (embedding) bằng mô hình nhúng văn bản.

Đoạn văn bản cùng vector nhúng được lưu trữ trong cơ sở dữ liệu vector.

Khi người dùng truy vấn, truy vấn cũng được nhúng và tìm kiếm vector để lấy các đoạn liên quan.

Kết quả tìm kiếm cùng truy vấn được gửi đến LLM để sinh câu trả lời.

Hạn Chế Với Dữ Liệu Đa Phương Thức

Phương pháp phân đoạn văn bản không thể áp dụng trực tiếp cho hình ảnh, bảng biểu, âm thanh.

Việc ánh xạ các loại dữ liệu này cần mô hình nhúng đặc biệt để giữ được các mối quan hệ ngữ cảnh giữa chúng.

Không có phương pháp chuẩn hóa chung cho các loại dữ liệu đa dạng.

Dữ liệu pha trộn nhiều loại phương thức đòi hỏi phải có công cụ và kiến trúc riêng biệt để cấu trúc và xử lý hiệu quả, tránh mất mát thông tin khi chuyển đổi.

So Sánh Kiến Trúc Mô Hình Nhúng Đa Phương Thức: CLIP và VLM

Kiến Trúc CLIP

CLIP (Contrastive Language-Image Pre-Training) xử lý văn bản và hình ảnh thông qua hai mạng riêng biệt để tạo ra vector nhúng riêng lẻ và ánh xạ vào cùng không gian vector.

Nhược điểm

Cần phải tách riêng các thành phần ảnh và văn bản trong tài liệu để nhúng.

Gây ra modality gap: các biểu diễn vector trong cùng một phương thức có thể gần nhau hơn so với các biểu diễn giữa các phương thức khác nhau, gây khó khăn trong truy xuất dữ liệu hỗn hợp.

Kiến Trúc VLM (Vision Language Models)

VLM sử dụng một transformer đơn cho cả văn bản và hình ảnh, tạo ra biểu diễn thống nhất cho các loại dữ liệu khác nhau.

Ưu điểm

Giảm thiểu khoảng cách modality gap.

Hỗ trợ xử lý trực tiếp các tài liệu đa phương thức phức tạp như PDF có layout lồng ghép, ảnh chú thích.

Không cần phức tạp chu trình phân tách dữ liệu theo từng loại.

VLM được xem là tiến bộ mạnh mẽ hơn CLIP trong việc xử lý dữ liệu đa phương thức nhờ kiến trúc thống nhất và khả năng giữ được mối quan hệ ngữ cảnh chặt chẽ.

Hướng Dẫn Xây Dựng Ứng Dụng RAG Đa Phương Thức

Kiến Trúc Hệ Thống

Hệ thống sử dụng:

MongoDB Atlas làm vector store

Mô hình nhúng đa phương thức voyage-multimodal-3 từ Voyage AI

LLM đa phương thức Gemini 2.0 Flash từ Google cho việc sinh nội dung

Quy Trình

Chuyển đổi các trang PDF thành ảnh (screenshot).

Lưu ảnh thô lên Google Cloud Storage (GCS).

Tạo vector nhúng cho từng ảnh lưu trong MongoDB kèm metadata tham chiếu ảnh.

Khi có truy vấn người dùng:

Nhúng truy vấn

Tìm kiếm vector để lấy các trang ảnh liên quan

Gửi các ảnh và truy vấn đến LLM để tạo câu trả lời.

Cài Đặt Các Thư Viện Cần Thiết

!pip install -qU pymongo voyageai google-genai google-cloud-storage sentence-transformers PyMuPDF Pillow tqdm tenacity

Thiết Lập Các Điều Kiện Tiên Quyết

Tạo tài khoản và cluster MongoDB Atlas

Lấy chuỗi kết nối MongoDB

Lấy API key Voyage AI và thiết lập biến môi trường VOYAGE_API_KEY

Lấy API key Gemini để truy cập Google AI Studio

Thiết lập Application Default Credentials (ADC) cho Google Cloud Storage

Xử Lý PDF Nguồn Dữ Liệu

Sử dụng tập tài liệu Deepseek-R1 paper , có độ dài lớn với nội dung phối hợp văn bản, hình ảnh, bảng biểu.

Mã Ví Dụ Tải PDF và Đọc Với PyMuPDF

from io import BytesIO
import pymupdf
import requests

response = requests.get("https://arxiv.org/pdf/2501.12948")
pdf_stream = BytesIO(response.content)
pdf = pymupdf.open(stream=pdf_stream, filetype="pdf")

Lưu Ảnh Trang PDF Lên Google Cloud Storage (GCS)

Hàm Upload Ảnh

from google.cloud import storage

GCS_PROJECT = "mongodb"
GCS_BUCKET = "tutorials"
gcs_client = storage.Client(project=GCS_PROJECT)
gcs_bucket = gcs_client.bucket(GCS_BUCKET)

def upload_image_to_gcs(key: str, data: bytes) -> None:
    blob = gcs_bucket.blob(key)
    blob.upload_from_string(data, content_type="image/png")

Chuyển Trang PDF Thành Ảnh Và Lưu

from tqdm import tqdm

docs = []
zoom = 3.0
mat = pymupdf.Matrix(zoom, zoom)

for n in tqdm(range(pdf.page_count)):
    pix = pdf[n].get_pixmap(matrix=mat)
    img_bytes = pix.tobytes("png")
    gcs_key = f"multimodal-rag/{n+1}.png"
    upload_image_to_gcs(gcs_key, img_bytes)
    docs.append({
        "gcs_key": gcs_key,
        "width": pix.width,
        "height": pix.height,
        "image": img_bytes,
    })

Thêm Vector Embeddings Vào Tài Liệu Trong MongoDB

Mô Hình Nhúng

Voyage AI: voyage-multimodal-3

OpenAI CLIP: clip-ViT-B-32

Hàm Tạo Embedding

from voyageai import Client as VoyageClient
from sentence_transformers import SentenceTransformer
from PIL import Image
from io import BytesIO

voyageai_client = VoyageClient()
clip_model = SentenceTransformer("clip-ViT-B-32")

def get_voyage_embedding(data, input_type):
    embedding = voyageai_client.multimodal_embed(
        inputs=[[data]],
        model="voyage-multimodal-3",
        input_type=input_type,
    ).embeddings[0]
    return embedding

def get_clip_embedding(data):
    embedding = clip_model.encode(data).tolist()
    return embedding

Áp Dụng Embedding Cho Từng Ảnh

embedded_docs = []
for doc in tqdm(docs):
    img = Image.open(BytesIO(doc["image"]))
    doc["voyage_embedding"] = get_voyage_embedding(img, "document")
    doc["clip_embedding"] = get_clip_embedding(img)
    del doc["image"]
    embedded_docs.append(doc)

Nhập Dữ Liệu Và Vector Index Vào MongoDB

Kết Nối, Xóa Và Nhập Dữ Liệu

from pymongo import MongoClient

mongodb_client = MongoClient(MONGODB_URI)
collection = mongodb_client["mongodb"]["multimodal_rag"]
collection.delete_many({})
collection.insert_many(embedded_docs)

Tạo Vector Search Index

VS_INDEX_NAME = "vector_index"

model = {
  "name": VS_INDEX_NAME,
  "type": "vectorSearch",
  "definition": {
    "fields": [
      {
        "type": "vector",
        "path": "voyage_embedding",
        "numDimensions": 1024,
        "similarity": "cosine",
      },
      {
        "type": "vector",
        "path": "clip_embedding",
        "numDimensions": 512,
        "similarity": "cosine",
      },
    ],
  },
}

collection.create_search_index(model=model)

Truy Xuất Ảnh Dựa Trên Vector Search và Truy Vấn Người Dùng

Hàm Lấy Ảnh Từ GCS

def get_image_from_gcs(key: str) -> bytes:
    blob = gcs_bucket.blob(key)
    return blob.download_as_bytes()

Hàm Tìm Kiếm Vector

def vector_search(user_query: str, model: str, display_images=True):
    if model == "voyage":
        query_embedding = get_voyage_embedding(user_query, "query")
    else:
        query_embedding = get_clip_embedding(user_query)

    pipeline = [
        {
            "$vectorSearch": {
                "index": VS_INDEX_NAME,
                "queryVector": query_embedding,
                "path": f"{model}_embedding",
                "numCandidates": 150,
                "limit": 5,
            }
        },
        {
            "$project": {
                "_id": 0,
                "gcs_key": 1,
                "width": 1,
                "height": 1,
                "score": {"$meta": "vectorSearchScore"},
            }
        },
    ]

    results = collection.aggregate(pipeline)
    gcs_keys = []
    for result in results:
        if display_images:
            img = Image.open(BytesIO(get_image_from_gcs(result["gcs_key"])))
            print(f"Score: {result['score']}\n")
            display(img)
        gcs_keys.append(result["gcs_key"])
    return gcs_keys

Xây Dựng Ứng Dụng RAG Đa Phương Thức Với Gemini 2.0 Flash

from google import genaifrom
from google.genai import types

gemini_client = genai.Client(api_key=GEMINI_API_KEY)
LLM = "gemini-2.0-flash"

def generate_answer(user_query: str, model: str) -> str:
    gcs_keys = vector_search(user_query, model, display_images=False)
    images = [Image.open(BytesIO(get_image_from_gcs(key))) for key in gcs_keys]
    prompt = f"Answer the question based only on the provided context. If the context is empty, say I DON'T KNOW\n\nQuestion:{user_query}\n\nContext:\n"
    messages = [prompt] + images

    response = gemini_client.models.generate_content(
        model=LLM,
        contents=messages,
        config=types.GenerateContentConfig(temperature=0.0),
    )
    return response.text

Đánh Giá Hiệu Quả: So Sánh Voyage AI Và CLIP

Mô Hình	MRR (Mean Reciprocal Rank)	Recall@5	Điểm Sinh Tổng Thể (1-5)
voyage-multimodal-3	Cao hơn CLIP	Cao hơn	4.2
clip-ViT-B-32	Thấp hơn	Thấp hơn	3.5

Kết quả cho thấy mô hình VLM-based voyage-multimodal-3 không chỉ cho kết quả truy xuất chính xác hơn mà còn giúp tạo nội dung chất lượng hơn khi xử lý các tài liệu có nội dung pha trộn đa phương thức như hình ảnh và bảng biểu.

Kết Luận

Chúng ta đã cùng tìm hiểu sâu về:

Khái niệm và vai trò của đa phương thức trong các ứng dụng AI hiện đại.

Sự khác biệt và ưu điểm của kiến trúc mô hình nhúng VLM so với CLIP truyền thống.

Các bước xây dựng một ứng dụng RAG đa phương thức sử dụng MongoDB, Voyage AI, và Gemini 2.0 Flash.

Đánh giá chi tiết giúp chứng minh hiệu quả của việc lựa chọn đúng mô hình nhúng và LLM trong hệ thống RAG đa phương thức.

Nếu bạn quan tâm đến phát triển ứng dụng AI đa phương thức hoặc muốn tiếp cận các ví dụ mã nguồn, hãy truy cập Gen AI Showcase GitHub repository và khám phá thêm tài nguyên tại MongoDB AI Learning Hub .

Tham Khảo

Modality Gap Paper

Voyage AI Documentation

MongoDB Atlas Documentation

Google AI Studio - Gemini API

Deepseek-R1 Paper PDF

Gen AI Showcase GitHub Repository