Pgvector của PostgreSQL: Tìm kiếm vector mạnh mẽ nhưng 'đuối sức' khi lọc dữ liệu? Cùng khám phá!

Lê Lân

15/07/2025

Sử Dụng pgvector để Tìm Kiếm Vector trong PostgreSQL: Ưu Điểm, Hạn Chế và Giải Pháp Thực Tiễn

Mở Đầu

Trong bối cảnh ứng dụng trí tuệ nhân tạo (AI) phát triển nhanh chóng, việc lưu trữ và tìm kiếm các vector nhúng (embeddings) trở nên cực kỳ quan trọng. PostgreSQL, một trong những hệ quản trị cơ sở dữ liệu quan hệ phổ biến nhất, được nâng tầm với extension pgvector - cung cấp khả năng lưu trữ và truy vấn vector đa chiều cao cùng các phép toán tương tự và chỉ mục tìm kiếm tăng tốc.

Tuy nhiên, khi kết hợp tìm kiếm vector với các bộ lọc khác như metadata, ngày tháng, hay các thuộc tính khác, pgvector lại lộ ra những điểm hạn chế, đặc biệt là thiếu khả năng lọc trước (pre-filtering). Điều này dẫn đến việc phải thực hiện lọc sau (post-filtering), gây giảm hiệu suất tìm kiếm và thiếu chính xác trong kết quả trả về. Bài viết này sẽ phân tích chi tiết cách hoạt động của pgvector, trình bày kết quả thử nghiệm trên bộ dữ liệu giả lập, so sánh giữa tìm kiếm chính xác và gần đúng, và đề xuất các giải pháp khắc phục cũng như mô phỏng pre-filtering trong PostgreSQL.

Tổng quan về pgvector và Tìm kiếm Vector trong PostgreSQL

1. Giới thiệu về pgvector

pgvector là một extension mã nguồn mở cho PostgreSQL, thêm kiểu dữ liệu vector có số chiều lớn (ví dụ vector 512 chiều) vào cơ sở dữ liệu. Nó hỗ trợ:

Lưu trữ vector nhúng (embeddings) của dữ liệu như văn bản, hình ảnh, âm thanh.

Toán tử đo độ tương đồng như cosine similarity.

Index HNSW giúp tăng tốc tìm kiếm gần nhất (Nearest Neighbor Search).

Việc tích hợp trực tiếp vector embeddings vào cơ sở dữ liệu quan hệ cho phép kết hợp tìm kiếm vector với các điều kiện truy vấn truyền thống (SQL) trên metadata.

2. Tại sao cần tìm kiếm kết hợp với bộ lọc?

Thông thường, ngoài tìm kiếm vector, ta còn muốn giới hạn kết quả theo thuộc tính khác như màu sắc, ngày tháng, hay phân loại đặc thù. Ví dụ: tìm 15 điểm vector gần nhất trong nhóm ‘green’ (màu xanh lá) hoặc các tài liệu có ngày tạo gần đây cùng chứa nội dung tương tự.

3. Khó khăn trong việc kết hợp index vector và bộ lọc

PostgreSQL hỗ trợ nhiều kiểu index (B-tree, GIN, HNSW…) nhưng không thể kết hợp chúng hiệu quả trong một truy vấn.

pgvector chỉ hỗ trợ tìm kiếm gần đúng trên vector bằng index HNSW, không thể áp dụng bộ lọc trước ngay trong chỉ mục vector.

Kết quả là hệ thống phải tìm kiếm vector trước và sau đó mới lọc ra các kết quả thỏa mãn điều kiện bộ lọc (post-filtering), gây giảm độ chính xác và hiệu suất.

Thí Nghiệm Với Bộ Dữ Liệu Giả Lập Trên pgvector

1. Chuẩn bị môi trường

Khởi chạy container PostgreSQL với pgvector extension:

docker run --name pgv -d -e POSTGRES_PASSWORD=franck pgvector/pgvector:0.8.0-pg17
docker exec -it pgv psql -U postgres
create extension if not exists vector;

2. Tạo dữ liệu thử nghiệm

Hàm sinh vector ngẫu nhiên 512 chiều:

create function random_embedding(dimensions int) returns vector as
$$
select array(select random()::real from generate_series(1, dimensions))::vector
$$
language sql;

Tạo bảng lưu vector kèm metadata màu sắc:

create table embeddings_table (
  id bigserial primary key,
  color text,
  embedding vector(512)
);

Chèn 2 triệu bản ghi, mỗi bản ghi có vector ngẫu nhiên và màu sắc được chọn ngẫu nhiên từ ['red', 'green', 'blue']:

insert into embeddings_table (embedding, color)
select random_embedding(512), (array['red', 'green', 'blue'])[generate_series(1, 2000000) % 3 + 1];

3. Tạo chỉ mục HNSW theo cosine similarity:

create index i1 on embeddings_table using hnsw (embedding vector_cosine_ops);

4. Ví dụ truy vấn tìm 15 điểm gần nhất theo cosine similarity, lọc màu xanh "green":

select id, color, embedding <=> :'random_embedding' as nn_cosine
from embeddings_table
where color='green'
order by nn_cosine
limit 15;

So Sánh Tìm Kiếm Chính Xác (ENN) và Gần Đúng (ANN)

1. Tìm kiếm chính xác (ENN) - Full Table Scan

Tắt chỉ mục:

set enable_indexscan to off;

Truy vấn trả về chính xác 15 điểm gần nhất thoả bộ lọc màu xanh, nhưng rất chậm (~1.9 giây):

select id, color, embedding <=> :'random_embedding' as enn_cosine
from embeddings_table
where color='green'
order by enn_cosine
limit 15;

Chú ý: ENN tốn nhiều tài nguyên vì phải duyệt toàn bộ bảng, tính toán khoảng cách trên hơn 600,000 điểm sau khi lọc màu.

2. Tìm kiếm gần đúng (ANN) sử dụng chỉ mục HNSW

Bật chỉ mục:

set enable_indexscan to on;

Truy vấn tương tự cho ra kết quả chỉ trong khoảng 6ms, rất nhanh

Tuy nhiên, sau khi apply bộ lọc màu xanh (post-filtering), chỉ còn 11 kết quả trong khi cần 15, chứng tỏ có mất mát dữ liệu do thiếu pre-filtering.

3. Nguyên nhân mất kết quả khi post-filtering

Chỉ mục HNSW trả về một số lượng cố định các candidate (40 mặc định).

Bộ lọc màu xanh áp dụng sau làm loại bỏ nhiều kết quả, dẫn đến thiếu số lượng yêu cầu (< 15).

Đây là điểm yếu của phương pháp post-filtering.

Tác Động của Post-filtering trên Độ Chính Xác (Recall)

1. Khái niệm Recall

Recall đo phần trăm số hàng xung gần nhất thực sự đúng mà thuật toán ANN tìm được so với ENN.

Theo MongoDB glossary : Recall reflects how close the approximate algorithm's result is to the exact nearest neighbors.

2. Bảng tóm tắt thí nghiệm mất kết quả khi post-filtering

Phương pháp	Thời gian (ms)	Số kết quả trả về	Recall
ENN (full scan)	~1878	15	100%
ANN + post-filter	~6	11	~73%
ANN + partial index (pre-filter-like)	~2	15	~80-90%

3. Kết luận

Post-filtering giảm recall và có thể làm mất các điểm dữ liệu gần nhất.

Nên ưu tiên pre-filtering để trích xuất candidate phù hợp ngay từ bước đầu.

Giải Pháp Thực Tiễn và Tối Ưu Trong PostgreSQL

1. Partial Index để mô phỏng Pre-filtering

Tạo chỉ mục HNSW chỉ với màu ‘green’:

create index i2 on embeddings_table using hnsw (embedding vector_cosine_ops) where color = 'green';

Truy vấn lại với bộ lọc màu xanh:

select id, color, embedding <=> :'random_embedding' ann_cosine
from embeddings_table
where color = 'green'
order by ann_cosine
limit 15;

Lúc này độ recall và tốc độ tốt hơn, hạn chế mất mát kết quả do bộ lọc được áp dụng ngay trong chỉ mục.

Lưu ý: Phương pháp này chỉ áp dụng khi bộ lọc cố định và giá trị rõ ràng. Không linh hoạt cho bộ lọc phức tạp hoặc đa giá trị.

2. Điều chỉnh tham số chỉ mục HNSW

Tham số hnsw.ef_search quyết định số lượng candidate tìm kiếm, tăng giá trị này cải thiện recall nhưng làm chậm tìm kiếm.

set hnsw.ef_search = 100;

3. Kích hoạt iterative scan

Khi kết quả sau post-filtering thấp hơn LIMIT , cho phép chạy lại index scan nhiều lần để đủ kết quả.

4. Phân vùng bảng (Partitioning)

Nếu dữ liệu được phân vùng theo trường lọc (vd: color), PostgreSQL áp dụng partition pruning giúp tăng tốc độ index scan và có thể cải thiện hiệu quả.

Tổng Kết và Đề Xuất

pgvector là công cụ mạnh giúp tích hợp tìm kiếm vector vào PostgreSQL, tiết kiệm việc quản lý thêm dịch vụ bên ngoài.

Tuy nhiên, hạn chế lớn là thiếu khả năng pre-filtering trên index vector, dẫn đến giảm recall và có thể ảnh hưởng đến độ chính xác tìm kiếm khi dùng bộ lọc metadata.

Partial index là giải pháp tạm thời hữu ích trong các trường hợp filter đơn giản, nhưng không thay thế được pre-filtering động.

Cần điều chỉnh tham số tìm kiếm và áp dụng iterative scan để cân bằng giữa tốc độ và độ chính xác.

PostgreSQL không thể kết hợp đồng thời các kiểu index (HNSW + B-tree) một cách trực tiếp, khác với MongoDB Atlas Vector Search có hỗ trợ pre-filtering động.

Khi triển khai ứng dụng nghiêm túc, cần cân nhắc cả lợi ích và hạn chế của pgvector, kiểm tra kỹ execution plan và kết quả trước khi áp dụng.

Lời khuyên: Với các hệ thống có yêu cầu tìm kiếm vector phức tạp kèm nhiều bộ lọc, xem xét dùng các nền tảng chuyên biệt như MongoDB Atlas Vector Search hoặc hệ thống vector search chuyên dụng sẽ mang lại hiệu quả lớn hơn.

Tham Khảo

pgvector GitHub Repository

Pachot, Franck. "PostgreSQL JSONB Indexing Limitations with B-Tree and GIN". Dev.to.

MongoDB Atlas Vector Search - Pre-filtering

MongoDB Glossary - Recall

Pachot, Franck. "PG + JSONB != MongoDB" Series on Dev.to

PostgreSQL Documentation - Index types