Jam-Text: Chuyện Kể về Hành Trình Xây Dựng Công Cụ Lập Chỉ Mục Văn Bản Siêu Tốc Bằng Go!

Lê Lân

17/06/2025

Jam-Text: Công Cụ Chỉ Mục Văn Bản Tốc Độ Cao và Có Khả Năng Mở Rộng Viết Bằng Go

Mở Đầu

Trong một hackathon gần đây, tôi đã cùng với những đồng đội tài năng như Elijah, Kevin, Jerome và Godwin xây dựng một công cụ độc đáo mang tên Jam-Text—một bộ chỉ mục văn bản CLI có khả năng xử lý nhanh và mở rộng hiệu quả.

Mục tiêu của chúng tôi rất thách thức: xây dựng một công cụ có thể phân mảnh các tệp văn bản lớn thành các đoạn nhỏ, tạo các dấu vân tay (fingerprints) để phát hiện sự tương đồng và tra cứu dữ liệu một cách cực nhanh. Qua dự án này, chúng tôi đã khám phá và áp dụng nhiều kỹ thuật tiên tiến như SimHash, Locality-Sensitive Hashing (LSH) dùng random hyperplanes, cùng việc tận dụng đa luồng trong Go để đạt hiệu suất tối ưu. Bài viết này sẽ chia sẻ chi tiết hành trình phát triển Jam-Text, những thách thức gặp phải và bài học kinh nghiệm đúc kết được.

Thách Thức: Tốc Độ, Mở Rộng Và Tính Tương Đồng

Mục Tiêu Của Hackathon

Hackathon giao cho chúng tôi một nhiệm vụ tưởng chừng đơn giản:

Phân tách tệp văn bản thành các chunk cố định (4KB mỗi chunk).

Tạo fingerprint SimHash cho từng chunk.

Xây dựng bộ chỉ mục lưu trữ trên bộ nhớ.

Cho phép tìm kiếm nhanh qua fingerprint.

Ưu tiên sử dụng xử lý đa luồng và hỗ trợ tìm kiếm mờ (fuzzy matching).

Tuy nhiên, để đáp ứng yêu cầu tốc độ và mở rộng tốt với dữ liệu cỡ lớn mà vẫn tối ưu bộ nhớ là một bài toán không dễ.

Hiểu Về Độ Tương Đồng

Độ tương đồng được hiểu khác nhau tùy mục đích:

Phát hiện đạo văn yêu cầu các đoạn văn có độ trùng khớp gần như hoàn toàn.

Tìm kiếm nội dung lại cần đoán định ý nghĩa tương tự (ví dụ: "cat" và "feline" có thể coi là tương đồng về mặt ngữ nghĩa).

Vì vậy, chúng tôi đã chọn giải pháp kết hợp:

SimHash cho tìm kiếm chính xác.

Vector similarity với random hyperplanes cho tìm kiếm mờ và hiệu quả mở rộng.

Việc kết hợp hai phương pháp này giúp Jam-Text vừa nhanh trong truy vấn chính xác, vừa linh hoạt trong phân tích nghĩa rộng.

Khám Phá Ý Tưởng Lớn Từ Locality-Sensitive Hashing (LSH)

Nền Tảng Kỹ Thuật

Chúng tôi lấy cảm hứng từ nghiên cứu của Moses Charikar với bài báo "Similarity Estimation Techniques from Rounding Algorithms", giới thiệu kỹ thuật Locality-Sensitive Hashing (LSH)—giúp chuyển dữ liệu phức tạp thành các vector ngắn dễ so sánh.

Trong 3 loại LSH chính:

Min-Hash: Phù hợp phát hiện trùng lặp dựa trên giao nhau tập hợp.

Random Hyperplanes: Chuyển đổi văn bản thành vector đếm từ, đo gần giống cosine, rất hữu ích cho tìm kiếm ngữ nghĩa.

Earth Mover Distance: Phức tạp, không phù hợp ứng dụng của chúng tôi.

Chúng tôi chọn random hyperplanes kết hợp SimHash để vừa đáp ứng yêu cầu CLI vừa tăng hiệu quả tìm kiếm mờ.

Hành Trình Phát Triển Jam-Text

Bước 1: Phân Đoạn Văn Bản (Chunking)

Ban đầu, bộ phân đoạn chunker của chúng tôi làm việc đơn luồng, xử lý tuần tự nên chậm với tập tin lớn.

Chúng tôi đã cải tiến bằng cách sử dụng:

Worker pool với 4 worker chạy song song.

Chia tập tin thành nhiều miền riêng để các goroutine xử lý cùng lúc.

Kênh buffered để kết nối các goroutine thu thập kết quả.

func (c *Chunker) ProcessFile(filePath string) ([]Chunk, error) {
    fileSize := getFileSize(filePath)
    numWorkers := 4
    chunkChan := make(chan Chunk, 100)
    var wg sync.WaitGroup
    sectionSize := fileSize / int64(numWorkers)

    for i := 0; i < numWorkers; i++ {
        start := int64(i) * sectionSize
        end := start + sectionSize
        if i == numWorkers-1 {
            end = fileSize
        }
        wg.Add(1)
        go c.processSection(filePath, start, end, chunkChan)
    }

    go func() {
        wg.Wait()
        close(chunkChan)
    }()

    var chunks []Chunk
    for chunk := range chunkChan {
        chunks = append(chunks, chunk)
    }
    return chunks, nil
}

Bước 2: Tạo Fingerprint Với Twist Hybrid

Mỗi chunk được chuyển thành:

SimHash 64-bit: fingerprint compact phục vụ tìm kiếm chính xác.

Vector sketches: vector đếm từ, được chiếu qua 10 random hyperplanes tạo thành mảng 10 bit để tìm kiếm fuzzy.

type Fingerprint struct {
    SimHash     uint64
    VecSketches []int
}

func Hash(content []byte) Fingerprint {
    vector := toVector(string(content))
    return Fingerprint{
        SimHash:     simHash(string(content)),
        VecSketches: vectorSketches(vector, 10),
    }
}

Bước 3: Xây Dựng Bộ Chỉ Mục Với LSH

Chúng tôi tạo bộ chỉ mục để lưu trữ:

SimHash dùng cho tra cứu chính xác.

LSH buckets lưu các chunk phân theo vector sketch để tra cứu fuzzy.

type Index struct {
    Entries    map[uint64]IndexEntry
    LSHBuckets map[int][]IndexEntry
    mu         sync.RWMutex
}

func (idx *Index) AddEntry(fp simhash.Fingerprint, offset int64) {
    idx.mu.Lock()
    defer idx.mu.Unlock()
    idx.Entries[fp.SimHash] = IndexEntry{Fingerprint: fp, Offsets: []int64{offset}}
    bucketKey := fp.VecSketches[0]
    idx.LSHBuckets[bucketKey] = append(idx.LSHBuckets[bucketKey], entry)
}

Bước 4: CLI "Phép Thuật"

Chúng tôi phát triển công cụ CLI linh hoạt với các lệnh:

index để tạo chỉ mục.

lookup tìm fingerprint chính xác.

compare so sánh 2 tập tin.

fuzzy tìm kiếm tương đồng ngữ nghĩa với ngưỡng.

Ví dụ sử dụng CLI:

./textindex -c index -i large_text.txt -s 4096 -o index.idx
./textindex -c lookup -i index.idx -h 3eff1b2c98a6
./textindex -c compare -i doc1.txt -i2 doc2.txt -o report.txt
./textindex -c fuzzy -i testdata.idx -h $HASH -threshold 0.8

Những Thử Thách Và Thành Công

Cơn Đau Đầu Về Từ Vựng

Tạo vector đếm từ đòi hỏi một danh sách từ vựng xác định trước. Việc xây dựng động rất chậm, nên chúng tôi lựa chọn kỹ thuật tiền mẫu (preset vocab) từ tập tin đầu vào. Dù không hoàn hảo, nhưng nó đủ dùng cho demo.

Cân Bằng Giữa Tốc Độ Và Bộ Nhớ

SimHash rất gọn (8 bytes mỗi chunk).

Vector sketches tăng thêm ~10 bytes (cho 10 sketches).

Chúng tôi điều chỉnh từ 20 xuống 10 sketches để tiết kiệm RAM trong khi vẫn đủ tốt để nhận dạng fuzzy.

Mở Rộng Với LSH

Linear search với hàng triệu chunk là không khả thi. LSH giúp nhóm chunk tương tự vào cùng buckets, cải thiện tốc độ và độ chính xác.

Cân chỉnh kích thước sketch và buckets là quá trình khó khăn để giảm false positives mà vẫn duy trì recall cao.

Tương Lai Của Jam-Text

Chúng tôi đang lên kế hoạch:

Incremental indexing: Cho phép cập nhật chỉ mục theo thời gian thực.

Approximate Nearest Neighbors (ANN): Tăng tốc tìm kiếm fuzzy.

Persistent storage: Sử dụng LSM trees hoặc RocksDB để lưu trữ bền vững.

Kết Luận

Jam-Text là một dự án đột phá kết hợp kỹ thuật fingerprint hiện đại và xử lý song song để xây dựng bộ chỉ mục văn bản nhanh, mở rộng, và linh hoạt. Qua thử thách hackathon, chúng tôi đã:

Giải quyết bài toán phân mảnh và fingerprint hiệu quả.

Kết hợp SimHash và random hyperplanes cho đa dạng kiểu tìm kiếm.

Tối ưu xử lý đa luồng trong Go để cải thiện hiệu suất.

Nếu bạn quan tâm đến xử lý văn bản quy mô lớn hoặc tìm kiếm tương đồng, Jam-Text có thể là một công cụ giá trị để nghiên cứu và phát triển thêm. Hãy thử dùng Jam-Text và chia sẻ suy nghĩ của bạn về dự án trong phần bình luận! 🚀

Tham Khảo

Charikar, Moses S. “Similarity Estimation Techniques from Rounding Algorithms,” Proceedings of the 34th Annual ACM Symposium on Theory of Computing, 2002.

Azarbonyad, Hamidreza, et al. "Simhash: Hashing-Based Similarity Detection." ACM Transactions on Information Systems, 2018.

Official Go Documentation: https://golang.org/doc/

Jenkins, Brian. “Locality-Sensitive Hashing for Big Data Analytics”, Big Data Research, 2023.

RocksDB: Facebook’s high performance embedded database https://rocksdb.org/