Xây dựng hệ thống kiểm duyệt ảnh tự động: Bảo vệ nền tảng của bạn khỏi nội dung độc hại!

Lê Lân

30/06/2025

Xây Dựng Hệ Thống Moderation Hình Ảnh Quy Mô Lớn Cho Nền Tảng Người Dùng Tạo Nội Dung

Mở Đầu

Việc kiểm duyệt nội dung đóng vai trò then chốt trong việc bảo vệ cộng đồng và duy trì uy tín nền tảng trên các ứng dụng có người dùng tạo nội dung.

Trong bối cảnh hiện nay, khi hàng triệu hình ảnh được đăng tải mỗi ngày lên các mạng xã hội, diễn đàn, hay sàn thương mại điện tử, việc đảm bảo rằng tất cả các nội dung này không chứa các yếu tố bất hợp pháp, bạo lực hay không phù hợp là nhiệm vụ vô cùng cấp thiết. Tuy nhiên, làm thế nào để xây dựng một hệ thống kiểm duyệt hình ảnh vừa hiệu quả, vừa có thể mở rộng và không làm gián đoạn trải nghiệm người dùng?

Bài viết này sẽ hướng dẫn bạn chi tiết từng bước để xây dựng một pipeline kiểm duyệt hình ảnh quy mô lớn sử dụng các công nghệ như: quét virus ClamAV, chuyển đổi kích thước qua Sharp, phát hiện nội dung nhạy cảm bằng Google Vision API hoặc NudeNet, lưu trữ bảo mật MinIO, xử lý công việc bất đồng bộ qua BullMQ, và phát hiện hình ảnh xấu qua hashing trực quan (perceptual hashing).

1. Quarantining – Lưu Trữ Đưa Vào Khu Vực Cách Ly

Vấn đề

Khi người dùng tải ảnh lên, nếu cho phép ảnh này được hiển thị ngay mà chưa qua kiểm duyệt, sẽ dẫn đến rủi ro bị phát tán nội dung độc hại, ảnh hưởng đến người dùng khác và danh tiếng nền tảng.

Giải pháp

Lưu ảnh vào vùng quarantine (cách ly), một bucket MinIO riêng tư, chưa được công khai:

await minio.putObject('quarantine', tempFileName, fileBuffer);

Bucket quarantine phải thiết lập chính sách truy cập riêng tư, giới hạn chỉ hệ thống có quyền truy cập.

Quy trình tổng thể (Flowgraph)

Người dùng upload ảnh → Lưu vào MinIO bucket quarantine (riêng tư)

Thêm job kiểm duyệt vào hàng đợi BullMQ

Worker xử lý: quét virus, kiểm duyệt nội dung, hash kiểm tra

Ảnh sạch → chuyển ngay sang bucket công khai + cập nhật Database

Ảnh không phù hợp → từ chối + thông báo người dùng

2. Quét Virus Với ClamAV

Tính cần thiết

Bảo vệ nền tảng khỏi file độc hại (trojan, backdoor) là bước đầu tiên trước khi xử lý ảnh.

Cách thiết lập

Sử dụng Docker để chạy ClamAV server:

clamav:
  image: clamav/clamav:stable
  ports:
    - "3310:3310"

Mã tích hợp quét virus trong Node.js

import ClamScan from 'clamscan';

const clamscan = await new ClamScan().init();
const { isInfected, viruses } = await clamscan.scanBuffer(fileBuffer);

if (isInfected) throw new Error(`Infected file: ${viruses.join(', ')}`);

Bước này bảo vệ hoàn toàn nền tảng khỏi việc tải lên file chứa mã độc.

3. Phân Loại Nội Dung Bằng Machine Learning

Mục tiêu

Phát hiện các ảnh chứa nội dung nhạy cảm: khỏa thân, bạo lực, bất kỳ hình ảnh vi phạm chính sách nào.

Phương án A: Google Vision API (SafeSearch)

Sử dụng API của Google, cần tài khoản GCP và key service:

import vision from '@google-cloud/vision';

const client = new vision.ImageAnnotatorClient();
const [result] = await client.safeSearchDetection({ image: { content: buffer } });
const safe = result.safeSearchAnnotation;

if (safe.adult === 'VERY_LIKELY' || safe.violence === 'LIKELY') {
  throw new Error('Image flagged as unsafe');
}

Phương án B: Self-hosted với NudeNet hoặc DeepStack

Chạy server NudeNet qua Docker:

docker run -p 5000:5000 nudenet-server

Gửi API request:

const res = await fetch('http://localhost:5000/classify', { method: 'POST', body: formData });
const data = await res.json();

if (data.predictions.some(p => p.prob > 0.9)) {
  throw new Error('Image contains nudity');
}

4. Phát Hiện Hình Ảnh Xấu Qua Fingerprinting

Ý nghĩa

Phát hiện hình ảnh bất hợp pháp (ví dụ CSAM - child sexual abuse material) thông qua so sánh hash của ảnh với cơ sở dữ liệu ảnh đen đã biết.

Thuật toán hashing

pHash (Perceptual Hash)

aHash (Average Hash)

dHash (Difference Hash)

import { imageHash } from 'image-hash';

imageHash(buffer, 16, true, (error, hash) => {
  if (denylist.has(hash)) {
    throw new Error('Image in blocklist');
  }
});

Lưu ý

PhotoDNA là giải pháp độc quyền do Microsoft phát triển, cần đăng ký sử dụng qua Microsoft hoặc dịch vụ thứ ba.

Các dịch vụ như Microsoft Content Moderator hoặc Thorn’s CSAM API cung cấp giải pháp tham khảo.

5. Xây Dựng Pipeline Kiểm Duyệt Bất Đồng Bộ

Lý do

Quá trình kiểm duyệt có thể tốn thời gian, không nên làm tắc nghẽn yêu cầu HTTP của người dùng.

Quy trình triển khai

Chấp nhận upload và thêm job vào queue

const job = await queue.add('moderate-image', { userId, buffer });
return res.status(202).json({ jobId: job.id });

Worker chạy background xử lý

const worker = new Worker('moderate-image', async (job) => {
  // virus scan
  // content moderation
  // hash check
  // image resize + webp conversion
  // upload lên MinIO public bucket
  // cập nhật database
});

Theo dõi trạng thái job

const job = await queue.getJob(jobId);
return res.json({ status: job?.getState(), progress: job?.progress() });

Giúp tăng trải nghiệm người dùng, không bị lag hoặc đơ trong lúc chờ kiểm duyệt.

6. Biến Đổi Hình Ảnh Với Sharp

Mục tiêu

Tạo các kích thước ảnh đa dạng, tối ưu hiển thị web bằng định dạng WebP.

Mã ví dụ

const sizes = [
  { name: 'thumb', w: 64, h: 64 },
  { name: 'medium', w: 256, h: 256 },
  { name: 'full', w: 1024, h: 1024 },
];

const processed = await Promise.all(sizes.map(({ name, w, h }) =>
  sharp(originalBuffer)
    .resize(w, h)
    .webp({ quality: 80 })
    .toBuffer()
));

7. Chính Sách Kiểm Duyệt – Ngưỡng & Thực Thi

Các ngưỡng mẫu

Loại Nội Dung	Ngưỡng (%)	Hành Động
Adult Nudity	> 90	Từ chối
Violence	> 80	Lưu vào cách ly
Self-Harm	> 70	Xem xét thủ công

Ngưỡng có thể lưu trong config/database để dễ dàng thay đổi nhanh chóng mà không phải deploy lại hệ thống.

8. Xử Lý Lỗi Và Dọn Dẹp

Tình huống lỗi

Nếu trong quá trình xử lý job có lỗi (quét virus, ML,…), cần:

Xóa các file ảnh đã upload trong MinIO

Ghi lỗi vào database

Thông báo hoặc cảnh báo cho admin xử lý kịp thời

imageWorker.on('failed', async (job, err) => {
  for (const f of job.data.uploads) {
    await minio.removeObject('avatars', f.name);
  }
  await users.updateOne(
    { _id: job.data.userId },
    {
      $unset: { pendingAvatarJobId: "" },
      $set: { avatarJobError: err.message }
    }
  );
});

Việc xử lý này đảm bảo tài nguyên sạch sẽ, tránh nghiêm trọng hơn do lỗi tồn đọng.

Kết Luận

Qua bài viết này, bạn đã được giới thiệu chi tiết cách xây dựng một hệ thống kiểm duyệt hình ảnh quy mô lớn với quy trình chuẩn công nghiệp như Facebook, Reddit hay Discord sử dụng:

Quét virus bảo mật (ClamAV)

Phân tích ML kiểm duyệt nội dung (Google Vision API & NudeNet)

Phát hiện ảnh xấu qua perceptual hashing

Xử lý bất đồng bộ (BullMQ)

Chuyển đổi ảnh tối ưu (Sharp)

Lưu trữ an toàn (MinIO)

Chính sách kiểm duyệt linh hoạt và xử lý lỗi bài bản

Bạn hãy bắt đầu triển khai và tùy chỉnh pipeline phù hợp với nhu cầu riêng của mình. Đừng quên mở rộng thêm:

Dashboard kiểm duyệt thủ công

Quy trình kháng cáo (appeal)

Đánh dấu ảnh bằng watermark hoặc steganography để chống giả mạo

Bảo vệ người dùng, giữ gìn uy tín nền tảng và tuân thủ luật pháp là ưu tiên hàng đầu trong thời đại kỹ thuật số.

Tham Khảo

ClamAV Official Documentation

Google Cloud Vision SafeSearch

NudeNet GitHub: https://github.com/notAI-tech/NudeNet

BullMQ Documentation: https://docs.bullmq.io/

Sharp Image Processing: https://sharp.pixelplumbing.com/

Image Hashing Algorithms: https://pypi.org/project/ImageHash/

Microsoft PhotoDNA: https://www.microsoft.com/en-us/photodna

Thorn’s CSAM API: https://www.thorn.org/our-work/technology/