Bảo Mật Ứng Dụng AI: Mổ Xẻ 'Mô Hình Hóa Nguy Cơ' (Threat Modeling) Cùng Mình Nhé!

Lê Lân

29/06/2025

Mô Hình Đe Dọa Trong Ứng Dụng AI: Hướng Dẫn Thực Hành Cho An Ninh AI

Mở Đầu

Mô hình đe dọa là bước quan trọng hàng đầu để bảo vệ các ứng dụng AI ngay từ đầu phát triển.

Khi xây dựng ứng dụng AI, bảo mật không chỉ là một tùy chọn mà là một yêu cầu bắt buộc. Trong bài viết đầu tiên của chuỗi, chúng ta đã tìm hiểu vì sao các ứng dụng AI cần được bảo vệ từ giai đoạn đầu. Tiếp theo, hãy cùng đi sâu vào một kỹ thuật thiết yếu nhưng dễ áp dụng: mô hình đe dọa (threat modeling). Mô hình đe dọa không phải là một khái niệm mới trong bảo mật, nhưng khi áp dụng cho AI, nó đòi hỏi một cách nhìn khác biệt, vì các hệ thống AI có đặc điểm và rủi ro riêng biệt so với truyền thống. Bài viết này sẽ giúp bạn hiểu rõ hơn về mô hình đe dọa cho AI, cách xây dựng một mô hình đơn giản và thực tế, cùng các ví dụ minh họa cụ thể.

Tại Sao Ứng Dụng AI Cần Có Cách Tiếp Cận Bảo Mật Khác?

Đặc Điểm Riêng Biệt Của Các Hệ Thống AI

AI không chỉ là phần mềm truyền thống với code logic tĩnh. Nó bao gồm các thành phần:

Mô hình AI (Model) rất động và có tính chất khó dự đoán.

Dữ liệu thường không có cấu trúc rõ ràng, thậm chí có thể do người dùng tạo ra.

Logic không chỉ nằm trong code, mà còn nằm trong các trọng số, embeddings và dữ liệu huấn luyện.

Giới Hạn Của Các Checklist Truyền Thống

Checklist và mô hình đe dọa chung không thể phát hiện hoặc phòng tránh các lỗ hổng đặc trưng riêng của AI.

Chính vì những yếu tố này, người làm bảo mật cần điều chỉnh cách thức mô hình đe dọa để phù hợp với hệ sinh thái AI — điều mà các phương pháp truyền thống chưa làm được.

Mô Hình Đe Dọa Đơn Giản Cho Ứng Dụng AI

1. Xác Định Các Tài Sản Cần Bảo Vệ

Trước tiên, bạn cần biết gì là quan trọng nhất:

Mô hình LLM (đặc biệt nếu là mô hình fine-tuning hoặc thuộc sở hữu riêng)

API keys, các prompt bí mật và logic kinh doanh

Dữ liệu huấn luyện hoặc đánh giá

Dữ liệu người dùng, đầu vào/đầu ra, và lịch sử tương tác

2. Vẽ Lại Kiến Trúc Hệ Thống

Phác thảo lại stack AI của bạn giúp nhận diện điểm yếu:

Frontend (ví dụ React, Gradio)

Backend (FastAPI, Node.js)

Gọi tới mô hình ngoài (OpenAI, Gemini, Mistral,...)

Cơ sở dữ liệu vector hoặc kho tài liệu

Pipeline fine-tuning hoặc RAG (retrieval-augmented generation)

3. Liệt Kê Các Mối Đe Dọa

Đây là phần quan trọng nhất, hãy tự hỏi:

Người dùng có thể gửi prompt độc hại không?

Kẻ tấn công có thể lấy cắp mô hình qua nhiều cuộc gọi liên tiếp không?

Dữ liệu huấn luyện hoặc fine-tuning có bị tiêm nhiễm không?

Nếu API key bị lộ, hậu quả ra sao?

Một số đe dọa đặc thù AI:

Prompt injection (chèn lệnh độc hại vào prompt)

Jailbreaking (vượt lớp kiểm soát)

Model inversion (đảo ngược mô hình lấy dữ liệu gốc)

Data poisoning (đầu độc dữ liệu huấn luyện)

Output manipulation (rò rỉ thông tin cá nhân qua phân tích dữ liệu trả về)

4. Lập Kế Hoạch Giảm Thiểu Rủi Ro

Không thể ngăn chặn hết, nên tập trung vào:

Làm sạch đầu vào (sanitize input) trước khi cấp cho mô hình

Giới hạn số lượng token trả về, áp dụng định dạng đầu ra nghiêm ngặt

Tránh ghi log prompt và kết quả đầy đủ ở dạng plaintext

Áp dụng xác thực và giới hạn tốc độ (rate limiting) ở các endpoint inference

Mã hóa, làm nhiễu dữ liệu huấn luyện tránh ghi nhớ trực tiếp

Bạn không cần tài liệu dài 50 trang, chỉ cần một Khung 4 Bước cơ bản này để bắt đầu hiệu quả.

Ví Dụ Thực Tế: Chatbot Conversational AI Với FastAPI và Gemini

Tài Sản (Assets)

Cấu trúc prompt

Lịch sử trò chuyện của người dùng

API key

Payload câu trả lời

Mối Đe Dọa (Threats)

Prompt injection làm sai lệch hướng xử lý

Lạm dụng API key nếu lộ front-end

Lịch sử chat rò rỉ thông tin nhạy cảm

Lạm dụng mô hình qua những prompt cực đoan

Giải Pháp Giảm Thiểu (Mitigations)

Đưa API key về backend, không hiển thị frontend

Xử lý tiền prompt (prompt pre-processing)

Lọc token trả lời trong output của Gemini

Chỉ lưu log đầu vào đã được ẩn danh

Mô hình đe dọa không cần quá phức tạp — chỉ cần đặt câu hỏi đúng lúc, đúng chỗ và hành động kịp thời.

Các Công Cụ Hỗ Trợ Mô Hình Đe Dọa AI

Bạn có thể mô hình thủ công hoặc sử dụng:

Microsoft Threat Modeling Tool

AI Security Solution Cheat Sheet Q1-2025

Framework STRIDE (đã điều chỉnh cho AI)

Công cụ vẽ sơ đồ như Excalidraw

Thậm chí là bảng trắng và giấy nhớ khi mới bắt đầu

Kết Luận

Mô hình đe dọa giúp bạn tư duy như kẻ tấn công trước khi kẻ tấn công xuất hiện. Với AI, việc này càng thiết yếu, vì các lỗ hổng thường không rõ ràng cho tới khi xảy ra sự cố. Bước tiếp theo trong chuỗi bài viết sẽ tập trung vào bảo mật dữ liệu huấn luyện và inference, để bạn yên tâm hơn về rủi ro rò rỉ và đầu độc dữ liệu.

Hãy dành ra 30 phút hôm nay để vạch ra một mô hình đe dọa cơ bản cho dự án AI của bạn — bạn có thể ngạc nhiên về những lỗ hổng tiềm ẩn mình tìm thấy!

Tham Khảo

Microsoft Threat Modeling Tool – https://aka.ms/threatmodelingtool

AI Security Solution Cheat Sheet Q1-2025 – https://genai.owasp.org/resource/ai-security-solution-cheat-sheet-q1-2025/

STRIDE Framework – https://en.wikipedia.org/wiki/STRIDE_(security)

Excalidraw – https://excalidraw.com/

Faham’s Security in AI Series – https://dev.to/iamfaham/series/31921

Hãy cùng xây dựng các ứng dụng AI không chỉ thông minh mà còn bảo mật và an toàn!