Bí Kíp 'Chấm Điểm' AI: Đảm Bảo Hệ Thống Của Bạn Luôn 'Đỉnh Của Chóp' Với Microsoft.Extensions.AI.Evaluation

Lê Lân

16/06/2025

Đánh Giá Hệ Thống AI: Khám Phá Thư Viện Microsoft.Extensions.AI.Evaluation Với C# Và .NET

Mở Đầu

Đảm bảo hệ thống AI hoạt động hiệu quả không chỉ trong lần ra mắt mà còn trong quá trình phát triển và triển khai thực tế là một thách thức lớn.

Trong kỷ nguyên phát triển nhanh chóng của trí tuệ nhân tạo (AI), việc duy trì và đánh giá chất lượng của các hệ thống AI là điều hết sức cần thiết. Ban đầu, các dự án thử nghiệm AI thường mang lại cảm giác thú vị và mới mẻ, nhưng khi hệ thống này được triển khai thực tế, chúng ta cần một phương pháp đánh giá chuyên nghiệp, bền vững và chính xác để đảm bảo AI hoạt động ổn định qua thời gian.

Bài viết này sẽ hướng dẫn bạn cách sử dụng thư viện mã nguồn mở Microsoft.Extensions.AI.Evaluation trong .NET để thu thập và đánh giá các chỉ số quan trọng liên quan đến hiệu suất của các hệ thống AI hội thoại (Conversational AI). Chúng ta sẽ tìm hiểu về các chỉ số như Equivalence, Groundedness, Fluency, Relevance, Coherence, Retrieval và Completeness thông qua ví dụ cụ thể với mã C#.

Tổng Quan Về Thách Thức Phát Triển Hệ Thống AI

Những Thay Đổi Trong Quá Trình Phát Triển

Trong quá trình phát triển một hệ thống AI, các thay đổi phổ biến bao gồm:

Thay đổi prompt (lời nhắc) để cải thiện hiệu suất hoặc khắc phục lỗi.

Thay thế mô hình hoàn thiện văn bản hoặc mô hình nhúng.

Thêm công cụ mới cho các tình huống gọi hàm (function-calling).

Thay đổi dữ liệu dùng cho kỹ thuật Retrieval Augmentation Generation (RAG).

Điều quan trọng là phải có phương pháp đánh giá lặp lại, hiệu quả để đo lường sự phản hồi của hệ thống AI trong các bối cảnh tương tác phổ biến.

Giới Thiệu Thư Viện Microsoft.Extensions.AI.Evaluation

Đây là thư viện mã nguồn mở giúp bạn so sánh và thu thập các chỉ số liên quan đến hiệu suất AI. Nó hỗ trợ nhiều nhà cung cấp mô hình, không chỉ OpenAI mà còn các dịch vụ hỗ trợ giao diện tương thích OpenAI như Ollama hay LM Studio.

Sử Dụng Thư Viện Để Đánh Giá Hệ Thống AI

Tạo Kết Nối Với OpenAI

Để lấy câu trả lời hội thoại và đánh giá chất lượng, bạn cần kết nối với OpenAI bằng API key và tùy chọn Endpoint. Đây là cách thiết lập với C#:

OpenAIClientOptions options = new() { Endpoint = new Uri(settings.OpenAIEndpoint) };
ApiKeyCredential key = new ApiKeyCredential(settings.OpenAIKey);
IChatClient chatClient = new OpenAIClient(key, options)
    .GetChatClient(settings.TextModelName)
    .AsIChatClient();

Xây Dựng Lịch Sử Cuộc Hội Thoại

Lịch sử hội thoại cần thiết để tạo ngữ cảnh cho cả truy vấn và đánh giá. Ví dụ về một lịch sử đơn giản:

const string greeting = "How can I help you today?";
const string userText = "Is today after May 1st? If so, tell me what the next month will be.";
string ragContext = "The current date is May 27th";

List<ChatMessage> messages = new()
{
    new(ChatRole.System, $"{settings.SystemPrompt} {ragContext}"),
    new(ChatRole.Assistant, greeting),
    new(ChatRole.User, userText)
};

Prompt hệ thống trong ví dụ này: You are a chatbot designed to help the user with simple questions. Keep your answers to a single sentence.

Lấy Phản Hồi Từ AI

Dùng IChatClient để lấy câu trả lời trên cơ sở lịch sử đã tạo:

ChatResponse responses = await chatClient.GetResponseAsync(messages);
foreach (var response in responses.Messages)
{
    console.MarkupLineInterpolated($"[cyan]AI[/]: {response.Text}");
}

Ví dụ phản hồi: AI: Yes, today is after May 1st, and the next month will be June.

Đánh Giá Các Chỉ Số AI Qua Microsoft.Extensions.AI.Evaluation

Đánh Giá Một Chỉ Số Đơn Lẻ: Coherence

IEvaluator evaluator = new CoherenceEvaluator();
ChatConfiguration chatConfig = new(chatClient);
EvaluationResult evalResult = await evaluator.EvaluateAsync(messages, responses, chatConfig);

Kết quả trả về EvaluationResult mang thông tin điểm số từ 1 (kém) tới 5 (gần như hoàn hảo).

Reason kèm theo giải thích nguyên nhân điểm số.

Đánh Giá Nhiều Chỉ Số Cùng Lúc

Sử dụng CompositeEvaluator để kết hợp nhiều chỉ số:

IEvaluator evaluator = new CompositeEvaluator(
    new CoherenceEvaluator(),
    new CompletenessEvaluator(),
    new FluencyEvaluator(),
    new GroundednessEvaluator(),
    new RelevanceEvaluator(),
    new RelevanceTruthAndCompletenessEvaluator(),
    new EquivalenceEvaluator(),
    new RetrievalEvaluator()
);

List<EvaluationContext> context = new()
{
    new RetrievalEvaluatorContext("The current date is May 27th"),
    new CompletenessEvaluatorContext("Today is May 27th and the next month is June"),
    new EquivalenceEvaluatorContext("The current date is May 27th, which is after May 1st and before June."),
    new GroundednessEvaluatorContext("May 27th is after May 1st. June is the month immediately following May.")
};

ChatConfiguration chatConfig = new(chatClient);
EvaluationResult evalResult = await evaluator.EvaluateAsync(messages, responses, chatConfig, context);

Các context trên cung cấp dữ liệu cần thiết giúp các evaluator nâng cao chạy đúng và hiệu quả.

Hiển Thị Kết Quả Đánh Giá

Sử dụng thư viện Spectre.Console để tạo bảng đẹp hiển thị thông tin:

Table table = new Table().Title("Evaluation Results");
table.AddColumns("Metric", "Value", "Reason");

foreach (var kvp in evalResult.Metrics)
{
    EvaluationMetric metric = kvp.Value;
    string reason = metric.Reason ?? "No Reason Provided";
    string value = metric.ToString() ?? "No Value";

    if (metric is NumericMetric num)
    {
        value = num.Value.HasValue ? num.Value.Value.ToString("F1") : "No value";
    }
    table.AddRow(kvp.Key, value, reason);
}

console.Write(table);

Giải Thích Các Chỉ Số Đánh Giá Quan Trọng

Equivalence (Tương Đương)

Đo lường mức độ phản hồi của AI gần với câu trả lời mẫu kỳ vọng.

Groundedness (Tính Bám Đáy)

Kiểm tra tính chính xác và thực tế dựa trên dữ kiện tổ chức cung cấp, tránh câu trả lời sai lệch.

Fluency (Mạch Lạc Ngữ Pháp)

Đánh giá ngữ pháp và cấu trúc câu đúng chuẩn hoặc dễ hiểu.

Coherence (Tính Mạch Lạc)

Đảm bảo câu trả lời dễ đọc, thông suốt, giống vai trò của một biên tập viên.

Retrieval (Tính Truy Xuất)

Đo hiệu quả của kỹ thuật RAG trong việc cung cấp dữ liệu tham khảo thích hợp cho AI.

Completeness (Tính Đầy Đủ)

Xác nhận đáp án bao trùm đủ các điểm trọng yếu theo câu trả lời mẫu.

RTC Evaluators (Relevance, Truth, Completeness)

Một evaluator kết hợp nhanh chóng và hiệu quả ba chỉ số đứng riêng biệt, tiết kiệm token và không cần context bổ sung.

Hiện tại, RTC Evaluator còn trong giai đoạn thử nghiệm nhưng được đánh giá có nhiều tiềm năng cho các dự án sản xuất quy mô.

Những Bước Tiếp Theo Và Ứng Dụng Thực Tiễn

Ứng Dụng Thư Viện Đánh Giá AI

Tạo các bài test tự động khi phát triển hệ thống, đảm bảo không xuất hiện suy giảm chất lượng.

Thực hiện thử nghiệm A/B prompt bằng evaluator LLM làm trọng tài.

Đưa đánh giá vào quy trình MLOps hoặc CI/CD cho hệ thống AI.

Tham Khảo Mã Nguồn Và Tài Liệu

Sample code của bài viết trên GitHub

Các mẫu liên quan từ Microsoft

Tài liệu Microsoft.Extensions.AI.Evaluation

Bài viết về RAG với Kernel Memory

Kết Luận

Việc duy trì và nâng cao chất lượng hệ thống AI đòi hỏi phương pháp đánh giá chuyên nghiệp, liên tục và có thể mở rộng. Thư viện Microsoft.Extensions.AI.Evaluation cung cấp công cụ mạnh mẽ để đánh giá nhiều khía cạnh khác nhau của hệ thống AI hội thoại qua các chỉ số chuẩn mực như Coherence, Fluency, Completeness và hơn thế nữa. Việc tích hợp những đánh giá này vào quy trình phát triển giúp tổ chức giảm thiểu rủi ro và tối ưu trải nghiệm người dùng.

Hãy thử nghiệm và khám phá các khả năng mà thư viện này mang lại để nâng cao chất lượng AI của bạn từ hôm nay!