Các mô hình ngôn ngữ không chỉ mắc lỗi—chúng tạo ra thực tế hoàn toàn với sự tự tin tuyệt đối. Một AI Agent có thể tuyên bố rằng nó đã tạo bản ghi cơ sở dữ liệu không tồn tại, hoặc khẳng định rằng nó đã thực hiện các hành động mà nó chưa bao giờ thử. Đối với các nhóm triển khai các hệ thống này trong sản xuất, sự khác biệt đó quyết định cách bạn khắc phục sự cố.
Dmytro Kyiashko chuyên về kiểm tra hệ thống AI. Công việc của anh tập trung vào một câu hỏi: làm thế nào để bắt được một cách có hệ thống khi mô hình nói dối?
Vấn đề với việc kiểm tra những điều vô nghĩa tự tin
Phần mềm truyền thống lỗi một cách dự đoán được. Một chức năng bị hỏng trả về lỗi. Một API được cấu hình sai cung cấp tín hiệu lỗi xác định—thường là mã trạng thái HTTP tiêu chuẩn và thông báo lỗi dễ đọc giải thích điều gì đã xảy ra.
Các mô hình ngôn ngữ bị hỏng theo cách khác. Chúng sẽ báo cáo hoàn thành các nhiệm vụ mà chúng chưa bao giờ bắt đầu, truy xuất thông tin từ cơ sở dữ liệu mà chúng chưa bao giờ truy vấn và mô tả các hành động chỉ tồn tại trong dữ liệu đào tạo của chúng. Các phản hồi trông đúng. Nội dung được bịa đặt.
"Mỗi AI Agent hoạt động theo hướng dẫn được chuẩn bị bởi các kỹ sư," Kyiashko giải thích. "Chúng tôi biết chính xác những gì agent của chúng tôi có thể và không thể làm." Kiến thức đó trở thành nền tảng để phân biệt ảo giác với lỗi.
Nếu một agent được đào tạo để truy vấn cơ sở dữ liệu thất bại một cách im lặng, đó là lỗi. Nhưng nếu nó trả về kết quả truy vấn chi tiết mà không chạm vào cơ sở dữ liệu? Đó là một ảo giác. Mô hình đã phát minh ra đầu ra hợp lý dựa trên các mẫu đào tạo.
Xác minh với sự thật cơ bản
Cách tiếp cận của Kyiashko tập trung vào xác minh với trạng thái hệ thống thực tế. Khi một agent tuyên bố rằng nó đã tạo bản ghi, các bài kiểm tra của anh kiểm tra xem các bản ghi đó có tồn tại không. Phản hồi của agent không quan trọng nếu hệ thống mâu thuẫn với nó.
"Tôi thường sử dụng các loại kiểm tra tiêu cực khác nhau—cả đơn vị và tích hợp—để kiểm tra ảo giác LLM," anh lưu ý. Các bài kiểm tra này cố tình yêu cầu các hành động mà agent thiếu quyền để thực hiện, sau đó xác minh agent không xác nhận thành công sai và trạng thái hệ thống vẫn không thay đổi.
Một kỹ thuật kiểm tra với các ràng buộc đã biết. Một agent không có quyền ghi cơ sở dữ liệu được nhắc để tạo bản ghi. Bài kiểm tra xác minh không có dữ liệu trái phép xuất hiện và phản hồi không tuyên bố thành công.
Phương pháp hiệu quả nhất sử dụng dữ liệu sản xuất. "Tôi sử dụng lịch sử cuộc trò chuyện của khách hàng, chuyển đổi mọi thứ sang định dạng JSON và chạy các bài kiểm tra của mình bằng tệp JSON này." Mỗi cuộc trò chuyện trở thành một trường hợp kiểm tra phân tích xem các agent có đưa ra tuyên bố mâu thuẫn với nhật ký hệ thống không.
Điều này bắt được các mẫu mà các bài kiểm tra tổng hợp bỏ lỡ. Người dùng thực tạo ra các điều kiện phơi bày các trường hợp cạnh. Nhật ký sản xuất tiết lộ nơi các mô hình ảo giác trong sử dụng thực tế.
Hai chiến lược đánh giá
Kyiashko sử dụng hai cách tiếp cận bổ sung để đánh giá hệ thống AI.
Các đánh giá dựa trên mã xử lý xác minh khách quan. "Các đánh giá dựa trên mã là lý tưởng khi định nghĩa thất bại là khách quan và có thể được kiểm tra bằng quy tắc. Ví dụ: phân tích cấu trúc, kiểm tra tính hợp lệ JSON hoặc cú pháp SQL," anh giải thích.
Nhưng một số thất bại chống lại phân loại nhị phân. Giọng điệu có phù hợp không? Bản tóm tắt có trung thực không? Phản hồi có hữu ích không? "Các đánh giá LLM-as-Judge được sử dụng khi chế độ thất bại liên quan đến việc giải thích hoặc sắc thái mà mã không thể nắm bắt."
Đối với cách tiếp cận LLM-as-Judge, Kyiashko dựa vào LangGraph. Không có cách tiếp cận nào hoạt động một mình. Các khung hiệu quả sử dụng cả hai.
Những gì đào tạo QA cổ điển bỏ lỡ
Các kỹ sư chất lượng có kinh nghiệm gặp khó khăn khi họ lần đầu kiểm tra hệ thống AI. Các giả định khiến họ hiệu quả không chuyển giao.
"Trong QA cổ điển, chúng tôi biết chính xác định dạng phản hồi của hệ thống, chúng tôi biết chính xác định dạng dữ liệu đầu vào và đầu ra," Kyiashko giải thích. "Trong kiểm tra hệ thống AI, không có điều đó." Dữ liệu đầu vào là một lời nhắc—và các biến thể trong cách khách hàng diễn đạt yêu cầu là vô tận.
Điều này đòi hỏi giám sát liên tục. Kyiashko gọi nó là "phân tích lỗi liên tục"—thường xuyên xem xét cách các agent phản hồi với người dùng thực tế, xác định nơi họ bịa đặt thông tin và cập nhật bộ kiểm tra tương ứng.
Thách thức tăng lên với khối lượng hướng dẫn. Các hệ thống AI yêu cầu các lời nhắc rộng rãi xác định hành vi và ràng buộc. Mỗi hướng dẫn có thể tương tác không thể đoán trước với những cái khác. "Một trong những vấn đề với hệ thống AI là số lượng lớn các hướng dẫn liên tục cần được cập nhật và kiểm tra," anh lưu ý.
Khoảng cách kiến thức là đáng kể. Hầu hết các kỹ sư thiếu hiểu biết rõ ràng về các chỉ số thích hợp, chuẩn bị tập dữ liệu hiệu quả hoặc phương pháp đáng tin cậy để xác minh đầu ra thay đổi với mỗi lần chạy. "Tạo một AI Agent không khó," Kyiashko quan sát. "Tự động hoá việc kiểm tra agent đó là thách thức chính. Từ quan sát và kinh nghiệm của tôi, nhiều thời gian hơn được dành cho việc kiểm tra và tối ưu hoá hệ thống AI hơn là tạo chúng."
Phát hành hàng tuần đáng tin cậy
Ảo giác làm xói mòn niềm tin nhanh hơn lỗi. Một tính năng bị hỏng làm người dùng thất vọng. Một agent tự tin cung cấp thông tin sai phá huỷ uy tín.
Phương pháp kiểm tra của Kyiashko cho phép phát hành hàng tuần đáng tin cậy. Xác minh tự động bắt được các hồi quy trước khi triển khai. Các hệ thống được đào tạo và kiểm tra với dữ liệu thực xử lý hầu hết các yêu cầu của khách hàng một cách chính xác.
Lặp lại hàng tuần thúc đẩy lợi thế cạnh tranh. Các hệ thống AI cải thiện thông qua việc thêm khả năng, tinh chỉnh phản hồi, mở rộng miền.
Tại sao điều này quan trọng đối với kỹ thuật chất lượng
Các công ty tích hợp AI phát triển hàng ngày. "Thế giới đã thấy lợi ích của việc sử dụng AI, vì vậy không thể quay lại," Kyiashko lập luận. Việc áp dụng AI tăng tốc trên các ngành—nhiều công ty khởi nghiệp ra mắt hơn, nhiều doanh nghiệp tích hợp trí thông minh vào sản phẩm cốt lõi hơn.
Nếu các kỹ sư xây dựng hệ thống AI, họ phải hiểu cách kiểm tra chúng. "Ngay cả hôm nay, chúng ta cần hiểu cách LLM hoạt động, cách AI Agent được xây dựng, cách các agent này được kiểm tra và cách tự động hoá các kiểm tra này."
Kỹ thuật prompt đang trở thành bắt buộc đối với các kỹ sư chất lượng. Kiểm tra dữ liệu và xác minh dữ liệu động theo cùng quỹ đạo. "Những thứ này đã nên là các kỹ năng cơ bản của các kỹ sư kiểm tra."
Các mẫu Kyiashko thấy trên toàn ngành xác nhận sự thay đổi này. Thông qua công việc xem xét các bài báo kỹ thuật về đánh giá AI và đánh giá kiến trúc công ty khởi nghiệp tại các diễn đàn kỹ thuật, các vấn đề giống nhau xuất hiện lặp đi lặp lại: các nhóm ở khắp mọi nơi đối mặt với các vấn đề giống hệt nhau. Các thách thức xác minh mà anh đã giải quyết trong sản xuất nhiều năm trước giờ đang trở thành mối quan tâm phổ quát khi triển khai AI mở rộng quy mô.
Cơ sở hạ tầng kiểm tra có thể mở rộng
Phương pháp của Kyiashko giải quyết các nguyên tắc đánh giá, đánh giá cuộc trò chuyện nhiều lượt và các chỉ số cho các chế độ thất bại khác nhau.
Khái niệm cốt lõi: kiểm tra đa dạng. Xác minh cấp độ mã bắt được lỗi cấu trúc. Đánh giá LLM-as-Judge cho phép đánh giá hiệu quả và độ chính xác của hệ thống AI tuỳ thuộc vào phiên bản LLM nào đang được sử dụng. Phân tích lỗi thủ công xác định các mẫu. Kiểm tra RAG xác minh các agent sử dụng ngữ cảnh được cung cấp thay vì phát minh chi tiết.
"Khung tôi mô tả dựa trên khái niệm về cách tiếp cận đa dạng để kiểm tra hệ thống AI. Chúng tôi sử dụng phạm vi cấp độ mã, đánh giá LLM-as-Judge, phân tích lỗi thủ công và đánh giá Retrieval-Augmented Generation." Nhiều phương pháp xác minh làm việc cùng nhau bắt được các loại ảo giác khác nhau mà các cách tiếp cận đơn lẻ bỏ lỡ.
Điều gì sẽ xảy ra tiếp theo
Lĩnh vực này xác định các phương pháp hay nhất trong thời gian thực thông qua các thất bại sản xuất và cải tiến lặp đi lặp lại. Nhiều công ty triển khai AI tạo sinh hơn. Nhiều mô hình đưa ra quyết định tự chủ hơn. Các hệ thống có khả năng hơn, có nghĩa là ảo giác trở nên hợp lý hơn.
Nhưng kiểm tra có hệ thống bắt được các bịa đặt trước khi người dùng gặp phải chúng. Kiểm tra ảo giác không phải là về sự hoàn hảo—các mô hình sẽ luôn có các trường hợp cạnh mà chúng bịa đặt. Đó là về việc bắt các bịa đặt một cách có hệ thống và ngăn chúng đạt đến sản xuất.
Các kỹ thuật hoạt động khi được áp dụng đúng. Những gì còn thiếu là sự hiểu biết rộng rãi về cách thực hiện chúng trong môi trường sản xuất nơi độ tin cậy quan trọng.
Dmytro Kyiashko là nhà phát triển phần mềm trong kiểm tra chuyên về kiểm tra hệ thống AI, với kinh nghiệm xây dựng các khung kiểm tra cho AI đàm thoại và các agent tự chủ. Công việc của anh kiểm tra các thách thức về độ tin cậy và xác minh trong các hệ thống AI đa phương thức.


