Chào! Tên tôi là Ashton, và tôi là kỹ sư sáng lập tại Theta, nơi tôi làm việc về cơ sở hạ tầng RL, RL và Công nghệ sổ cái phân tán. Tôi tập trung đặc biệt vào việc sử dụng máy tính và sử dụng công cụ. Trong quá khứ, tôi đã làm việc tại Amazon AGI và giải quyết cơ sở hạ tầng suy luận và sử dụng công cụ. Trong thời gian rảnh, tôi yêu thích thiết kế đồ họa, các dự án phụ và leo núi bouldering.
Bài viết mới nhất của tôi, "AI Của Bạn Có Thực Sự Sử Dụng Được Máy Tính Không? Bản Đồ Các Tiêu Chuẩn Sử Dụng Máy Tính Năm 2025," đề cập đến một trong những lĩnh vực nóng nhất trong VC hiện nay: môi trường RL và đánh giá. Tôi đã đưa ra tổng quan toàn diện về các tiêu chuẩn sử dụng máy tính được sử dụng nhiều nhất, cùng với lời khuyên thực tế về cách chọn tiêu chuẩn để đào tạo và kiểm tra các agent sử dụng máy tính.
Tôi liên tục gặp phải cùng một khoảng trống: không có nhiều bài viết đánh giá bản thân các tiêu chuẩn. Và khi lĩnh vực này phát triển, điều quan trọng là chúng ta thực sự đánh giá chất lượng thay vì thưởng cho bất cứ điều gì xảy ra để đánh lừa số liệu. Chúng ta đã từng ở đây trước đây. Trong những ngày đầu của LLM, các tiêu chuẩn đủ ngẫu nhiên và khác biệt đến mức chúng chỉ phản ánh một cách yếu ớt người chiến thắng thực sự.
Các tiêu chuẩn trở thành bảng điểm thực tế cho "mô hình tốt nhất," và sau đó mọi người nhận ra rằng nhiều tiêu chuẩn không đo lường những gì họ tuyên bố.
Một trong những thất bại thời kỳ đầu tiết lộ nhất là khi "đọc hiểu" âm thầm trở thành "khớp mẫu trên cấu trúc dữ liệu." Các nhà nghiên cứu đã chạy các đường cơ sở cố tình khiêu khích (chỉ câu hỏi, chỉ câu cuối cùng), và kết quả đủ cao để đặt ra một khả năng không thoải mái: tiêu chuẩn không buộc các mô hình sử dụng toàn bộ đoạn văn một cách nhất quán. Trong một bài phê bình năm 2018, điểm không phải là việc đọc không bao giờ quan trọng, mà là một số bộ dữ liệu vô tình làm cho nó trở thành tùy chọn bằng cách thưởng quá mức cho các lối tắt như tính gần đây và các câu trả lời khuôn mẫu.
\
# Nhiệm vụ được cho: trả lời câu hỏi dựa trên đoạn văn và câu hỏi Đoạn văn (tóm tắt): - Câu 1–8: Ngày của John ở trường (phần lớn là chi tiết không liên quan) - Câu 9: "Sau giờ học, John đi vào bếp." - Câu 10: "Cậu ấy ăn một miếng pizza trước khi bắt đầu làm bài tập về nhà." Câu hỏi: "John đã ăn gì?" Câu trả lời: "pizza"
Tiêu chuẩn vô tình thưởng cho một lối tắt nơi mô hình đặt trọng số quá mức cho câu cuối cùng (vì câu trả lời thường ở gần cuối) và chỉ đơn giản là trích xuất đối tượng trực tiếp của hành động gần đây nhất ("ăn ___"), trong trường hợp này là "pizza."
Và sau đó là đường cơ sở gây thiệt hại nhiều hơn: loại bỏ hoàn toàn đoạn văn và xem điều gì xảy ra. Nếu một mô hình chỉ có câu hỏi có tính cạnh tranh, đó là dấu hiệu cho thấy bộ dữ liệu đang rò rỉ tín hiệu thông qua lặp lại và tiền đề hơn là kiểm tra khả năng hiểu đoạn văn.
Câu hỏi: "John đã ăn gì?"
Đường cơ sở này về cơ bản là một kiểm tra tính hợp lý: liệu mô hình có thể vẫn đạt điểm tốt bằng cách dựa vào các mẫu câu trả lời tần suất cao mà không cần dựa vào đoạn văn không? Trong thực tế, nó chỉ đoán một token mà bộ dữ liệu thưởng không tương xứng ("pizza," "sandwich"), và nếu điều đó hoạt động thường xuyên hơn mức nó nên có, bạn không đo lường khả năng hiểu nhiều như bạn đang đo lường các tiền đề của bộ dữ liệu.
Các đánh giá sử dụng máy tính đã tạo ra một lối tắt thậm chí còn theo nghĩa đen hơn: agent có một trình duyệt, tiêu chuẩn là công khai, và việc đánh giá biến thành một bài kiểm tra sách mở với đáp án ở trang cuối. Trong bài báo Holistic Agent Leaderboard (HAL), các tác giả báo cáo quan sát thấy các agent tìm kiếm tiêu chuẩn trên HuggingFace thay vì giải quyết nhiệm vụ, một hành vi mà bạn chỉ phát hiện nếu kiểm tra nhật ký.
\
# Nhiệm vụ được cho: hoàn thành một quy trình làm việc trong môi trường web Nhiệm vụ: "Cấu hình cài đặt X trong ứng dụng và xác minh rằng nó được bật." Chế độ thất bại: 1) Mở một tab mới 2) Tìm kiếm: "trạng thái được bật dự kiến của tiêu chuẩn X" / "HAL <tiêu chuẩn> cài đặt X" 3) Tìm: repo / bài viết bảng xếp hạng / thẻ bộ dữ liệu / chủ đề vấn đề 4) Tái tạo trạng thái cuối dự kiến (câu trả lời)
Tại thời điểm đó, việc đánh giá đang đo lường liệu nó có thể định vị đáp án hay không.
Nhiệm vụ: "Tìm trang chính xác và trích xuất Y." Chế độ thất bại: - Tìm kiếm: "<tên tiêu chuẩn> Y" - Sao chép từ một tài liệu công khai (tài liệu, bài đăng diễn đàn, thẻ bộ dữ liệu) - Dán giá trị vào đầu ra của agent như thể nó đến từ tương tác
Nếu một agent có thể lấy giá trị từ thẻ bộ dữ liệu hoặc repo và vẫn "vượt qua," việc kiểm tra thành công đang chấm điểm tính hợp lý, không phải tính chính xác của tương tác. Các nhiệm vụ công khai cộng với xác minh nông biến tìm kiếm web thành một lỗ hổng.
Hai ví dụ này là phát súng cảnh báo: nếu chúng ta không giữ các tiêu chuẩn sử dụng máy tính ở tiêu chuẩn cao hơn sớm, chúng ta sẽ lặp lại kỷ nguyên LLM chỉ với giao diện người dùng tốt hơn và các cách gian lận tinh vi hơn.
Đúng vậy! Làm việc trên môi trường RL và cơ sở hạ tầng RL xung quanh việc sử dụng máy tính, tôi liên tục được bao quanh bởi các mô hình sử dụng máy tính tốt nhất và các môi trường đào tạo thực tế nhất. Vì vậy, tôi đã viết một bài báo khác, "Màn hình là API," đây là trường hợp cho việc sử dụng máy tính và lý do tại sao nó là tương lai của các mô hình AI.
Không gian này cực kỳ ít được báo cáo do hai lý do:
Tôi muốn thay đổi điều đó.
Tôi thường đọc một loạt các bài báo nghiên cứu và nói chuyện với đồng nghiệp trong ngành về suy nghĩ của họ về một chủ đề. Ngoài ra, tôi dành nhiều thời gian đọc các bài viết của các blogger tuyệt vời như PG. Vì vậy, tôi thường lấy nhiều cảm hứng từ những người khác trong bài viết của mình.
Tìm thời gian để ngồi xuống và đưa trải nghiệm sống của tôi thành lời.
Để giải quyết các vấn đề khó khăn hơn với những người tuyệt vời, để học hỏi từ những người đó, và chia sẻ kinh nghiệm của tôi.
Xem phim! Bộ phim yêu thích của tôi hiện tại là Catch Me If You Can (2002).
Tôi yêu thích leo núi bouldering vì nó làm tôi cảm thấy như tôi là một agent sử dụng máy tính con người tương tác với bức tường leo núi. Tôi đùa đấy. Tôi nghĩ leo núi bouldering rất vui vì nó cho phép tôi tạm quên công việc và củng cố suy nghĩ của mình.
Tôi hiện đang viết một bài khác về cơ sở hạ tầng môi trường RL!
Tôi nghĩ cấu trúc đánh giá rất tuyệt vời, và đó là một nơi tuyệt vời để tôi đặt suy nghĩ của mình trước các độc giả kỹ thuật.
Tôi yêu thích viết lách. Cảm ơn, HackerNoon!


