Trong cuộc phỏng vấn này, chúng tôi trò chuyện với Ashton, một kỹ sư sáng lập tại Theta, để thảo luận về công nghệ tiên tiến nhất của cơ sở hạ tầng Học tăng cường. Anh ấy phân tích chi tiếtTrong cuộc phỏng vấn này, chúng tôi trò chuyện với Ashton, một kỹ sư sáng lập tại Theta, để thảo luận về công nghệ tiên tiến nhất của cơ sở hạ tầng Học tăng cường. Anh ấy phân tích chi tiết

Gặp gỡ Tác giả: Ashton Chew, Kỹ sư Sáng lập tại Theta



Hãy bắt đầu! Hãy cho chúng tôi biết một chút về bạn. Ví dụ, tên, nghề nghiệp và sở thích cá nhân.

Chào! Tên tôi là Ashton, và tôi là kỹ sư sáng lập tại Theta, nơi tôi làm việc về cơ sở hạ tầng RL, RL và Công nghệ sổ cái phân tán. Tôi tập trung đặc biệt vào việc sử dụng máy tính và sử dụng công cụ. Trong quá khứ, tôi đã làm việc tại Amazon AGI và giải quyết cơ sở hạ tầng suy luận và sử dụng công cụ. Trong thời gian rảnh, tôi yêu thích thiết kế đồ họa, các dự án phụ và leo núi bouldering.

Thú vị! Bài viết nổi bật gần đây nhất của bạn trên Hackernoon là về gì?

Bài viết mới nhất của tôi, "AI Của Bạn Có Thực Sự Sử Dụng Được Máy Tính Không? Bản Đồ Các Tiêu Chuẩn Sử Dụng Máy Tính Năm 2025," đề cập đến một trong những lĩnh vực nóng nhất trong VC hiện nay: môi trường RL và đánh giá. Tôi đã đưa ra tổng quan toàn diện về các tiêu chuẩn sử dụng máy tính được sử dụng nhiều nhất, cùng với lời khuyên thực tế về cách chọn tiêu chuẩn để đào tạo và kiểm tra các agent sử dụng máy tính.

Tôi liên tục gặp phải cùng một khoảng trống: không có nhiều bài viết đánh giá bản thân các tiêu chuẩn. Và khi lĩnh vực này phát triển, điều quan trọng là chúng ta thực sự đánh giá chất lượng thay vì thưởng cho bất cứ điều gì xảy ra để đánh lừa số liệu. Chúng ta đã từng ở đây trước đây. Trong những ngày đầu của LLM, các tiêu chuẩn đủ ngẫu nhiên và khác biệt đến mức chúng chỉ phản ánh một cách yếu ớt người chiến thắng thực sự.

Các tiêu chuẩn trở thành bảng điểm thực tế cho "mô hình tốt nhất," và sau đó mọi người nhận ra rằng nhiều tiêu chuẩn không đo lường những gì họ tuyên bố.

Một trong những thất bại thời kỳ đầu tiết lộ nhất là khi "đọc hiểu" âm thầm trở thành "khớp mẫu trên cấu trúc dữ liệu." Các nhà nghiên cứu đã chạy các đường cơ sở cố tình khiêu khích (chỉ câu hỏi, chỉ câu cuối cùng), và kết quả đủ cao để đặt ra một khả năng không thoải mái: tiêu chuẩn không buộc các mô hình sử dụng toàn bộ đoạn văn một cách nhất quán. Trong một bài phê bình năm 2018, điểm không phải là việc đọc không bao giờ quan trọng, mà là một số bộ dữ liệu vô tình làm cho nó trở thành tùy chọn bằng cách thưởng quá mức cho các lối tắt như tính gần đây và các câu trả lời khuôn mẫu.

\

# Nhiệm vụ được cho: trả lời câu hỏi dựa trên đoạn văn và câu hỏi Đoạn văn (tóm tắt): - Câu 1–8: Ngày của John ở trường (phần lớn là chi tiết không liên quan) - Câu 9: "Sau giờ học, John đi vào bếp." - Câu 10: "Cậu ấy ăn một miếng pizza trước khi bắt đầu làm bài tập về nhà." Câu hỏi: "John đã ăn gì?" Câu trả lời: "pizza"

Tiêu chuẩn vô tình thưởng cho một lối tắt nơi mô hình đặt trọng số quá mức cho câu cuối cùng (vì câu trả lời thường ở gần cuối) và chỉ đơn giản là trích xuất đối tượng trực tiếp của hành động gần đây nhất ("ăn ___"), trong trường hợp này là "pizza."

Và sau đó là đường cơ sở gây thiệt hại nhiều hơn: loại bỏ hoàn toàn đoạn văn và xem điều gì xảy ra. Nếu một mô hình chỉ có câu hỏi có tính cạnh tranh, đó là dấu hiệu cho thấy bộ dữ liệu đang rò rỉ tín hiệu thông qua lặp lại và tiền đề hơn là kiểm tra khả năng hiểu đoạn văn.

Câu hỏi: "John đã ăn gì?"

Đường cơ sở này về cơ bản là một kiểm tra tính hợp lý: liệu mô hình có thể vẫn đạt điểm tốt bằng cách dựa vào các mẫu câu trả lời tần suất cao mà không cần dựa vào đoạn văn không? Trong thực tế, nó chỉ đoán một token mà bộ dữ liệu thưởng không tương xứng ("pizza," "sandwich"), và nếu điều đó hoạt động thường xuyên hơn mức nó nên có, bạn không đo lường khả năng hiểu nhiều như bạn đang đo lường các tiền đề của bộ dữ liệu.

Các đánh giá sử dụng máy tính đã tạo ra một lối tắt thậm chí còn theo nghĩa đen hơn: agent có một trình duyệt, tiêu chuẩn là công khai, và việc đánh giá biến thành một bài kiểm tra sách mở với đáp án ở trang cuối. Trong bài báo Holistic Agent Leaderboard (HAL), các tác giả báo cáo quan sát thấy các agent tìm kiếm tiêu chuẩn trên HuggingFace thay vì giải quyết nhiệm vụ, một hành vi mà bạn chỉ phát hiện nếu kiểm tra nhật ký.

\

# Nhiệm vụ được cho: hoàn thành một quy trình làm việc trong môi trường web Nhiệm vụ: "Cấu hình cài đặt X trong ứng dụng và xác minh rằng nó được bật." Chế độ thất bại: 1) Mở một tab mới 2) Tìm kiếm: "trạng thái được bật dự kiến của tiêu chuẩn X" / "HAL <tiêu chuẩn> cài đặt X" 3) Tìm: repo / bài viết bảng xếp hạng / thẻ bộ dữ liệu / chủ đề vấn đề 4) Tái tạo trạng thái cuối dự kiến (câu trả lời)

Tại thời điểm đó, việc đánh giá đang đo lường liệu nó có thể định vị đáp án hay không.

Nhiệm vụ: "Tìm trang chính xác và trích xuất Y." Chế độ thất bại: - Tìm kiếm: "<tên tiêu chuẩn> Y" - Sao chép từ một tài liệu công khai (tài liệu, bài đăng diễn đàn, thẻ bộ dữ liệu) - Dán giá trị vào đầu ra của agent như thể nó đến từ tương tác

Nếu một agent có thể lấy giá trị từ thẻ bộ dữ liệu hoặc repo và vẫn "vượt qua," việc kiểm tra thành công đang chấm điểm tính hợp lý, không phải tính chính xác của tương tác. Các nhiệm vụ công khai cộng với xác minh nông biến tìm kiếm web thành một lỗ hổng.

Hai ví dụ này là phát súng cảnh báo: nếu chúng ta không giữ các tiêu chuẩn sử dụng máy tính ở tiêu chuẩn cao hơn sớm, chúng ta sẽ lặp lại kỷ nguyên LLM chỉ với giao diện người dùng tốt hơn và các cách gian lận tinh vi hơn.

Bạn có thường viết về các chủ đề tương tự không? Nếu không, bạn thường viết về điều gì?

Đúng vậy! Làm việc trên môi trường RL và cơ sở hạ tầng RL xung quanh việc sử dụng máy tính, tôi liên tục được bao quanh bởi các mô hình sử dụng máy tính tốt nhất và các môi trường đào tạo thực tế nhất. Vì vậy, tôi đã viết một bài báo khác, "Màn hình là API," đây là trường hợp cho việc sử dụng máy tính và lý do tại sao nó là tương lai của các mô hình AI.

Không gian này cực kỳ ít được báo cáo do hai lý do:

  1. Các mô hình không có khả năng trong việc sử dụng máy tính như chúng trong các nhiệm vụ khác (lập trình, toán học, v.v.).
  2. Việc sử dụng máy tính đang phát triển nhanh chóng và cực kỳ mới.

Tôi muốn thay đổi điều đó.

Tuyệt! Thói quen viết lách thông thường của bạn như thế nào (nếu bạn có)

Tôi thường đọc một loạt các bài báo nghiên cứu và nói chuyện với đồng nghiệp trong ngành về suy nghĩ của họ về một chủ đề. Ngoài ra, tôi dành nhiều thời gian đọc các bài viết của các blogger tuyệt vời như PG. Vì vậy, tôi thường lấy nhiều cảm hứng từ những người khác trong bài viết của mình.

Là một nhà văn trong lĩnh vực công nghệ có thể là một thách thức. Nó thường không phải là vai trò chính của chúng ta, mà là một phần bổ sung cho một vai trò khác. Thách thức lớn nhất bạn gặp phải khi viết lách là gì?

Tìm thời gian để ngồi xuống và đưa trải nghiệm sống của tôi thành lời.

Điều tiếp theo bạn hy vọng đạt được trong sự nghiệp của mình là gì?

Để giải quyết các vấn đề khó khăn hơn với những người tuyệt vời, để học hỏi từ những người đó, và chia sẻ kinh nghiệm của tôi.

Wow, thật đáng ngưỡng mộ. Bây giờ, điều gì đó thân mật hơn: Niềm vui tội lỗi yêu thích của bạn là gì?

Xem phim! Bộ phim yêu thích của tôi hiện tại là Catch Me If You Can (2002).

Bạn có sở thích không liên quan đến công nghệ không? Nếu có, đó là gì?

Tôi yêu thích leo núi bouldering vì nó làm tôi cảm thấy như tôi là một agent sử dụng máy tính con người tương tác với bức tường leo núi. Tôi đùa đấy. Tôi nghĩ leo núi bouldering rất vui vì nó cho phép tôi tạm quên công việc và củng cố suy nghĩ của mình.

Cộng đồng Hacker Noon có thể mong đợi đọc gì từ bạn tiếp theo?

Tôi hiện đang viết một bài khác về cơ sở hạ tầng môi trường RL!

Ý kiến của bạn về HackerNoon như một nền tảng cho các nhà văn là gì?

Tôi nghĩ cấu trúc đánh giá rất tuyệt vời, và đó là một nơi tuyệt vời để tôi đặt suy nghĩ của mình trước các độc giả kỹ thuật.

Cảm ơn bạn đã dành thời gian tham gia loạt bài "Gặp gỡ nhà văn" của chúng tôi. Thật là một niềm vui. Bạn có lời kết nào không?

Tôi yêu thích viết lách. Cảm ơn, HackerNoon!

Cơ hội thị trường
Logo CATCH
Giá CATCH(CATCH)
$0.001221
$0.001221$0.001221
0.00%
USD
Biểu đồ giá CATCH (CATCH) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ service@support.mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.