हे! मेरा नाम Ashton है, और मैं Theta में एक संस्थापक इंजीनियर हूं जहां मैं RL इन्फ्रा, RL, और वितरित सिस्टम पर काम करता हूं। मैं विशेष रूप से कंप्यूटर-उपयोग और टूल-उपयोग पर ध्यान केंद्रित करता हूं। अपने अतीत में, मैंने Amazon AGI में काम किया और अनुमान और टूल-उपयोग इन्फ्रास्ट्रक्चर पर काम किया। अपने खाली समय में, मुझे ग्राफिक डिजाइन, साइड-प्रोजेक्ट्स और बोल्डरिंग पसंद है।
मेरी नवीनतम कहानी, "क्या आपका AI वास्तव में कंप्यूटर का उपयोग कर सकता है? कंप्यूटर-उपयोग बेंचमार्क का 2025 का नक्शा," ने VC में अभी सबसे गर्म स्थानों में से एक को छुआ: RL वातावरण और मूल्यांकन। मैंने सबसे अधिक उपयोग किए जाने वाले कंप्यूटर-उपयोग बेंचमार्क का एक व्यापक अवलोकन दिया, साथ ही कंप्यूटर-उपयोग एजेंटों के प्रशिक्षण और परीक्षण के लिए बेंचमार्क चुनने के बारे में व्यावहारिक सलाह भी दी।
मैं लगातार एक ही अंतर में चल रहा था: ऐसे बहुत कम लेख हैं जो स्वयं बेंचमार्क की समीक्षा करते हैं। और जैसे-जैसे यह क्षेत्र बढ़ता है, यह महत्वपूर्ण है कि हम वास्तव में गुणवत्ता का आकलन कर रहे हैं, न कि जो भी मेट्रिक को गेम करने के लिए होता है उसे पुरस्कृत कर रहे हैं। हम पहले भी यहां रह चुके हैं। LLM के शुरुआती दिनों में, बेंचमार्क इतने यादृच्छिक और असमान थे कि वे केवल कमजोरी से वास्तविक विजेता को दर्शाते थे।
बेंचमार्क "सर्वश्रेष्ठ मॉडल" के लिए डी फैक्टो स्कोरबोर्ड बन गए, और फिर लोगों ने महसूस किया कि उनमें से बहुत से वह नहीं माप रहे थे जिसका वे दावा करते थे।
प्रारंभिक युग की सबसे प्रकट विफलताओं में से एक यह थी जब "पढ़ने की समझ" चुपचाप "डेटासेट संरचना पर पैटर्न मिलान" बन गई। शोधकर्ताओं ने जानबूझकर उत्तेजक बेसलाइन (केवल-प्रश्न, केवल-अंतिम-वाक्य) चलाए, और परिणाम एक असहज संभावना को उठाने के लिए पर्याप्त उच्च थे: बेंचमार्क ने मॉडल को पूरे अनुच्छेद का उपयोग करने के लिए लगातार मजबूर नहीं किया। 2018 की आलोचना में, बात यह नहीं थी कि पढ़ना कभी भी मायने नहीं रखता, बल्कि यह कि कुछ डेटासेट ने हाल ही में और रूढ़िवादी उत्तर पूर्वाग्रहों जैसे शॉर्टकट को अधिक पुरस्कृत करके इसे वैकल्पिक बना दिया।
\
# कथित कार्य: दिए गए अनुच्छेद और प्रश्न के आधार पर प्रश्न का उत्तर दें अनुच्छेद (सारांश): - वाक्य 1-8: स्कूल में जॉन का दिन (ज्यादातर अप्रासंगिक विवरण) - वाक्य 9: "स्कूल के बाद, जॉन रसोई में गया।" - वाक्य 10: "उसने अपना होमवर्क शुरू करने से पहले पिज्जा का एक टुकड़ा खाया।" प्रश्न: "जॉन ने क्या खाया?" उत्तर: "पिज्जा"
बेंचमार्क गलती से एक शॉर्टकट को पुरस्कृत करता है जहां मॉडल अंतिम वाक्य को अधिक महत्व देता है (क्योंकि उत्तर अक्सर अंत के पास होता है) और बस सबसे हाल की क्रिया ("खाया ___") की प्रत्यक्ष वस्तु को निकालता है, जो इस मामले में "पिज्जा" देता है।
और फिर आता है और भी अधिक नुकसानदायक बेसलाइन: पूरे अनुच्छेद को हटा दें और देखें क्या होता है। यदि केवल-प्रश्न मॉडल प्रतिस्पर्धी है, तो यह एक संकेत है कि डेटासेट अनुच्छेद-आधारित समझ का परीक्षण करने के बजाय पुनरावृत्ति और पूर्वाग्रहों के माध्यम से संकेत लीक कर रहा है।
प्रश्न: "जॉन ने क्या खाया?"
यह बेसलाइन मूल रूप से एक सेनिटी चेक है: क्या मॉडल अभी भी अनुच्छेद पर बिल्कुल भी आधारित हुए बिना उच्च-आवृत्ति वाले उत्तर टेम्पलेट पर निर्भर करके अच्छा स्कोर कर सकता है? व्यवहार में यह बस एक टोकन का अनुमान लगाता है जिसे डेटासेट अनुपातहीन रूप से पुरस्कृत करता है ("पिज्जा," "सैंडविच"), और यदि यह जितना होना चाहिए उससे अधिक बार काम करता है, तो आप समझ को नहीं माप रहे हैं बल्कि आप डेटासेट के पूर्वाग्रहों को माप रहे हैं।
कंप्यूटर-उपयोग मूल्यांकन ने पहले ही एक और भी अधिक शाब्दिक शॉर्टकट पैदा कर दिया है: एजेंट के पास एक ब्राउज़र है, बेंचमार्क सार्वजनिक है, और मूल्यांकन अंतिम पृष्ठ पर उत्तर कुंजी के साथ एक खुली-किताब परीक्षा में बदल जाता है। होलिस्टिक एजेंट लीडरबोर्ड (HAL) पेपर में, लेखक ऐसे एजेंटों को देखने की रिपोर्ट करते हैं जो कार्य को हल करने के बजाय HuggingFace पर बेंचमार्क की खोज करते थे, एक व्यवहार जिसे आप केवल तभी पकड़ते हैं जब आप लॉग का निरीक्षण करते हैं।
\
# कथित कार्य: वेब वातावरण के भीतर एक वर्कफ़्लो पूरा करें कार्य: "ऐप में सेटिंग X कॉन्फ़िगर करें और सत्यापित करें कि यह सक्षम है।" विफलता मोड: 1) एक नया टैब खोलें 2) खोजें: "बेंचमार्क X अपेक्षित सक्षम स्थिति" / "HAL <बेंचमार्क> सेटिंग X" 3) खोजें: रेपो / लीडरबोर्ड राइटअप / डेटासेट कार्ड / इश्यू थ्रेड 4) अपेक्षित अंतिम स्थिति (उत्तर) को पुन: प्रस्तुत करें
उस बिंदु पर, मूल्यांकन यह माप रहा था कि क्या यह उत्तर कुंजी का पता लगा सकता है।
कार्य: "सही पृष्ठ खोजें और Y निकालें।" विफलता मोड: - खोज: "<बेंचमार्क नाम> Y" - एक सार्वजनिक आर्टिफैक्ट (दस्तावेज़, फोरम पोस्ट, डेटासेट कार्ड) से कॉपी करें - मान को एजेंट आउटपुट में पेस्ट करें जैसे कि यह इंटरैक्शन से आया हो
यदि एक एजेंट डेटासेट कार्ड या रेपो से मान खींच सकता है और फिर भी "पास" कर सकता है, तो सफलता जांच संभावना का ग्रेडिंग कर रही है, न कि इंटरैक्शन सटीकता। सार्वजनिक कार्य प्लस उथली सत्यापन वेब खोज को एक शोषण में बदल देते हैं।
ये दो उदाहरण चेतावनी शॉट हैं: यदि हम कंप्यूटर-उपयोग बेंचमार्क को जल्दी उच्च मानकों पर नहीं रखते हैं, तो हम LLM युग को बस बेहतर UI और धोखा देने के अधिक विस्तृत तरीकों के साथ दोहराएंगे।
हां! कंप्यूटर-उपयोग के आसपास RL वातावरण और RL इन्फ्रा पर काम करते हुए, मैं लगातार सर्वश्रेष्ठ कंप्यूटर-उपयोग मॉडल और सबसे यथार्थवादी प्रशिक्षण वातावरणों से घिरा रहता हूं। इसलिए मैंने एक और लेख लिखा, "द स्क्रीन इज़ द API," जो कंप्यूटर-उपयोग के लिए मामला है और यह AI मॉडल का भविष्य क्यों है।
यह स्थान दो कारणों से अत्यधिक कम रिपोर्ट किया गया है:
मैं इसे बदलना चाहता हूं।
मैं आमतौर पर बहुत सारे शोध पत्र पढ़ता हूं और किसी विषय पर उनके विचारों के बारे में उद्योग में अपने साथियों से बात करता हूं। इसके अलावा, मैं PG जैसे महान ब्लॉगर्स द्वारा लेख पढ़ने में बहुत समय बिताता हूं। इसलिए मैं आमतौर पर अपने लेखन में अन्य लोगों से बहुत प्रेरणा लेता हूं।
बैठने और अपने जीवित अनुभव को शब्दों में डालने के लिए समय निकालना।
महान लोगों के साथ कठिन समस्याओं से निपटना, उन लोगों से सीखना और अपने अनुभव साझा करना।
फिल्में देखना! मेरी अभी की पसंदीदा फिल्म कैच मी इफ यू कैन (2002) है।
मुझे बोल्डरिंग पसंद है क्योंकि इससे मुझे ऐसा लगता है जैसे मैं क्लाइम्बिंग वॉल के साथ इंटरैक्ट करने वाला एक मानव कंप्यूटर-उपयोग एजेंट हूं। मैं मजाक कर रहा हूं। मुझे लगता है कि बोल्डरिंग बहुत मजेदार है क्योंकि यह मुझे काम से अपना ध्यान हटाने और अपनी सोच को समेकित करने की अनुमति देती है।
मैं वर्तमान में RL वातावरण इन्फ्रास्ट्रक्चर पर एक और लेख लिख रहा हूं!
मुझे लगता है कि समीक्षा संरचना अद्भुत है, और यह तकनीकी पाठकों के सामने अपने विचार रखने के लिए एक बढ़िया जगह थी।
मुझे लिखना पसंद है। धन्यवाद, HackerNoon!


