क्रिप्टो खरीदें मार्केट स्पॉट फ़्यूचर्सGOLD कमाएँ इवेंट सेंटर

अधिक

इस साक्षात्कार में, हम थीटा के संस्थापक इंजीनियर अशटन से रीइनफोर्समेंट लर्निंग इंफ्रास्ट्रक्चर के अत्याधुनिक विकास पर चर्चा करते हैं। वह विस्तार से बताते हैंइस साक्षात्कार में, हम थीटा के संस्थापक इंजीनियर अशटन से रीइनफोर्समेंट लर्निंग इंफ्रास्ट्रक्चर के अत्याधुनिक विकास पर चर्चा करते हैं। वह विस्तार से बताते हैं

लेखक से मिलें: ऐशटन च्यू, थीटा में संस्थापक इंजीनियर

लेखक: Hackernoon

सोर्स: Hackernoon

2025/12/15 04:25

7 मिनट पढ़ें

शेयर करें

EDGE$0.15044-10.54%

TOP$0.0000811--%

DEEP$0.028936+3.29%

इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

आइए शुरू करें! हमें अपने बारे में कुछ बताएं। उदाहरण के लिए, नाम, पेशा और व्यक्तिगत रुचियां।

हे! मेरा नाम Ashton है, और मैं Theta में एक संस्थापक इंजीनियर हूं जहां मैं RL इन्फ्रा, RL, और वितरित सिस्टम पर काम करता हूं। मैं विशेष रूप से कंप्यूटर-उपयोग और टूल-उपयोग पर ध्यान केंद्रित करता हूं। अपने अतीत में, मैंने Amazon AGI में काम किया और अनुमान और टूल-उपयोग इन्फ्रास्ट्रक्चर पर काम किया। अपने खाली समय में, मुझे ग्राफिक डिजाइन, साइड-प्रोजेक्ट्स और बोल्डरिंग पसंद है।

दिलचस्प! आपकी नवीनतम Hackernoon टॉप स्टोरी किस बारे में थी?

मेरी नवीनतम कहानी, "क्या आपका AI वास्तव में कंप्यूटर का उपयोग कर सकता है? कंप्यूटर-उपयोग बेंचमार्क का 2025 का नक्शा," ने VC में अभी सबसे गर्म स्थानों में से एक को छुआ: RL वातावरण और मूल्यांकन। मैंने सबसे अधिक उपयोग किए जाने वाले कंप्यूटर-उपयोग बेंचमार्क का एक व्यापक अवलोकन दिया, साथ ही कंप्यूटर-उपयोग एजेंटों के प्रशिक्षण और परीक्षण के लिए बेंचमार्क चुनने के बारे में व्यावहारिक सलाह भी दी।

मैं लगातार एक ही अंतर में चल रहा था: ऐसे बहुत कम लेख हैं जो स्वयं बेंचमार्क की समीक्षा करते हैं। और जैसे-जैसे यह क्षेत्र बढ़ता है, यह महत्वपूर्ण है कि हम वास्तव में गुणवत्ता का आकलन कर रहे हैं, न कि जो भी मेट्रिक को गेम करने के लिए होता है उसे पुरस्कृत कर रहे हैं। हम पहले भी यहां रह चुके हैं। LLM के शुरुआती दिनों में, बेंचमार्क इतने यादृच्छिक और असमान थे कि वे केवल कमजोरी से वास्तविक विजेता को दर्शाते थे।

बेंचमार्क "सर्वश्रेष्ठ मॉडल" के लिए डी फैक्टो स्कोरबोर्ड बन गए, और फिर लोगों ने महसूस किया कि उनमें से बहुत से वह नहीं माप रहे थे जिसका वे दावा करते थे।

प्रारंभिक युग की सबसे प्रकट विफलताओं में से एक यह थी जब "पढ़ने की समझ" चुपचाप "डेटासेट संरचना पर पैटर्न मिलान" बन गई। शोधकर्ताओं ने जानबूझकर उत्तेजक बेसलाइन (केवल-प्रश्न, केवल-अंतिम-वाक्य) चलाए, और परिणाम एक असहज संभावना को उठाने के लिए पर्याप्त उच्च थे: बेंचमार्क ने मॉडल को पूरे अनुच्छेद का उपयोग करने के लिए लगातार मजबूर नहीं किया। 2018 की आलोचना में, बात यह नहीं थी कि पढ़ना कभी भी मायने नहीं रखता, बल्कि यह कि कुछ डेटासेट ने हाल ही में और रूढ़िवादी उत्तर पूर्वाग्रहों जैसे शॉर्टकट को अधिक पुरस्कृत करके इसे वैकल्पिक बना दिया।

# कथित कार्य: दिए गए अनुच्छेद और प्रश्न के आधार पर प्रश्न का उत्तर दें अनुच्छेद (सारांश): - वाक्य 1-8: स्कूल में जॉन का दिन (ज्यादातर अप्रासंगिक विवरण) - वाक्य 9: "स्कूल के बाद, जॉन रसोई में गया।" - वाक्य 10: "उसने अपना होमवर्क शुरू करने से पहले पिज्जा का एक टुकड़ा खाया।" प्रश्न: "जॉन ने क्या खाया?" उत्तर: "पिज्जा"

बेंचमार्क गलती से एक शॉर्टकट को पुरस्कृत करता है जहां मॉडल अंतिम वाक्य को अधिक महत्व देता है (क्योंकि उत्तर अक्सर अंत के पास होता है) और बस सबसे हाल की क्रिया ("खाया ___") की प्रत्यक्ष वस्तु को निकालता है, जो इस मामले में "पिज्जा" देता है।

और फिर आता है और भी अधिक नुकसानदायक बेसलाइन: पूरे अनुच्छेद को हटा दें और देखें क्या होता है। यदि केवल-प्रश्न मॉडल प्रतिस्पर्धी है, तो यह एक संकेत है कि डेटासेट अनुच्छेद-आधारित समझ का परीक्षण करने के बजाय पुनरावृत्ति और पूर्वाग्रहों के माध्यम से संकेत लीक कर रहा है।

प्रश्न: "जॉन ने क्या खाया?"

यह बेसलाइन मूल रूप से एक सेनिटी चेक है: क्या मॉडल अभी भी अनुच्छेद पर बिल्कुल भी आधारित हुए बिना उच्च-आवृत्ति वाले उत्तर टेम्पलेट पर निर्भर करके अच्छा स्कोर कर सकता है? व्यवहार में यह बस एक टोकन का अनुमान लगाता है जिसे डेटासेट अनुपातहीन रूप से पुरस्कृत करता है ("पिज्जा," "सैंडविच"), और यदि यह जितना होना चाहिए उससे अधिक बार काम करता है, तो आप समझ को नहीं माप रहे हैं बल्कि आप डेटासेट के पूर्वाग्रहों को माप रहे हैं।

कंप्यूटर-उपयोग मूल्यांकन ने पहले ही एक और भी अधिक शाब्दिक शॉर्टकट पैदा कर दिया है: एजेंट के पास एक ब्राउज़र है, बेंचमार्क सार्वजनिक है, और मूल्यांकन अंतिम पृष्ठ पर उत्तर कुंजी के साथ एक खुली-किताब परीक्षा में बदल जाता है। होलिस्टिक एजेंट लीडरबोर्ड (HAL) पेपर में, लेखक ऐसे एजेंटों को देखने की रिपोर्ट करते हैं जो कार्य को हल करने के बजाय HuggingFace पर बेंचमार्क की खोज करते थे, एक व्यवहार जिसे आप केवल तभी पकड़ते हैं जब आप लॉग का निरीक्षण करते हैं।

# कथित कार्य: वेब वातावरण के भीतर एक वर्कफ़्लो पूरा करें कार्य: "ऐप में सेटिंग X कॉन्फ़िगर करें और सत्यापित करें कि यह सक्षम है।" विफलता मोड: 1) एक नया टैब खोलें 2) खोजें: "बेंचमार्क X अपेक्षित सक्षम स्थिति" / "HAL <बेंचमार्क> सेटिंग X" 3) खोजें: रेपो / लीडरबोर्ड राइटअप / डेटासेट कार्ड / इश्यू थ्रेड 4) अपेक्षित अंतिम स्थिति (उत्तर) को पुन: प्रस्तुत करें

उस बिंदु पर, मूल्यांकन यह माप रहा था कि क्या यह उत्तर कुंजी का पता लगा सकता है।

कार्य: "सही पृष्ठ खोजें और Y निकालें।" विफलता मोड: - खोज: "<बेंचमार्क नाम> Y" - एक सार्वजनिक आर्टिफैक्ट (दस्तावेज़, फोरम पोस्ट, डेटासेट कार्ड) से कॉपी करें - मान को एजेंट आउटपुट में पेस्ट करें जैसे कि यह इंटरैक्शन से आया हो

यदि एक एजेंट डेटासेट कार्ड या रेपो से मान खींच सकता है और फिर भी "पास" कर सकता है, तो सफलता जांच संभावना का ग्रेडिंग कर रही है, न कि इंटरैक्शन सटीकता। सार्वजनिक कार्य प्लस उथली सत्यापन वेब खोज को एक शोषण में बदल देते हैं।

ये दो उदाहरण चेतावनी शॉट हैं: यदि हम कंप्यूटर-उपयोग बेंचमार्क को जल्दी उच्च मानकों पर नहीं रखते हैं, तो हम LLM युग को बस बेहतर UI और धोखा देने के अधिक विस्तृत तरीकों के साथ दोहराएंगे।

क्या आप आमतौर पर इसी तरह के विषयों पर लिखते हैं? यदि नहीं, तो आप आमतौर पर किस बारे में लिखते हैं?

हां! कंप्यूटर-उपयोग के आसपास RL वातावरण और RL इन्फ्रा पर काम करते हुए, मैं लगातार सर्वश्रेष्ठ कंप्यूटर-उपयोग मॉडल और सबसे यथार्थवादी प्रशिक्षण वातावरणों से घिरा रहता हूं। इसलिए मैंने एक और लेख लिखा, "द स्क्रीन इज़ द API," जो कंप्यूटर-उपयोग के लिए मामला है और यह AI मॉडल का भविष्य क्यों है।

यह स्थान दो कारणों से अत्यधिक कम रिपोर्ट किया गया है:

मॉडल कंप्यूटर-उपयोग में उतने सक्षम नहीं हैं जितने वे अन्य कार्यों (कोडिंग, गणित, आदि) में हैं।
कंप्यूटर-उपयोग तेजी से बदल रहा है और अत्यंत नया है।

मैं इसे बदलना चाहता हूं।

बढ़िया! आपकी सामान्य लेखन दिनचर्या कैसी है (यदि आपके पास कोई है)

मैं आमतौर पर बहुत सारे शोध पत्र पढ़ता हूं और किसी विषय पर उनके विचारों के बारे में उद्योग में अपने साथियों से बात करता हूं। इसके अलावा, मैं PG जैसे महान ब्लॉगर्स द्वारा लेख पढ़ने में बहुत समय बिताता हूं। इसलिए मैं आमतौर पर अपने लेखन में अन्य लोगों से बहुत प्रेरणा लेता हूं।

तकनीकी क्षेत्र में एक लेखक होना एक चुनौती हो सकती है। यह अक्सर हमारी मुख्य भूमिका नहीं होती है, बल्कि किसी अन्य के अतिरिक्त होती है। लेखन के मामले में आपके सामने सबसे बड़ी चुनौती क्या है?

बैठने और अपने जीवित अनुभव को शब्दों में डालने के लिए समय निकालना।

आप अपने करियर में अगली कौन सी चीज हासिल करना चाहते हैं?

महान लोगों के साथ कठिन समस्याओं से निपटना, उन लोगों से सीखना और अपने अनुभव साझा करना।

वाह, यह प्रशंसनीय है। अब, कुछ अधिक आकस्मिक: आपका पसंदीदा गिल्टी प्लेज़र क्या है?

फिल्में देखना! मेरी अभी की पसंदीदा फिल्म कैच मी इफ यू कैन (2002) है।

क्या आपका कोई गैर-तकनीकी संबंधित शौक है? यदि हां, तो वह क्या है?

मुझे बोल्डरिंग पसंद है क्योंकि इससे मुझे ऐसा लगता है जैसे मैं क्लाइम्बिंग वॉल के साथ इंटरैक्ट करने वाला एक मानव कंप्यूटर-उपयोग एजेंट हूं। मैं मजाक कर रहा हूं। मुझे लगता है कि बोल्डरिंग बहुत मजेदार है क्योंकि यह मुझे काम से अपना ध्यान हटाने और अपनी सोच को समेकित करने की अनुमति देती है।

Hacker Noon समुदाय आपसे अगली बार क्या पढ़ने की उम्मीद कर सकता है?

मैं वर्तमान में RL वातावरण इन्फ्रास्ट्रक्चर पर एक और लेख लिख रहा हूं!

लेखकों के लिए एक प्लेटफॉर्म के रूप में HackerNoon के बारे में आपकी क्या राय है?

मुझे लगता है कि समीक्षा संरचना अद्भुत है, और यह तकनीकी पाठकों के सामने अपने विचार रखने के लिए एक बढ़िया जगह थी।

हमारी "मीट द राइटर" श्रृंखला में शामिल होने के लिए समय निकालने के लिए धन्यवाद। यह एक खुशी की बात थी। क्या आपके पास कोई समापन शब्द हैं?

मुझे लिखना पसंद है। धन्यवाद, HackerNoon!

मार्केट अवसर

Edge मूल्य(EDGE)

$0.15044

$0.15044$0.15044

+0.17%

USD

Edge (EDGE) मूल्य का लाइव चार्ट

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.