इस साक्षात्कार में, हम थीटा के संस्थापक इंजीनियर अशटन से रीइनफोर्समेंट लर्निंग इंफ्रास्ट्रक्चर के अत्याधुनिक विकास पर चर्चा करते हैं। वह विस्तार से बताते हैंइस साक्षात्कार में, हम थीटा के संस्थापक इंजीनियर अशटन से रीइनफोर्समेंट लर्निंग इंफ्रास्ट्रक्चर के अत्याधुनिक विकास पर चर्चा करते हैं। वह विस्तार से बताते हैं

लेखक से मिलें: ऐशटन च्यू, थीटा में संस्थापक इंजीनियर

2025/12/15 04:25
7 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें


आइए शुरू करें! हमें अपने बारे में कुछ बताएं। उदाहरण के लिए, नाम, पेशा और व्यक्तिगत रुचियां।

हे! मेरा नाम Ashton है, और मैं Theta में एक संस्थापक इंजीनियर हूं जहां मैं RL इन्फ्रा, RL, और वितरित सिस्टम पर काम करता हूं। मैं विशेष रूप से कंप्यूटर-उपयोग और टूल-उपयोग पर ध्यान केंद्रित करता हूं। अपने अतीत में, मैंने Amazon AGI में काम किया और अनुमान और टूल-उपयोग इन्फ्रास्ट्रक्चर पर काम किया। अपने खाली समय में, मुझे ग्राफिक डिजाइन, साइड-प्रोजेक्ट्स और बोल्डरिंग पसंद है।

दिलचस्प! आपकी नवीनतम Hackernoon टॉप स्टोरी किस बारे में थी?

मेरी नवीनतम कहानी, "क्या आपका AI वास्तव में कंप्यूटर का उपयोग कर सकता है? कंप्यूटर-उपयोग बेंचमार्क का 2025 का नक्शा," ने VC में अभी सबसे गर्म स्थानों में से एक को छुआ: RL वातावरण और मूल्यांकन। मैंने सबसे अधिक उपयोग किए जाने वाले कंप्यूटर-उपयोग बेंचमार्क का एक व्यापक अवलोकन दिया, साथ ही कंप्यूटर-उपयोग एजेंटों के प्रशिक्षण और परीक्षण के लिए बेंचमार्क चुनने के बारे में व्यावहारिक सलाह भी दी।

मैं लगातार एक ही अंतर में चल रहा था: ऐसे बहुत कम लेख हैं जो स्वयं बेंचमार्क की समीक्षा करते हैं। और जैसे-जैसे यह क्षेत्र बढ़ता है, यह महत्वपूर्ण है कि हम वास्तव में गुणवत्ता का आकलन कर रहे हैं, न कि जो भी मेट्रिक को गेम करने के लिए होता है उसे पुरस्कृत कर रहे हैं। हम पहले भी यहां रह चुके हैं। LLM के शुरुआती दिनों में, बेंचमार्क इतने यादृच्छिक और असमान थे कि वे केवल कमजोरी से वास्तविक विजेता को दर्शाते थे।

बेंचमार्क "सर्वश्रेष्ठ मॉडल" के लिए डी फैक्टो स्कोरबोर्ड बन गए, और फिर लोगों ने महसूस किया कि उनमें से बहुत से वह नहीं माप रहे थे जिसका वे दावा करते थे।

प्रारंभिक युग की सबसे प्रकट विफलताओं में से एक यह थी जब "पढ़ने की समझ" चुपचाप "डेटासेट संरचना पर पैटर्न मिलान" बन गई। शोधकर्ताओं ने जानबूझकर उत्तेजक बेसलाइन (केवल-प्रश्न, केवल-अंतिम-वाक्य) चलाए, और परिणाम एक असहज संभावना को उठाने के लिए पर्याप्त उच्च थे: बेंचमार्क ने मॉडल को पूरे अनुच्छेद का उपयोग करने के लिए लगातार मजबूर नहीं किया। 2018 की आलोचना में, बात यह नहीं थी कि पढ़ना कभी भी मायने नहीं रखता, बल्कि यह कि कुछ डेटासेट ने हाल ही में और रूढ़िवादी उत्तर पूर्वाग्रहों जैसे शॉर्टकट को अधिक पुरस्कृत करके इसे वैकल्पिक बना दिया।

\

# कथित कार्य: दिए गए अनुच्छेद और प्रश्न के आधार पर प्रश्न का उत्तर दें अनुच्छेद (सारांश): - वाक्य 1-8: स्कूल में जॉन का दिन (ज्यादातर अप्रासंगिक विवरण) - वाक्य 9: "स्कूल के बाद, जॉन रसोई में गया।" - वाक्य 10: "उसने अपना होमवर्क शुरू करने से पहले पिज्जा का एक टुकड़ा खाया।" प्रश्न: "जॉन ने क्या खाया?" उत्तर: "पिज्जा"

बेंचमार्क गलती से एक शॉर्टकट को पुरस्कृत करता है जहां मॉडल अंतिम वाक्य को अधिक महत्व देता है (क्योंकि उत्तर अक्सर अंत के पास होता है) और बस सबसे हाल की क्रिया ("खाया ___") की प्रत्यक्ष वस्तु को निकालता है, जो इस मामले में "पिज्जा" देता है।

और फिर आता है और भी अधिक नुकसानदायक बेसलाइन: पूरे अनुच्छेद को हटा दें और देखें क्या होता है। यदि केवल-प्रश्न मॉडल प्रतिस्पर्धी है, तो यह एक संकेत है कि डेटासेट अनुच्छेद-आधारित समझ का परीक्षण करने के बजाय पुनरावृत्ति और पूर्वाग्रहों के माध्यम से संकेत लीक कर रहा है।

प्रश्न: "जॉन ने क्या खाया?"

यह बेसलाइन मूल रूप से एक सेनिटी चेक है: क्या मॉडल अभी भी अनुच्छेद पर बिल्कुल भी आधारित हुए बिना उच्च-आवृत्ति वाले उत्तर टेम्पलेट पर निर्भर करके अच्छा स्कोर कर सकता है? व्यवहार में यह बस एक टोकन का अनुमान लगाता है जिसे डेटासेट अनुपातहीन रूप से पुरस्कृत करता है ("पिज्जा," "सैंडविच"), और यदि यह जितना होना चाहिए उससे अधिक बार काम करता है, तो आप समझ को नहीं माप रहे हैं बल्कि आप डेटासेट के पूर्वाग्रहों को माप रहे हैं।

कंप्यूटर-उपयोग मूल्यांकन ने पहले ही एक और भी अधिक शाब्दिक शॉर्टकट पैदा कर दिया है: एजेंट के पास एक ब्राउज़र है, बेंचमार्क सार्वजनिक है, और मूल्यांकन अंतिम पृष्ठ पर उत्तर कुंजी के साथ एक खुली-किताब परीक्षा में बदल जाता है। होलिस्टिक एजेंट लीडरबोर्ड (HAL) पेपर में, लेखक ऐसे एजेंटों को देखने की रिपोर्ट करते हैं जो कार्य को हल करने के बजाय HuggingFace पर बेंचमार्क की खोज करते थे, एक व्यवहार जिसे आप केवल तभी पकड़ते हैं जब आप लॉग का निरीक्षण करते हैं।

\

# कथित कार्य: वेब वातावरण के भीतर एक वर्कफ़्लो पूरा करें कार्य: "ऐप में सेटिंग X कॉन्फ़िगर करें और सत्यापित करें कि यह सक्षम है।" विफलता मोड: 1) एक नया टैब खोलें 2) खोजें: "बेंचमार्क X अपेक्षित सक्षम स्थिति" / "HAL <बेंचमार्क> सेटिंग X" 3) खोजें: रेपो / लीडरबोर्ड राइटअप / डेटासेट कार्ड / इश्यू थ्रेड 4) अपेक्षित अंतिम स्थिति (उत्तर) को पुन: प्रस्तुत करें

उस बिंदु पर, मूल्यांकन यह माप रहा था कि क्या यह उत्तर कुंजी का पता लगा सकता है।

कार्य: "सही पृष्ठ खोजें और Y निकालें।" विफलता मोड: - खोज: "<बेंचमार्क नाम> Y" - एक सार्वजनिक आर्टिफैक्ट (दस्तावेज़, फोरम पोस्ट, डेटासेट कार्ड) से कॉपी करें - मान को एजेंट आउटपुट में पेस्ट करें जैसे कि यह इंटरैक्शन से आया हो

यदि एक एजेंट डेटासेट कार्ड या रेपो से मान खींच सकता है और फिर भी "पास" कर सकता है, तो सफलता जांच संभावना का ग्रेडिंग कर रही है, न कि इंटरैक्शन सटीकता। सार्वजनिक कार्य प्लस उथली सत्यापन वेब खोज को एक शोषण में बदल देते हैं।

ये दो उदाहरण चेतावनी शॉट हैं: यदि हम कंप्यूटर-उपयोग बेंचमार्क को जल्दी उच्च मानकों पर नहीं रखते हैं, तो हम LLM युग को बस बेहतर UI और धोखा देने के अधिक विस्तृत तरीकों के साथ दोहराएंगे।

क्या आप आमतौर पर इसी तरह के विषयों पर लिखते हैं? यदि नहीं, तो आप आमतौर पर किस बारे में लिखते हैं?

हां! कंप्यूटर-उपयोग के आसपास RL वातावरण और RL इन्फ्रा पर काम करते हुए, मैं लगातार सर्वश्रेष्ठ कंप्यूटर-उपयोग मॉडल और सबसे यथार्थवादी प्रशिक्षण वातावरणों से घिरा रहता हूं। इसलिए मैंने एक और लेख लिखा, "द स्क्रीन इज़ द API," जो कंप्यूटर-उपयोग के लिए मामला है और यह AI मॉडल का भविष्य क्यों है।

यह स्थान दो कारणों से अत्यधिक कम रिपोर्ट किया गया है:

  1. मॉडल कंप्यूटर-उपयोग में उतने सक्षम नहीं हैं जितने वे अन्य कार्यों (कोडिंग, गणित, आदि) में हैं।
  2. कंप्यूटर-उपयोग तेजी से बदल रहा है और अत्यंत नया है।

मैं इसे बदलना चाहता हूं।

बढ़िया! आपकी सामान्य लेखन दिनचर्या कैसी है (यदि आपके पास कोई है)

मैं आमतौर पर बहुत सारे शोध पत्र पढ़ता हूं और किसी विषय पर उनके विचारों के बारे में उद्योग में अपने साथियों से बात करता हूं। इसके अलावा, मैं PG जैसे महान ब्लॉगर्स द्वारा लेख पढ़ने में बहुत समय बिताता हूं। इसलिए मैं आमतौर पर अपने लेखन में अन्य लोगों से बहुत प्रेरणा लेता हूं।

तकनीकी क्षेत्र में एक लेखक होना एक चुनौती हो सकती है। यह अक्सर हमारी मुख्य भूमिका नहीं होती है, बल्कि किसी अन्य के अतिरिक्त होती है। लेखन के मामले में आपके सामने सबसे बड़ी चुनौती क्या है?

बैठने और अपने जीवित अनुभव को शब्दों में डालने के लिए समय निकालना।

आप अपने करियर में अगली कौन सी चीज हासिल करना चाहते हैं?

महान लोगों के साथ कठिन समस्याओं से निपटना, उन लोगों से सीखना और अपने अनुभव साझा करना।

वाह, यह प्रशंसनीय है। अब, कुछ अधिक आकस्मिक: आपका पसंदीदा गिल्टी प्लेज़र क्या है?

फिल्में देखना! मेरी अभी की पसंदीदा फिल्म कैच मी इफ यू कैन (2002) है।

क्या आपका कोई गैर-तकनीकी संबंधित शौक है? यदि हां, तो वह क्या है?

मुझे बोल्डरिंग पसंद है क्योंकि इससे मुझे ऐसा लगता है जैसे मैं क्लाइम्बिंग वॉल के साथ इंटरैक्ट करने वाला एक मानव कंप्यूटर-उपयोग एजेंट हूं। मैं मजाक कर रहा हूं। मुझे लगता है कि बोल्डरिंग बहुत मजेदार है क्योंकि यह मुझे काम से अपना ध्यान हटाने और अपनी सोच को समेकित करने की अनुमति देती है।

Hacker Noon समुदाय आपसे अगली बार क्या पढ़ने की उम्मीद कर सकता है?

मैं वर्तमान में RL वातावरण इन्फ्रास्ट्रक्चर पर एक और लेख लिख रहा हूं!

लेखकों के लिए एक प्लेटफॉर्म के रूप में HackerNoon के बारे में आपकी क्या राय है?

मुझे लगता है कि समीक्षा संरचना अद्भुत है, और यह तकनीकी पाठकों के सामने अपने विचार रखने के लिए एक बढ़िया जगह थी।

हमारी "मीट द राइटर" श्रृंखला में शामिल होने के लिए समय निकालने के लिए धन्यवाद। यह एक खुशी की बात थी। क्या आपके पास कोई समापन शब्द हैं?

मुझे लिखना पसंद है। धन्यवाद, HackerNoon!

मार्केट अवसर
Edge लोगो
Edge मूल्य(EDGE1)
$0.10882
$0.10882$0.10882
-0.70%
USD
Edge (EDGE1) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

संयुक्त राज्य अमेरिका में 5 सर्वश्रेष्ठ क्रिप्टो स्वैप प्लेटफ़ॉर्म

संयुक्त राज्य अमेरिका में 5 सर्वश्रेष्ठ क्रिप्टो स्वैप प्लेटफ़ॉर्म

आजकल क्रिप्टो स्पेस में इंस्टेंट स्वैप काफी लोकप्रिय हो गए हैं। यहां चुनने के लिए कई कस्टडी-फ्री, सेंट्रलाइज्ड, और DEX क्रिप्टो शॉप्स हैं, जहां
शेयर करें
CoinCodeCap2026/04/21 01:37
पाई नेटवर्क डिजिटल पहचान संकट से निपट रहा है क्योंकि AI ऑनलाइन विश्वास को खतरे में डाल रहा है

पाई नेटवर्क डिजिटल पहचान संकट से निपट रहा है क्योंकि AI ऑनलाइन विश्वास को खतरे में डाल रहा है

पाई नेटवर्क AI युग में मानव पहचान साबित करने की अत्यावश्यक चुनौती का सामना कर रहा है जैसे-जैसे आर्टिफिशियल इंटेलिजेंस जारी है
शेयर करें
Hokanews2026/04/21 12:21
OVHcloud, Alchemy ने Web3 इंफ्रास्ट्रक्चर को बढ़ावा देने के लिए साझेदारी की

OVHcloud, Alchemy ने Web3 इंफ्रास्ट्रक्चर को बढ़ावा देने के लिए साझेदारी की

OVHcloud और Alchemy ने दुनिया भर में Web3 डेवलपर्स के लिए इंफ्रास्ट्रक्चर को मजबूत करने के उद्देश्य से एक रणनीतिक साझेदारी की है। इस सहयोग से अपेक्षा की जाती है
शेयर करें
CoinTrust2026/04/21 12:30

24/7 लाइव न्यूज़

अधिक

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!