در این مصاحبه، با اشتون، یک مهندس بنیانگذار در تتا، درباره لبه پیشرفته زیرساخت یادگیری تقویتی گفتگو می‌کنیم. او توضیح می‌دهددر این مصاحبه، با اشتون، یک مهندس بنیانگذار در تتا، درباره لبه پیشرفته زیرساخت یادگیری تقویتی گفتگو می‌کنیم. او توضیح می‌دهد

آشنایی با نویسنده: اشتون چیو، مهندس بنیانگذار در تتا

2025/12/15 04:25


بیایید شروع کنیم! کمی درباره خودتان به ما بگویید. برای مثال، نام، حرفه و علایق شخصی.

سلام! اسم من اشتون است و من یک مهندس بنیانگذار در تتا هستم که روی زیرساخت‌های RL، RL و سیستم‌های فناوری های دفتر کل توزیع شده کار می‌کنم. من به طور خاص روی استفاده از کامپیوتر و استفاده از ابزار تمرکز دارم. در گذشته، در آمازون AGI کار می‌کردم و با زیرساخت‌های استنتاج و استفاده از ابزار سروکار داشتم. در اوقات فراغتم، طراحی گرافیک، پروژه‌های جانبی و صخره‌نوردی را دوست دارم.

جالبه! آخرین داستان برتر شما در هکرنون درباره چه بود؟

آخرین داستان من، "آیا هوش مصنوعی شما واقعاً می‌تواند از کامپیوتر استفاده کند؟ نقشه معیارهای استفاده از کامپیوتر در سال 2025،" به یکی از داغ‌ترین حوزه‌ها در VC در حال حاضر پرداخت: محیط‌های RL و ارزیابی‌ها. من یک نمای کلی جامع از پرکاربردترین معیارهای استفاده از کامپیوتر ارائه دادم، به علاوه توصیه‌های عملی درباره چگونگی انتخاب معیارها برای آموزش و آزمایش عامل‌های استفاده از کامپیوتر.

من مدام با همان شکاف مواجه می‌شدم: مقالات زیادی وجود ندارند که خود معیارها را بررسی کنند. و همانطور که این حوزه رشد می‌کند، حیاتی است که ما واقعاً کیفیت را ارزیابی کنیم به جای پاداش دادن به هر چیزی که اتفاقی معیار را بازی می‌کند. ما قبلاً اینجا بوده‌ایم. در روزهای اولیه LLMها، معیارها به اندازه کافی تصادفی و متفاوت بودند که فقط به طور ضعیفی برنده واقعی را منعکس می‌کردند.

معیارها تبدیل به تابلوی امتیازات دوفاکتو برای "بهترین مدل" شدند، و سپس مردم متوجه شدند که بسیاری از آنها چیزی را که ادعا می‌کردند اندازه‌گیری نمی‌کنند.

یکی از آشکارترین شکست‌های دوران اولیه زمانی بود که "درک مطلب" به آرامی تبدیل به "تطبیق الگو در ساختار مجموعه داده" شد. محققان خط پایه‌های عمداً تحریک‌کننده (فقط-سؤال، فقط-آخرین-جمله) را اجرا کردند، و نتایج به اندازه کافی بالا بود که یک احتمال ناراحت‌کننده را مطرح کند: معیار به طور مداوم مدل‌ها را مجبور به استفاده از کل متن نمی‌کرد. در یک نقد سال 2018، نکته این نبود که خواندن هرگز مهم نیست، بلکه این بود که برخی مجموعه‌های داده به طور تصادفی با پاداش بیش از حد به میانبرهایی مانند تازگی و پیش‌فرض‌های پاسخ کلیشه‌ای، آن را اختیاری کرده بودند.

\

# وظیفه فرضی: پاسخ به سؤال با توجه به متن و سؤال متن (خلاصه): - جملات 1-8: روز جان در مدرسه (عمدتاً جزئیات نامربوط) - جمله 9: "بعد از مدرسه، جان به آشپزخانه رفت." - جمله 10: "او قبل از شروع تکالیفش یک برش پیتزا خورد." سؤال: "جان چه چیزی خورد؟" پاسخ: "پیتزا"

معیار به طور تصادفی به میانبری پاداش می‌دهد که در آن مدل به آخرین جمله وزن بیشتری می‌دهد (زیرا پاسخ اغلب نزدیک به انتها است) و به سادگی مفعول مستقیم آخرین عمل ("خورد ___") را استخراج می‌کند، که در این مورد "پیتزا" را نتیجه می‌دهد.

و سپس خط پایه حتی آسیب‌زننده‌تر می‌آید: کل متن را حذف کنید و ببینید چه اتفاقی می‌افتد. اگر یک مدل فقط-سؤال رقابتی باشد، این نشانه‌ای است که مجموعه داده از طریق تکرار و پیش‌فرض‌ها سیگنال نشت می‌دهد به جای آزمایش درک مبتنی بر متن.

سؤال: "جان چه چیزی خورد؟"

این خط پایه اساساً یک بررسی سلامت عقل است: آیا مدل هنوز هم می‌تواند با تکیه بر الگوهای پاسخ با فرکانس بالا بدون پایه‌گذاری بر متن، امتیاز خوبی کسب کند؟ در عمل، فقط یک توکن را حدس می‌زند که مجموعه داده به طور نامتناسبی به آن پاداش می‌دهد ("پیتزا،" "ساندویچ")، و اگر این بیشتر از آنچه باید کار کند، شما درک را اندازه‌گیری نمی‌کنید بلکه بیشتر پیش‌فرض‌های مجموعه داده را اندازه‌گیری می‌کنید.

ارزیابی‌های استفاده از کامپیوتر قبلاً یک میانبر حتی واقعی‌تر تولید کرده‌اند: عامل یک مرورگر دارد، معیار عمومی است، و ارزیابی تبدیل به یک امتحان کتاب باز با کلید پاسخ در صفحه آخر می‌شود. در مقاله تابلوی امتیازات عامل کل‌نگر (HAL)، نویسندگان گزارش می‌دهند که عامل‌هایی را مشاهده کرده‌اند که به جای حل وظیفه، معیار را در HuggingFace جستجو می‌کردند، رفتاری که فقط در صورت بررسی لاگ‌ها متوجه آن می‌شوید.

\

# وظیفه فرضی: تکمیل یک گردش کار در محیط وب وظیفه: "تنظیم X را در برنامه پیکربندی کنید و تأیید کنید که فعال است." حالت شکست: 1) باز کردن یک تب جدید 2) جستجو برای: "وضعیت فعال مورد انتظار معیار X" / "HAL <معیار> تنظیم X" 3) یافتن: مخزن / نوشته تابلوی امتیازات / کارت مجموعه داده / موضوع مشکل 4) بازتولید وضعیت نهایی مورد انتظار (پاسخ)

در آن نقطه، ارزیابی این را اندازه‌گیری می‌کرد که آیا می‌تواند کلید پاسخ را پیدا کند.

وظیفه: "صفحه صحیح را پیدا کنید و Y را استخراج کنید." حالت شکست: - جستجو: "<نام معیار> Y" - کپی از یک آرتیفکت عمومی (اسناد، پست انجمن، کارت مجموعه داده) - چسباندن مقدار در خروجی عامل به گونه‌ای که انگار از تعامل آمده است

اگر یک عامل بتواند مقدار را از یک کارت مجموعه داده یا مخزن بکشد و هنوز هم "قبول شود،" بررسی موفقیت، احتمال را نمره‌دهی می‌کند، نه صحت تعامل. وظایف عمومی به علاوه تأیید سطحی، جستجوی وب را به یک استثمار تبدیل می‌کنند.

این دو مثال هشدار دهنده هستند: اگر ما معیارهای استفاده از کامپیوتر را زودتر به استانداردهای بالاتری نگه نداریم، ما عصر LLM را فقط با رابط‌های کاربری بهتر و راه‌های پیچیده‌تر برای تقلب تکرار خواهیم کرد.

آیا معمولاً درباره موضوعات مشابه می‌نویسید؟ اگر نه، معمولاً درباره چه چیزی می‌نویسید؟

بله! با کار بر روی محیط‌های RL و زیرساخت RL در اطراف استفاده از کامپیوتر، من دائماً با بهترین مدل‌های استفاده از کامپیوتر و واقعی‌ترین محیط‌های آموزشی احاطه شده‌ام. بنابراین مقاله دیگری نوشتم، "صفحه نمایش API است،" که دلیلی برای استفاده از کامپیوتر و چرایی آینده مدل‌های هوش مصنوعی بودن آن است.

این فضا به دلیل دو دلیل بسیار کم گزارش شده است:

  1. مدل‌ها در استفاده از کامپیوتر به اندازه سایر وظایف (کدنویسی، ریاضیات و غیره) توانمند نیستند.
  2. استفاده از کامپیوتر سریع در حال حرکت و بسیار جدید است.

من می‌خواهم این را تغییر دهم.

عالی! روال معمول نوشتن شما چگونه است (اگر دارید)

من معمولاً تعدادی مقاله تحقیقاتی می‌خوانم و با همکارانم در صنعت درباره افکارشان در مورد یک موضوع صحبت می‌کنم. غیر از آن، من زمان زیادی را صرف خواندن مقالات وبلاگ‌نویسان بزرگی مانند PG می‌کنم. بنابراین من معمولاً الهام زیادی از افراد دیگر در نوشته‌هایم می‌گیرم.

نویسنده بودن در فناوری می‌تواند یک چالش باشد. این اغلب نقش اصلی ما نیست، بلکه اضافه‌ای به نقش دیگر است. بزرگترین چالش شما در زمینه نوشتن چیست؟

پیدا کردن زمان برای نشستن و تبدیل تجربه زندگی‌ام به کلمات.

چیز بعدی که امیدوارید در حرفه خود به دست آورید چیست؟

حل مشکلات سخت‌تر با افراد عالی، یادگیری از آن افراد و به اشتراک گذاشتن تجربیاتم.

واو، این قابل تحسین است. حالا، چیزی غیررسمی‌تر: لذت گناه‌آلود انتخابی شما چیست؟

تماشای فیلم! فیلم مورد علاقه من در حال حاضر Catch Me If You Can (2002) است.

آیا سرگرمی غیرمرتبط با فناوری دارید؟ اگر بله، چیست؟

من صخره‌نوردی را دوست دارم زیرا باعث می‌شود احساس کنم مانند یک عامل انسانی استفاده از کامپیوتر هستم که با دیواره صخره‌نوردی تعامل می‌کنم. شوخی می‌کنم. فکر می‌کنم صخره‌نوردی بسیار سرگرم‌کننده است زیرا به من اجازه می‌دهد ذهنم را از کار دور کنم و تفکرم را تقویت کنم.

جامعه هکرنون می‌تواند انتظار داشته باشد بعداً چه چیزی از شما بخواند؟

من در حال حاضر در حال نوشتن مقاله دیگری درباره زیرساخت محیط RL هستم!

نظر شما درباره هکرنون به عنوان یک پلتفرم برای نویسندگان چیست؟

فکر می‌کنم ساختار بررسی عالی است، و مکان بسیار خوبی برای قرار دادن افکارم در مقابل خوانندگان فنی بود.

ممنون از وقتی که برای پیوستن به سری "با نویسنده آشنا شوید" ما گذاشتید. باعث افتخار بود. آیا کلمات پایانی دارید؟

من نوشتن را دوست دارم. ممنون، هکرنون!

سلب مسئولیت: مطالب بازنشرشده در این وب‌ سایت از منابع عمومی گردآوری شده‌ اند و صرفاً به‌ منظور اطلاع‌ رسانی ارائه می‌ شوند. این مطالب لزوماً بازتاب‌ دهنده دیدگاه‌ ها یا مواضع MEXC نیستند. کلیه حقوق مادی و معنوی آثار متعلق به نویسندگان اصلی است. در صورت مشاهده هرگونه محتوای ناقض حقوق اشخاص ثالث، لطفاً از طریق آدرس ایمیل service@support.mexc.com با ما تماس بگیرید تا مورد بررسی و حذف قرار گیرد.MEXC هیچ‌ گونه تضمینی نسبت به دقت، جامعیت یا به‌ روزبودن اطلاعات ارائه‌ شده ندارد و مسئولیتی در قبال هرگونه اقدام یا تصمیم‌ گیری مبتنی بر این اطلاعات نمی‌ پذیرد. همچنین، محتوای منتشرشده نباید به‌عنوان توصیه مالی، حقوقی یا حرفه‌ ای تلقی شود و به منزله پیشنهاد یا تأیید رسمی از سوی MEXC نیست.

محتوای پیشنهادی