سلام! اسم من اشتون است و من یک مهندس بنیانگذار در تتا هستم که روی زیرساختهای RL، RL و سیستمهای فناوری های دفتر کل توزیع شده کار میکنم. من به طور خاص روی استفاده از کامپیوتر و استفاده از ابزار تمرکز دارم. در گذشته، در آمازون AGI کار میکردم و با زیرساختهای استنتاج و استفاده از ابزار سروکار داشتم. در اوقات فراغتم، طراحی گرافیک، پروژههای جانبی و صخرهنوردی را دوست دارم.
آخرین داستان من، "آیا هوش مصنوعی شما واقعاً میتواند از کامپیوتر استفاده کند؟ نقشه معیارهای استفاده از کامپیوتر در سال 2025،" به یکی از داغترین حوزهها در VC در حال حاضر پرداخت: محیطهای RL و ارزیابیها. من یک نمای کلی جامع از پرکاربردترین معیارهای استفاده از کامپیوتر ارائه دادم، به علاوه توصیههای عملی درباره چگونگی انتخاب معیارها برای آموزش و آزمایش عاملهای استفاده از کامپیوتر.
من مدام با همان شکاف مواجه میشدم: مقالات زیادی وجود ندارند که خود معیارها را بررسی کنند. و همانطور که این حوزه رشد میکند، حیاتی است که ما واقعاً کیفیت را ارزیابی کنیم به جای پاداش دادن به هر چیزی که اتفاقی معیار را بازی میکند. ما قبلاً اینجا بودهایم. در روزهای اولیه LLMها، معیارها به اندازه کافی تصادفی و متفاوت بودند که فقط به طور ضعیفی برنده واقعی را منعکس میکردند.
معیارها تبدیل به تابلوی امتیازات دوفاکتو برای "بهترین مدل" شدند، و سپس مردم متوجه شدند که بسیاری از آنها چیزی را که ادعا میکردند اندازهگیری نمیکنند.
یکی از آشکارترین شکستهای دوران اولیه زمانی بود که "درک مطلب" به آرامی تبدیل به "تطبیق الگو در ساختار مجموعه داده" شد. محققان خط پایههای عمداً تحریککننده (فقط-سؤال، فقط-آخرین-جمله) را اجرا کردند، و نتایج به اندازه کافی بالا بود که یک احتمال ناراحتکننده را مطرح کند: معیار به طور مداوم مدلها را مجبور به استفاده از کل متن نمیکرد. در یک نقد سال 2018، نکته این نبود که خواندن هرگز مهم نیست، بلکه این بود که برخی مجموعههای داده به طور تصادفی با پاداش بیش از حد به میانبرهایی مانند تازگی و پیشفرضهای پاسخ کلیشهای، آن را اختیاری کرده بودند.
\
# وظیفه فرضی: پاسخ به سؤال با توجه به متن و سؤال متن (خلاصه): - جملات 1-8: روز جان در مدرسه (عمدتاً جزئیات نامربوط) - جمله 9: "بعد از مدرسه، جان به آشپزخانه رفت." - جمله 10: "او قبل از شروع تکالیفش یک برش پیتزا خورد." سؤال: "جان چه چیزی خورد؟" پاسخ: "پیتزا"
معیار به طور تصادفی به میانبری پاداش میدهد که در آن مدل به آخرین جمله وزن بیشتری میدهد (زیرا پاسخ اغلب نزدیک به انتها است) و به سادگی مفعول مستقیم آخرین عمل ("خورد ___") را استخراج میکند، که در این مورد "پیتزا" را نتیجه میدهد.
و سپس خط پایه حتی آسیبزنندهتر میآید: کل متن را حذف کنید و ببینید چه اتفاقی میافتد. اگر یک مدل فقط-سؤال رقابتی باشد، این نشانهای است که مجموعه داده از طریق تکرار و پیشفرضها سیگنال نشت میدهد به جای آزمایش درک مبتنی بر متن.
سؤال: "جان چه چیزی خورد؟"
این خط پایه اساساً یک بررسی سلامت عقل است: آیا مدل هنوز هم میتواند با تکیه بر الگوهای پاسخ با فرکانس بالا بدون پایهگذاری بر متن، امتیاز خوبی کسب کند؟ در عمل، فقط یک توکن را حدس میزند که مجموعه داده به طور نامتناسبی به آن پاداش میدهد ("پیتزا،" "ساندویچ")، و اگر این بیشتر از آنچه باید کار کند، شما درک را اندازهگیری نمیکنید بلکه بیشتر پیشفرضهای مجموعه داده را اندازهگیری میکنید.
ارزیابیهای استفاده از کامپیوتر قبلاً یک میانبر حتی واقعیتر تولید کردهاند: عامل یک مرورگر دارد، معیار عمومی است، و ارزیابی تبدیل به یک امتحان کتاب باز با کلید پاسخ در صفحه آخر میشود. در مقاله تابلوی امتیازات عامل کلنگر (HAL)، نویسندگان گزارش میدهند که عاملهایی را مشاهده کردهاند که به جای حل وظیفه، معیار را در HuggingFace جستجو میکردند، رفتاری که فقط در صورت بررسی لاگها متوجه آن میشوید.
\
# وظیفه فرضی: تکمیل یک گردش کار در محیط وب وظیفه: "تنظیم X را در برنامه پیکربندی کنید و تأیید کنید که فعال است." حالت شکست: 1) باز کردن یک تب جدید 2) جستجو برای: "وضعیت فعال مورد انتظار معیار X" / "HAL <معیار> تنظیم X" 3) یافتن: مخزن / نوشته تابلوی امتیازات / کارت مجموعه داده / موضوع مشکل 4) بازتولید وضعیت نهایی مورد انتظار (پاسخ)
در آن نقطه، ارزیابی این را اندازهگیری میکرد که آیا میتواند کلید پاسخ را پیدا کند.
وظیفه: "صفحه صحیح را پیدا کنید و Y را استخراج کنید." حالت شکست: - جستجو: "<نام معیار> Y" - کپی از یک آرتیفکت عمومی (اسناد، پست انجمن، کارت مجموعه داده) - چسباندن مقدار در خروجی عامل به گونهای که انگار از تعامل آمده است
اگر یک عامل بتواند مقدار را از یک کارت مجموعه داده یا مخزن بکشد و هنوز هم "قبول شود،" بررسی موفقیت، احتمال را نمرهدهی میکند، نه صحت تعامل. وظایف عمومی به علاوه تأیید سطحی، جستجوی وب را به یک استثمار تبدیل میکنند.
این دو مثال هشدار دهنده هستند: اگر ما معیارهای استفاده از کامپیوتر را زودتر به استانداردهای بالاتری نگه نداریم، ما عصر LLM را فقط با رابطهای کاربری بهتر و راههای پیچیدهتر برای تقلب تکرار خواهیم کرد.
بله! با کار بر روی محیطهای RL و زیرساخت RL در اطراف استفاده از کامپیوتر، من دائماً با بهترین مدلهای استفاده از کامپیوتر و واقعیترین محیطهای آموزشی احاطه شدهام. بنابراین مقاله دیگری نوشتم، "صفحه نمایش API است،" که دلیلی برای استفاده از کامپیوتر و چرایی آینده مدلهای هوش مصنوعی بودن آن است.
این فضا به دلیل دو دلیل بسیار کم گزارش شده است:
من میخواهم این را تغییر دهم.
من معمولاً تعدادی مقاله تحقیقاتی میخوانم و با همکارانم در صنعت درباره افکارشان در مورد یک موضوع صحبت میکنم. غیر از آن، من زمان زیادی را صرف خواندن مقالات وبلاگنویسان بزرگی مانند PG میکنم. بنابراین من معمولاً الهام زیادی از افراد دیگر در نوشتههایم میگیرم.
پیدا کردن زمان برای نشستن و تبدیل تجربه زندگیام به کلمات.
حل مشکلات سختتر با افراد عالی، یادگیری از آن افراد و به اشتراک گذاشتن تجربیاتم.
تماشای فیلم! فیلم مورد علاقه من در حال حاضر Catch Me If You Can (2002) است.
من صخرهنوردی را دوست دارم زیرا باعث میشود احساس کنم مانند یک عامل انسانی استفاده از کامپیوتر هستم که با دیواره صخرهنوردی تعامل میکنم. شوخی میکنم. فکر میکنم صخرهنوردی بسیار سرگرمکننده است زیرا به من اجازه میدهد ذهنم را از کار دور کنم و تفکرم را تقویت کنم.
من در حال حاضر در حال نوشتن مقاله دیگری درباره زیرساخت محیط RL هستم!
فکر میکنم ساختار بررسی عالی است، و مکان بسیار خوبی برای قرار دادن افکارم در مقابل خوانندگان فنی بود.
من نوشتن را دوست دارم. ممنون، هکرنون!

