مرحباً! اسمي آشتون، وأنا مهندس مؤسس في شركة ثيتا حيث أعمل على بنية التعلم المعزز، والتعلم المعزز، والأنظمة الموزعة. أركز بشكل خاص على استخدام الكمبيوتر واستخدام الأدوات. في الماضي، عملت في Amazon AGI وتعاملت مع بنية الاستدلال واستخدام الأدوات. في وقت فراغي، أحب التصميم الجرافيكي، والمشاريع الجانبية، وتسلق الصخور.
قصتي الأخيرة، "هل يمكن للذكاء الاصطناعي الخاص بك استخدام الكمبيوتر فعلياً؟ خريطة 2025 لمعايير استخدام الكمبيوتر"، تناولت واحدة من أكثر المجالات سخونة في رأس المال الاستثماري حالياً: بيئات التعلم المعزز والتقييمات. قدمت نظرة شاملة عن أكثر معايير استخدام الكمبيوتر استخداماً، بالإضافة إلى نصائح عملية حول كيفية اختيار المعايير لتدريب واختبار وكلاء استخدام الكمبيوتر.
كنت أواجه نفس الفجوة باستمرار: لا توجد العديد من المقالات التي تراجع المعايير نفسها. ومع نمو هذا المجال، من الضروري أن نقيّم الجودة فعلياً بدلاً من مكافأة أي شيء يحدث للتلاعب بالمقياس. لقد مررنا بهذا من قبل. في الأيام الأولى من نماذج اللغة الكبيرة، كانت المعايير عشوائية ومتباينة بما يكفي لتعكس الفائز الحقيقي بشكل ضعيف فقط.
أصبحت المعايير بمثابة لوحة النتائج الفعلية لـ "أفضل نموذج"، ثم أدرك الناس أن الكثير منها لم يكن يقيس ما ادعوه.
كان أحد أكثر إخفاقات العصر المبكر كشفاً عندما تحول "فهم القراءة" بهدوء إلى "مطابقة النمط على هيكل مجموعة البيانات". أجرى الباحثون خطوط أساس استفزازية متعمدة (سؤال فقط، الجملة الأخيرة فقط)، وكانت النتائج مرتفعة بما يكفي لإثارة احتمال غير مريح: لم يجبر المعيار النماذج باستمرار على استخدام المقطع الكامل. في نقد عام 2018، لم تكن النقطة أن القراءة لا تهم أبداً، ولكن أن بعض مجموعات البيانات جعلتها اختيارية عن طريق الخطأ من خلال المكافأة المفرطة للاختصارات مثل الحداثة والإجابات النمطية المسبقة.
\
# المهمة المفترضة: الإجابة على السؤال بناءً على المقطع والسؤال المقطع (ملخص): - الجمل 1-8: يوم جون في المدرسة (تفاصيل غير ذات صلة في الغالب) - الجملة 9: "بعد المدرسة، ذهب جون إلى المطبخ." - الجملة 10: "أكل شريحة من البيتزا قبل أن يبدأ واجبه المنزلي." السؤال: "ماذا أكل جون؟" الإجابة: "بيتزا"
يكافئ المعيار عن طريق الخطأ اختصاراً حيث يعطي النموذج وزناً زائداً للجملة الأخيرة (لأن الإجابة غالباً ما تكون قرب النهاية) ويستخرج ببساطة المفعول به المباشر للإجراء الأخير ("أكل ___")، والذي في هذه الحالة ينتج "بيتزا".
ثم يأتي خط الأساس الأكثر ضرراً: إزالة المقطع بالكامل ومعرفة ما يحدث. إذا كان نموذج السؤال فقط تنافسياً، فهذه علامة على أن مجموعة البيانات تسرب إشارة من خلال التكرار والمعلومات المسبقة بدلاً من اختبار الفهم المستند إلى المقطع.
السؤال: "ماذا أكل جون؟"
خط الأساس هذا هو في الأساس فحص للعقل: هل يمكن للنموذج أن يسجل جيداً بالاعتماد على قوالب الإجابة عالية التردد دون الاستناد إلى المقطع على الإطلاق؟ في الممارسة العملية، فإنه يخمن رمزاً تكافئه مجموعة البيانات بشكل غير متناسب ("بيتزا"، "ساندويتش")، وإذا نجح ذلك أكثر مما ينبغي، فأنت لا تقيس الفهم بقدر ما تقيس المعلومات المسبقة لمجموعة البيانات.
لقد أنتجت تقييمات استخدام الكمبيوتر بالفعل اختصاراً أكثر حرفية: لدى الوكيل متصفح، والمعيار عام، ويتحول التقييم إلى امتحان مفتوح الكتاب مع مفتاح الإجابة في الصفحة الأخيرة. في ورقة لوحة صدارة الوكيل الشامل (HAL)، يفيد المؤلفون بملاحظة وكلاء بحثوا عن المعيار على HuggingFace بدلاً من حل المهمة، وهو سلوك لا تلتقطه إلا إذا فحصت السجلات.
\
# المهمة المفترضة: إكمال سير العمل داخل بيئة الويب المهمة: "تكوين الإعداد X في التطبيق والتحقق من تمكينه." وضع الفشل: 1) فتح علامة تبويب جديدة 2) البحث عن: "حالة التمكين المتوقعة للمعيار X" / "HAL <معيار> الإعداد X" 3) العثور على: المستودع / كتابة لوحة الصدارة / بطاقة مجموعة البيانات / سلسلة المشكلة 4) إعادة إنتاج حالة النهاية المتوقعة (الإجابة)
في تلك النقطة، كان التقييم يقيس ما إذا كان بإمكانه تحديد موقع مفتاح الإجابة.
المهمة: "ابحث عن الصفحة الصحيحة واستخرج Y." وضع الفشل: - البحث: "<اسم المعيار> Y" - النسخ من عنصر عام (مستندات، منشور منتدى، بطاقة مجموعة بيانات) - لصق القيمة في إخراج الوكيل كما لو كانت قادمة من التفاعل
إذا كان بإمكان الوكيل سحب القيمة من بطاقة مجموعة بيانات أو مستودع و"النجاح" مع ذلك، فإن فحص النجاح يقيّم المعقولية، وليس صحة التفاعل. المهام العامة بالإضافة إلى التحقق السطحي تحول البحث على الويب إلى استغلال.
هذان المثالان هما طلقة تحذير: إذا لم نحتفظ بمعايير استخدام الكمبيوتر بمعايير أعلى في وقت مبكر، فسنكرر عصر نماذج اللغة الكبيرة فقط مع واجهات مستخدم أفضل وطرق أكثر تفصيلاً للغش.
نعم! أثناء العمل على بيئات التعلم المعزز والبنية التحتية للتعلم المعزز حول استخدام الكمبيوتر، أنا محاط باستمرار بأفضل نماذج استخدام الكمبيوتر وأكثر بيئات التدريب واقعية. لذلك كتبت مقالاً آخر، "الشاشة هي واجهة برمجة التطبيقات"، وهو حالة لاستخدام الكمبيوتر ولماذا هو مستقبل نماذج الذكاء الاصطناعي.
هذا المجال غير مبلغ عنه بشكل كبير لسببين:
أريد تغيير ذلك.
عادة ما أقرأ مجموعة من الأوراق البحثية وأتحدث مع زملائي في الصناعة حول أفكارهم حول موضوع ما. بخلاف ذلك، أقضي الكثير من الوقت في قراءة المقالات التي كتبها مدونون رائعون مثل PG. لذلك عادة ما أستلهم الكثير من الإلهام من أشخاص آخرين في كتاباتي.
إيجاد الوقت للجلوس ووضع تجربتي المعاشة في كلمات.
معالجة مشاكل أصعب مع أشخاص رائعين، والتعلم من هؤلاء الأشخاص، ومشاركة تجاربي.
مشاهدة الأفلام! فيلمي المفضل حالياً هو Catch Me If You Can (2002).
أحب تسلق الصخور لأنه يجعلني أشعر وكأنني وكيل استخدام كمبيوتر بشري يتفاعل مع جدار التسلق. أنا أمزح. أعتقد أن تسلق الصخور ممتع للغاية لأنه يسمح لي بإبعاد ذهني عن العمل وتوحيد تفكيري.
أنا أكتب حالياً قطعة أخرى عن البنية التحتية لبيئة التعلم المعزز!
أعتقد أن هيكل المراجعة رائع، وكان مكاناً رائعاً لي لوضع أفكاري أمام القراء التقنيين.
أنا أحب الكتابة. شكراً لك، HackerNoon!


