OpenAI با آزمایشگاه وزارت انرژی همکاری می‌کند تا زمان صدور مجوزهای فدرال را 15٪ کاهش دهد

Tony Kim 1404/12/13 17:29

OpenAI و آزمایشگاه ملی شمال غرب اقیانوس آرام DraftNEPABench را راه‌اندازی کردند که نشان می‌دهد AI Agent می‌توانند 1 تا 5 ساعت در هر بخش فرعی از بررسی‌های زیست‌محیطی فدرال صرفه‌جویی کنند.

OpenAI با آزمایشگاه وزارت انرژی همکاری می‌کند تا زمان صدور مجوزهای فدرال را 15٪ کاهش دهد

OpenAI و آزمایشگاه ملی شمال غرب اقیانوس آرام وابسته به وزارت انرژی ایالات متحده یک شاخص توسعه داده‌اند که نشان می‌دهد AI Agent کدنویسی می‌توانند پیش‌نویس‌های مجوزهای زیست‌محیطی فدرال را تا 15٪ کاهش دهند. این همکاری که در 1404/12/07 اعلام شد، DraftNEPABench را تولید کرد—یک چارچوب تست خودکار که عملکرد هوش مصنوعی را در 102 وظیفه پیش‌نویس از 18 آژانس فدرال ارزیابی کرد.

این شاخص به طور خاص گردش کار قانون سیاست زیست‌محیطی ملی را هدف قرار می‌دهد، فرآیند 50 ساله‌ای که از آژانس‌های فدرال می‌خواهد پیش از تایید پروژه‌های زیرساختی مانند نیروگاه‌ها، پل‌ها و تسهیلات تولیدی، اثرات زیست‌محیطی را مستند کنند. این بررسی‌ها اغلب سال‌ها طول می‌کشند و شامل صدها صفحه گزارش فنی هستند.

آنچه تست نشان داد

نوزده کارشناس موضوعی NEPA پیش‌نویس‌های تولید شده توسط هوش مصنوعی را در مقیاس 1 تا 5 با اندازه‌گیری ساختار، وضوح، دقت و استفاده صحیح از مراجع ارزیابی کردند. AI Agent—که بر روی Codex CLI OpenAI با GPT-5 اجرا می‌شوند—پتانسیل صرفه‌جویی 1 تا 5 ساعت در هر بخش فرعی سند را نشان دادند.

این چشمگیر به نظر نمی‌رسد تا زمانی که مقیاس را در نظر بگیرید. بیانیه‌های تأثیر زیست‌محیطی حاوی ده‌ها بخش فرعی هستند که هر کدام نیاز به ارجاع متقابل گزارش‌های فنی، الزامات نظارتی و منابع داده چندگانه دارند. چند ساعت صرفه‌جویی شده در هر بخش به سرعت در پروژه‌هایی که در حال حاضر ماه‌ها یا سال‌ها طول می‌کشد تا تکمیل شوند، جمع می‌شود.

از AI Agent خواسته شد اسنادی را که صدها صفحه را شامل می‌شوند بخوانند و ترکیب کنند، حقایق را در منابع زیست‌محیطی و نظارتی تأیید کنند و گزارش‌های ساختاری تولید کنند که معیارهای قانونی خاصی را برآورده کنند. وظایف بخش‌های اسناد از آژانس‌ها در سراسر دولت فدرال را پوشش دادند.

محدودیت‌های قابل توجه

PNNL و OpenAI در مورد آنچه این شاخص اثبات نمی‌کند صادق بودند. این عملکرد را در وظایف پیش‌نویس مشخص شده که در آن زمینه مرتبط در دسترس است ارزیابی می‌کند—نه ابهام پیچیده تصمیمات واقعی صدور مجوز.

هنگام بررسی دستی موارد شکست، محققان دریافتند که برخی "خطاها" ناشی از مراجع منسوخ و معیارهای ارزیابی ضعیف بودند نه اشتباهات مدل. استقرارهای واقعی شامل حلقه‌های بازخورد کارشناسی می‌شود که انتظار می‌رود عملکرد را فراتر از نتایج شاخص بهبود بخشند.

اگر مواد منبع ناقص یا ناسازگار باشند، مدل‌ها لزوماً مشکلات را بدون دستورالعمل‌های صریح علامت‌گذاری نمی‌کنند. نظارت انسانی همچنان ضروری است.

تصویر بزرگتر

این مشارکت در ابتکار گسترده‌تر PermitAI PNNL قرار دارد که توسط دفتر سیاست وزارت انرژی تأمین مالی می‌شود. هدف جایگزینی بازبینان انسانی نیست—بلکه دادن تیم‌های هوش مصنوعی به کارکنان دولت است که کار اسناد زمان‌بر را انجام دهند تا آنها بتوانند بر تصمیمات قضاوتی و تصمیمات پیچیده تمرکز کنند.

OpenAI می‌گوید که همکاری به اصلاح برنامه‌های PermitAI ادامه خواهد داد. شرکت‌ها انتظار دارند میانگین زمان‌های تایید برای پروژه‌های زیرساختی بررسی شده توسط دولت فدرال در نهایت از ماه‌ها به هفته‌ها کاهش یابد، اگرچه هیچ جدول زمانی مشخصی برای دستیابی به این کاهش ارائه نشد.

برای صنعت هوش مصنوعی، این نشان‌دهنده یک مورد استفاده اعتبارسنجی دولتی دیگر است—که نشان می‌دهد مدل‌های پیشرفته می‌توانند گردش کار نظارتی واقعی را مدیریت کنند، نه فقط مکالمات چت‌بات. اینکه آیا این به پذیرش گسترده‌تر هوش مصنوعی فدرال تبدیل می‌شود یا خیر، به این بستگی دارد که پایلوت‌های بعدی در شرایط واقعی صدور مجوز چگونه عمل کنند.

منبع تصویر: Shutterstock