OpenAI با آزمایشگاه وزارت انرژی همکاری میکند تا زمان صدور مجوزهای فدرال را 15٪ کاهش دهد
Tony Kim 1404/12/13 17:29
OpenAI و آزمایشگاه ملی شمال غرب اقیانوس آرام DraftNEPABench را راهاندازی کردند که نشان میدهد AI Agent میتوانند 1 تا 5 ساعت در هر بخش فرعی از بررسیهای زیستمحیطی فدرال صرفهجویی کنند.
OpenAI و آزمایشگاه ملی شمال غرب اقیانوس آرام وابسته به وزارت انرژی ایالات متحده یک شاخص توسعه دادهاند که نشان میدهد AI Agent کدنویسی میتوانند پیشنویسهای مجوزهای زیستمحیطی فدرال را تا 15٪ کاهش دهند. این همکاری که در 1404/12/07 اعلام شد، DraftNEPABench را تولید کرد—یک چارچوب تست خودکار که عملکرد هوش مصنوعی را در 102 وظیفه پیشنویس از 18 آژانس فدرال ارزیابی کرد.
این شاخص به طور خاص گردش کار قانون سیاست زیستمحیطی ملی را هدف قرار میدهد، فرآیند 50 سالهای که از آژانسهای فدرال میخواهد پیش از تایید پروژههای زیرساختی مانند نیروگاهها، پلها و تسهیلات تولیدی، اثرات زیستمحیطی را مستند کنند. این بررسیها اغلب سالها طول میکشند و شامل صدها صفحه گزارش فنی هستند.
آنچه تست نشان داد
نوزده کارشناس موضوعی NEPA پیشنویسهای تولید شده توسط هوش مصنوعی را در مقیاس 1 تا 5 با اندازهگیری ساختار، وضوح، دقت و استفاده صحیح از مراجع ارزیابی کردند. AI Agent—که بر روی Codex CLI OpenAI با GPT-5 اجرا میشوند—پتانسیل صرفهجویی 1 تا 5 ساعت در هر بخش فرعی سند را نشان دادند.
این چشمگیر به نظر نمیرسد تا زمانی که مقیاس را در نظر بگیرید. بیانیههای تأثیر زیستمحیطی حاوی دهها بخش فرعی هستند که هر کدام نیاز به ارجاع متقابل گزارشهای فنی، الزامات نظارتی و منابع داده چندگانه دارند. چند ساعت صرفهجویی شده در هر بخش به سرعت در پروژههایی که در حال حاضر ماهها یا سالها طول میکشد تا تکمیل شوند، جمع میشود.
از AI Agent خواسته شد اسنادی را که صدها صفحه را شامل میشوند بخوانند و ترکیب کنند، حقایق را در منابع زیستمحیطی و نظارتی تأیید کنند و گزارشهای ساختاری تولید کنند که معیارهای قانونی خاصی را برآورده کنند. وظایف بخشهای اسناد از آژانسها در سراسر دولت فدرال را پوشش دادند.
محدودیتهای قابل توجه
PNNL و OpenAI در مورد آنچه این شاخص اثبات نمیکند صادق بودند. این عملکرد را در وظایف پیشنویس مشخص شده که در آن زمینه مرتبط در دسترس است ارزیابی میکند—نه ابهام پیچیده تصمیمات واقعی صدور مجوز.
هنگام بررسی دستی موارد شکست، محققان دریافتند که برخی "خطاها" ناشی از مراجع منسوخ و معیارهای ارزیابی ضعیف بودند نه اشتباهات مدل. استقرارهای واقعی شامل حلقههای بازخورد کارشناسی میشود که انتظار میرود عملکرد را فراتر از نتایج شاخص بهبود بخشند.
اگر مواد منبع ناقص یا ناسازگار باشند، مدلها لزوماً مشکلات را بدون دستورالعملهای صریح علامتگذاری نمیکنند. نظارت انسانی همچنان ضروری است.
تصویر بزرگتر
این مشارکت در ابتکار گستردهتر PermitAI PNNL قرار دارد که توسط دفتر سیاست وزارت انرژی تأمین مالی میشود. هدف جایگزینی بازبینان انسانی نیست—بلکه دادن تیمهای هوش مصنوعی به کارکنان دولت است که کار اسناد زمانبر را انجام دهند تا آنها بتوانند بر تصمیمات قضاوتی و تصمیمات پیچیده تمرکز کنند.
OpenAI میگوید که همکاری به اصلاح برنامههای PermitAI ادامه خواهد داد. شرکتها انتظار دارند میانگین زمانهای تایید برای پروژههای زیرساختی بررسی شده توسط دولت فدرال در نهایت از ماهها به هفتهها کاهش یابد، اگرچه هیچ جدول زمانی مشخصی برای دستیابی به این کاهش ارائه نشد.
برای صنعت هوش مصنوعی، این نشاندهنده یک مورد استفاده اعتبارسنجی دولتی دیگر است—که نشان میدهد مدلهای پیشرفته میتوانند گردش کار نظارتی واقعی را مدیریت کنند، نه فقط مکالمات چتبات. اینکه آیا این به پذیرش گستردهتر هوش مصنوعی فدرال تبدیل میشود یا خیر، به این بستگی دارد که پایلوتهای بعدی در شرایط واقعی صدور مجوز چگونه عمل کنند.
منبع تصویر: Shutterstock- openai
- هوش مصنوعی
- صدور مجوز فدرال
- nepa
- فناوری دولتی

