语言模型不仅仅是犯错——它们以完全的自信编造现实。AI 代理可能会声称它创建了实际上并不存在的数据库记录,语言模型不仅仅是犯错——它们以完全的自信编造现实。AI 代理可能会声称它创建了实际上并不存在的数据库记录,

审计LLM行为:我们能否测试幻觉?由AI导向软件测试开发员Dmytro Kyiashko提供的专家见解

Model bahasa bukan sekadar membuat kesilapan—mereka mereka realiti dengan penuh keyakinan. Ejen AI mungkin mendakwa ia mencipta rekod pangkalan data yang tidak wujud, atau menegaskan ia melakukan tindakan yang tidak pernah dicuba. Bagi pasukan yang menggunakan sistem ini dalam pengeluaran, perbezaan itu menentukan cara anda membetulkan masalah.

Dmytro Kyiashko pakar dalam menguji sistem AI. Kerjanya memberi tumpuan kepada satu soalan: bagaimana anda secara sistematik mengesan apabila model berbohong?

Masalah Dengan Menguji Karut Yang Penuh Keyakinan

Perisian tradisional gagal secara boleh diramal. Fungsi yang rosak mengembalikan ralat. API yang salah dikonfigurasi memberikan isyarat kegagalan deterministik—biasanya kod status HTTP standard dan mesej ralat yang boleh dibaca yang menerangkan apa yang salah.

Model bahasa rosak secara berbeza. Mereka akan melaporkan menyelesaikan tugas yang tidak pernah dimulakan, mendapatkan maklumat dari pangkalan data yang tidak pernah ditanya, dan menerangkan tindakan yang hanya wujud dalam data latihan mereka. Respons kelihatan betul. Kandungannya direka-reka.

"Setiap ejen AI beroperasi mengikut arahan yang disediakan oleh jurutera," jelas Kyiashko. "Kami tahu apa yang boleh dan tidak boleh dilakukan oleh ejen kami." Pengetahuan itu menjadi asas untuk membezakan halusinasi daripada ralat.

Jika ejen yang dilatih untuk membuat pertanyaan pangkalan data gagal secara senyap, itu adalah pepijat. Tetapi jika ia mengembalikan hasil pertanyaan terperinci tanpa menyentuh pangkalan data? Itu adalah halusinasi. Model mencipta output yang munasabah berdasarkan corak latihan.

Pengesahan Terhadap Kebenaran Asas

Pendekatan Kyiashko berpusat pada pengesahan terhadap keadaan sistem sebenar. Apabila ejen mendakwa ia mencipta rekod, ujiannya memeriksa sama ada rekod tersebut wujud. Respons ejen tidak penting jika sistem bercanggah dengannya.

"Saya biasanya menggunakan pelbagai jenis ujian negatif—kedua-duanya unit dan integrasi—untuk memeriksa halusinasi LLM," katanya. Ujian ini sengaja meminta tindakan yang tidak mempunyai kebenaran untuk dilakukan oleh ejen, kemudian mengesahkan ejen tidak mengesahkan kejayaan secara palsu dan keadaan sistem kekal tidak berubah.

Satu teknik menguji terhadap kekangan yang diketahui. Ejen tanpa kebenaran menulis pangkalan data digesa untuk mencipta rekod. Ujian mengesahkan tiada data tanpa kebenaran muncul dan respons tidak mendakwa kejayaan.

Kaedah yang paling berkesan menggunakan data pengeluaran. "Saya menggunakan sejarah perbualan pelanggan, menukar segala-galanya kepada format JSON, dan menjalankan ujian saya menggunakan fail JSON ini." Setiap perbualan menjadi kes ujian yang menganalisis sama ada ejen membuat dakwaan yang bercanggah dengan log sistem.

Ini menangkap corak yang terlepas dari ujian sintetik. Pengguna sebenar mencipta keadaan yang mendedahkan kes tepi. Log pengeluaran mendedahkan di mana model berhalusinasi di bawah penggunaan sebenar.

Dua Strategi Penilaian

Kyiashko menggunakan dua pendekatan pelengkap untuk menilai sistem AI.

Penilai berasaskan kod mengendalikan pengesahan objektif. "Penilai berasaskan kod adalah ideal apabila definisi kegagalan adalah objektif dan boleh diperiksa dengan peraturan. Contohnya: menghurai struktur, memeriksa kesahihan JSON atau sintaks SQL," jelasnya.

Tetapi sesetengah kegagalan menentang klasifikasi binari. Adakah nada itu sesuai? Adakah ringkasan itu setia? Adakah respons itu membantu? "Penilai LLM-sebagai-Hakim digunakan apabila mod kegagalan melibatkan tafsiran atau nuansa yang tidak dapat ditangkap oleh kod."

Untuk pendekatan LLM-sebagai-Hakim, Kyiashko bergantung pada LangGraph. Tidak ada pendekatan yang berfungsi sendiri. Rangka kerja yang berkesan menggunakan kedua-duanya.

Apa Yang Terlepas Dari Latihan QA Klasik

Jurutera kualiti berpengalaman bergelut apabila mereka mula-mula menguji sistem AI. Andaian yang menjadikan mereka berkesan tidak dipindahkan.

"Dalam QA klasik, kami tahu dengan tepat format respons sistem, kami tahu dengan tepat format data input dan output," jelas Kyiashko. "Dalam ujian sistem AI, tiada perkara sedemikian." Data input adalah gesaan—dan variasi dalam cara pelanggan menyatakan permintaan adalah tidak berkesudahan.

Ini menuntut pemantauan berterusan. Kyiashko memanggilnya "analisis ralat berterusan"—kerap mengkaji semula bagaimana ejen bertindak balas kepada pengguna sebenar, mengenal pasti di mana mereka mereka maklumat, dan mengemas kini suite ujian dengan sewajarnya.

Cabaran itu bertambah dengan jumlah arahan. Sistem AI memerlukan gesaan yang luas yang menentukan tingkah laku dan kekangan. Setiap arahan boleh berinteraksi secara tidak dapat diramalkan dengan yang lain. "Salah satu masalah dengan sistem AI ialah jumlah arahan yang besar yang perlu dikemas kini dan diuji secara berterusan," katanya.

Jurang pengetahuan adalah ketara. Kebanyakan jurutera tidak mempunyai pemahaman yang jelas tentang metrik yang sesuai, penyediaan set data yang berkesan, atau kaedah yang boleh dipercayai untuk mengesahkan output yang berubah dengan setiap larian. "Membuat ejen AI tidaklah sukar," kata Kyiashko. "Mengautomasikan ujian ejen itu adalah cabaran utama. Daripada pemerhatian dan pengalaman saya, lebih banyak masa dihabiskan untuk menguji dan mengoptimumkan sistem AI daripada menciptanya."

Keluaran Mingguan Yang Boleh Dipercayai

Halusinasi menghakis kepercayaan lebih cepat daripada pepijat. Ciri yang rosak mengecewakan pengguna. Ejen yang dengan yakin memberikan maklumat palsu memusnahkan kredibiliti.

Metodologi ujian Kyiashko membolehkan keluaran mingguan yang boleh dipercayai. Pengesahan automatik menangkap kemunduran sebelum penggunaan. Sistem yang dilatih dan diuji dengan data sebenar mengendalikan kebanyakan permintaan pelanggan dengan betul.

Pengulangan mingguan memacu kelebihan daya saing. Sistem AI bertambah baik melalui penambahan keupayaan, memperhalusi respons, mengembangkan domain.

Mengapa Ini Penting Untuk Kejuruteraan Kualiti

Syarikat yang menyepadukan AI berkembang setiap hari. "Dunia telah melihat manfaat menggunakan AI, jadi tidak ada jalan balik," hujah Kyiashko. Penggunaan AI mempercepatkan merentas industri—lebih banyak permulaan dilancarkan, lebih banyak perusahaan menyepadukan kecerdasan ke dalam produk teras.

Jika jurutera membina sistem AI, mereka mesti memahami cara mengujinya. "Walaupun hari ini, kami perlu memahami bagaimana LLM berfungsi, bagaimana ejen AI dibina, bagaimana ejen ini diuji, dan bagaimana untuk mengautomasikan pemeriksaan ini."

Kejuruteraan gesaan menjadi wajib untuk jurutera kualiti. Ujian data dan pengesahan data dinamik mengikuti trajektori yang sama. "Ini sepatutnya sudah menjadi kemahiran asas jurutera ujian."

Corak yang dilihat Kyiashko di seluruh industri mengesahkan peralihan ini. Melalui kerjanya mengkaji semula kertas kerja teknikal mengenai penilaian AI dan menilai seni bina permulaan di forum teknikal, isu yang sama muncul berulang kali: pasukan di mana-mana menghadapi masalah yang sama. Cabaran pengesahan yang diselesaikannya dalam pengeluaran beberapa tahun lalu kini menjadi kebimbangan universal apabila penggunaan AI berkembang.

Infrastruktur Ujian Yang Berkembang

Metodologi Kyiashko menangani prinsip penilaian, penilaian perbualan berbilang giliran, dan metrik untuk mod kegagalan yang berbeza.

Konsep teras: ujian yang pelbagai. Pengesahan peringkat kod menangkap ralat struktur. Penilaian LLM-sebagai-Hakim membolehkan penilaian keberkesanan dan ketepatan sistem AI bergantung pada versi LLM mana yang digunakan. Analisis ralat manual mengenal pasti corak. Ujian RAG mengesahkan ejen menggunakan konteks yang disediakan dan bukannya mereka perincian.

"Rangka kerja yang saya terangkan adalah berdasarkan konsep pendekatan pelbagai untuk menguji sistem AI. Kami menggunakan liputan peringkat kod, penilai LLM-sebagai-Hakim, analisis ralat manual, dan Menilai Generasi Ditambah-Pengambilan." Pelbagai kaedah pengesahan yang bekerja bersama menangkap jenis halusinasi yang berbeza yang terlepas dari pendekatan tunggal.

Apa Yang Akan Datang

Bidang ini menentukan amalan terbaik dalam masa nyata melalui kegagalan pengeluaran dan penghalusan berulang. Lebih banyak syarikat menggunakan AI generatif. Lebih banyak model membuat keputusan autonomi. Sistem menjadi lebih berkebolehan, yang bermakna halusinasi menjadi lebih munasabah.

Tetapi ujian sistematik menangkap rekaan sebelum pengguna menghadapinya. Menguji halusinasi bukan mengenai kesempurnaan—model akan sentiasa mempunyai kes tepi di mana mereka mereka. Ia adalah mengenai menangkap rekaan secara sistematik dan menghalangnya daripada mencapai pengeluaran.

Teknik berfungsi apabila digunakan dengan betul. Apa yang hilang adalah pemahaman meluas tentang cara melaksanakannya dalam persekitaran pengeluaran di mana kebolehpercayaan penting.

Dmytro Kyiashko ialah Pembangun Perisian dalam Ujian yang pakar dalam ujian sistem AI, dengan pengalaman membina rangka kerja ujian untuk AI perbualan dan ejen autonomi. Kerjanya mengkaji kebolehpercayaan dan cabaran pengesahan dalam sistem AI multimodal.

Komen
市场机遇
Large Language Model 图标
Large Language Model实时价格 (LLM)
$0,0003345
$0,0003345$0,0003345
+0,36%
USD
Large Language Model (LLM) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。