Меня зовут Лилия Урмазова, более 20 лет назад я начала работать классическим QA-инженером.А последние пару лет специализируюсь на тестировании AI-приложений. В Меня зовут Лилия Урмазова, более 20 лет назад я начала работать классическим QA-инженером.А последние пару лет специализируюсь на тестировании AI-приложений. В

Как тестировать AI-приложения — LLM метрики

2026/02/18 12:23
4м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Меня зовут Лилия Урмазова, более 20 лет назад я начала работать классическим QA-инженером.

А последние пару лет специализируюсь на тестировании AI-приложений. В настоящее время — Senior Staff AI-QA Engineer/ML Evaluation Engineer в крупной международной IT-компании.

Для тех тестировщиков, кто хочет как минимум быть “в курсе” тестирования AI, я с коллегами подготовила небольшой бесплатный практический курс.

Хорошая новость

Кое-что из того, что касается тестирования AI-приложений, можно мерить классическими, легко рассчитываемыми метриками.

Предположим, ваше AI-приложение в результате работы должно возвращать некий перечень - упорядоченные результаты текстового поиска или какие-то изображения. Для тестирования того, насколько всё это хорошо работает, можно использовать простые статистические метрики.

Пример:


QA-инженер Виктор проверяет поисковую AI-систему, которая должна помочь специалистам находить документы в базе знаний.

Он вводит запрос в AI-поиск и внимательно изучает топ-10 результатов:

Позиция (Ранг)

Результат (Документ)

Истинность (Релевантность)

1

Документ X1

Нерелевантный (Н)

2

Документ Y2

Релевантный (Р)

3

Документ Z3

Нерелевантный (Н)

4

Документ W4

Нерелевантный (Н)

5

Документ K5

Релевантный (Р)

6

Документ L6

Нерелевантный (Н)

7

Документ M7

Релевантный (Р)

8

Документ N8

Нерелевантный (Н)

9

Документ O9

Нерелевантный (Н)

10

Документ P10

Нерелевантный (Н)

Посмотрев на результаты, Виктор может рассчитать, например, Точность (Precision).
А именно: сколько действительно релевантных документов среди всех тех, которые система объявила релевантными.

Расчет элементарный:
Система выдала 10 результатов.
Из них 3 релевантных (TP=3), 7 нерелевантных (FP=7).
Precision = 3/(3+7) = 0.30

При этом с заказчиком ранее утвердили, что Precision должен быть не ниже 0.5. То есть из десяти документов не менее 5 должны быть релевантными.

Можно с чистой совестью писать дефект.


Изучить другие аналогичные метрики и потренироваться с ними на практике можно в первой части бесплатного курса Mentorpiece Как тестировать AI-приложения (Non-LLM метрики).

Плохая новость

Классические статистические метрики (Non-LLM метрики) покрывают только небольшую часть AI-задач. Поэтому нужно быть знакомым и с LLM метриками - которые специфичны именно под AI.

И тут всё намного интереснее.

Ведь нам приходится решать задачи типа таких:


QA-аналитик Антон тестирует новый AI-модуль анализа отзывов, интегрированный в крупную платформу электронной коммерции. Основная цель этого модуля — автоматически обрабатывать тысячи неструктурированных пользовательских отзывов о товаре и генерировать структурированное резюме для менеджеров по продукту и потенциальных покупателей.

Антон предоставляет AI-модулю контекст (массив из 1000+ отзывов о конкретном товаре). Модель пытается извлечь ключевые темы ("Срок службы батареи", "Качество сборки") и генерирует результат в строго заданном JSON-формате, указывая точное количество положительных и отрицательных упоминаний по каждой теме.

Проблема №1 - Релевантность

Антон проверяет, выполнила ли модель основную задачу. Задача была не просто «почитать отзывы», а «выделить конкретные проблемы» (батарея, экран, сборка), чтобы менеджер продукта мог их исправить.

Система же выдает Антону: «Покупатели в целом довольны, телефон хороший».

Проблема №2 - Точность

Модель сообщает, что в массиве отзывов есть 120 жалоб. Антон перепроверяет эту информацию, и обнаруживает, что их на самом деле 150. При следующем прогоне модель обнаружила в массиве отзывов уже 200 жалоб. ???

Проблема №3 - Достоверность

В массив отзывов загружена информация о конкретной партии телефонов. Модель пишет: «У этого телефона порт USB-C, который поддерживает быструю зарядку 65 Вт». Но Антон помнит, что в загруженных отзывах никто не упоминал про 65 Вт - это низкая Достоверность. Модель «подсмотрела» в свою память, а не в контекст.

Проблема №4 - Ясность

Кое-где в ответах приложения проскакивает «Наблюдается девиация гаммы при квантификации LUT-таблиц на уровне API», хотя конечными пользователями будут менеджеры по продукту, а это люди не сильно технические. Нужно что-то делать.

Проблема №5 - Галлюцинации

Периодически модель сообщает: «Пользователи массово жалуются на сбои после обновления до iOS 26». При этом Антон знает, что на момент написания отзывов iOS 26 еще не вышла. Модель «додумала» версию ОС, опираясь на свои вероятностные паттерны (после 25 идет 26), а не на факты.


Именно такие проблемы и пути их локализации мы разбираем во второй части бесплатного курса - Как тестировать AI-приложения (Non-LLM метрики).

Теория - это хорошо, но на практике изучать всё это гораздо более увлекательно. Поэтому мы встроили в курс специальный AI-тренажер (AI-модели стоят денег, поэтому требуется покупка токенов).

Этот AI-тренажер Mentorpiece Sim позволяет на практике наблюдать, как разные метрики:

80bb42e09c24e70354eba5f1d44411ca.pngc177db68f94b3f7303d5ae90dc3eeb15.png

работают в пяти разных моделях:

570a75fc9019707d8c7aa53849d1d499.png

Сейчас в нем можно сравнить работу следующих AI-моделей:

  • Qwen/Qwen3-VL-30B-A3B-Instruct

  • meta-llama/Llama-3.3-70B-Instruct:novita

  • google/gemma-3-27b-it

  • claude-sonnet-4-5-20250929

  • Gpt-5.1-2025-11-13

Отдельное развлечение для пытливых и неслабонервных - это джейлбрейкинг:

96617a7fa24238deb6ac6b4b3e922a9f.pngcb12c6f42cef152ad2eabf7008e0b40c.pnga0d71fa226fccf0b55f9e14102841b33.png

Одни AI-модели на инъекциях “валятся” только так, а для других требуются очень изощренные способы.

Как всегда, бесплатно и без регистрации

Регистрация нужна только для сохранения прогресса.

Бесплатный курс "Как тестировать AI-приложения (LLM метрики)"

Всем интересного и результативного обучения!

Анонс выхода следующих, тоже бесплатных частей - в телеграм-канале Становимся продвинутым QA.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Билл Най раскритиковал план NASA Трампа как «нелогичный»: «Мы не можем этого допустить»

Билл Най раскритиковал план NASA Трампа как «нелогичный»: «Мы не можем этого допустить»

Педагог в области науки Билл Най резко раскритиковал президента Дональда Трампа в пятницу, назвав предложенные его администрацией сокращения бюджета NASA "удивительными, нелогичными и
Поделиться
Rawstory2026/04/11 11:06
Вэнс теперь «ходит по яичной скорлупе вокруг Трампа»: отчет

Вэнс теперь «ходит по яичной скорлупе вокруг Трампа»: отчет

Вице-президент Джей Ди Вэнс все чаще оказывается в ситуации, когда ему приходится «ходить по тонкому льду» рядом с президентом Дональдом Трампом, поскольку он играет центральную роль в переговорах с высокими ставками
Поделиться
Rawstory2026/04/11 10:13
Сволуэлл отрицает обвинения в нападении: «Этого не было, этого никогда не происходило»

Сволуэлл отрицает обвинения в нападении: «Этого не было, этого никогда не происходило»

Конгрессмен Эрик Суолвелл (демократ, Калифорния) в пятницу вечером решительно отверг обвинения в сексуальных домогательствах и нападении, назвав заявления, которые потрясли его губернаторскую
Поделиться
Rawstory2026/04/11 11:53

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR