Компания Google представила новую возможность для своей ИИ-модели Gemini 3 Flash — Agentic Vision, которая существенно расширяет способность системы анализироваКомпания Google представила новую возможность для своей ИИ-модели Gemini 3 Flash — Agentic Vision, которая существенно расширяет способность системы анализирова

Google представила Agentic Vision в Gemini 3 Flash для более глубокого анализа изображений

2026/02/01 18:50
  • ИИ-модель Gemini 3 Flash получила новую функцию Agentic Vision.
  • Так Gemini научилась «думать и действовать» с изображениями через выполнение кода.
  • В дальнейшем планируют интегрировать, например, веб-поиск изображений.

Компания Google представила новую возможность для своей ИИ-модели Gemini 3 Flash — Agentic Vision, которая существенно расширяет способность системы анализировать сложные изображения, включая мелкие детали вроде серийных номеров или текста на сложных схемах. 

Обновление усиливает направление развития агентных моделей, которые не только генерируют ответы, но и выполняют промежуточные действия для достижения более точного результата.

В Google назвали это «новым рубежом возможностей ИИ». Agentic Vision внедряет визуальный цикл Think, Act, Observe («Думай, действуй, наблюдай») в задачи понимания изображений:

  • think (думай) — модель анализирует запрос пользователя и исходное изображение, формируя многошаговый план;
  • oct (действуй) — Gemini генерирует и выполняет Python-код для активной работы с изображением (кадрирование, поворот, аннотации) или его анализа (вычисления, подсчет объектов и т. п.);
  • Observe (наблюдай) — измененное изображение добавляется в контекст модели, что позволяет еи повторно оценить данные перед финальным ответом.

Благодаря этому Gemini 3 Flash лучше работает с детализированными визуальными данными. Среди ключевых механик:

  • планирование — создание пошаговой стратегии анализа изображения;
  • зумирование — автоматическое приближение к мелким элементам;
  • аннотации — возможность размечать изображение для «заземления» логики модели;
  • визуальная математика и построение графиков — разбор плотных таблиц и выполнение Python-кода для визуализации результатов.

Функция уже используется через API и демонстрируется в Google AI Studio, в частности:

  1. Детальная инспекция изображений: платформа PlanCheckSolver.com, которая применяет ИИ для проверки строительных планов, повысила точность на 5% после активации выполнения кода в Gemini 3 Flash. Модель генерирует Python-код для вырезания отдельных фрагментов (например, краев крыши или секций здания) и повторно добавляет их в контекст для проверки соответствия сложным нормам.
  2. Аннотация изображений: в примере из приложения Gemini модели нужно было посчитать пальцы на руке. Чтобы избежать ошибок, она использовала Python для нанесения ограничивающих рамок и числовых меток на каждый палец, создав «визуальный черновик» для точного подсчета.
  3. Визуальная математика: Agentic Vision позволяет обрабатывать плотные таблицы и строить графики через Matplotlib. Вместо вероятностных оценок модель передает вычисления в детерминированную Python-среду.

В Google сообщили, что это лишь начало развития Agentic Vision. Компания работает над тем, чтобы больше действий (например, вращение изображений или визуальная математика) запускались без явной подсказки пользователя. 

Также исследуется интеграция новых инструментов — в частности веб-поиска и обратного поиска изображений, а возможность планируют распространить на другие размеры моделей Gemini, не только Flash.

Напомним, что ранее Apple подтвердила многолетнее партнерство с Google. Следующее поколение Apple Foundation Models будет построено на базе моделей Gemini и облачной инфраструктуры Google. Они станут основой функций Apple Intelligence, включая обновленную персонализированную Siri. 

Сообщение Google представила Agentic Vision в Gemini 3 Flash для более глубокого анализа изображений появились сначала на INCRYPTED.

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Solana: вот где может сформироваться следующее крупное дно

Solana: вот где может сформироваться следующее крупное дно

Solana (SOL) испытывает растущее техническое давление после потери критической зоны поддержки $103, при этом ценовое действие теперь отражает явное изменение краткосрочной рыночной динамики
Поделиться
Ethnews2026/02/01 19:13
Tesla обгоняет Биткоин по рыночной капитализации, меняя глобальную инвестиционную картину

Tesla обгоняет Биткоин по рыночной капитализации, меняя глобальную инвестиционную картину

Tesla превосходит Bitcoin по рыночной капитализации, отмечая исторический момент для мировых рынков Tesla обогнала Bitcoin по общей рыночной капитализации, отмечая
Поделиться
Hokanews2026/02/01 19:36
Перевод кита Ethereum: Ошеломляющее движение ETH на $243 миллиона на Binance вызывает рыночные спекуляции

Перевод кита Ethereum: Ошеломляющее движение ETH на $243 миллиона на Binance вызывает рыночные спекуляции

BitcoinWorld Перевод крупного держателя Ethereum: Ошеломляющее перемещение ETH на сумму 243 миллиона $ в Binance вызывает рыночные спекуляции В ошеломляющем событии, которое привлекло внимание мирового криптовалютного
Поделиться
bitcoinworld2026/02/01 18:55