Что понятно про Gemini 3 Pro — модель, которую Google называет серьезным шагом к AGI
The Bell
На этой неделе Google представила Gemini 3 — и этот релиз тянет на большее, чем очередное обновление, но не без курьезов. Для Google этот релиз оказался уже крайне успешным: акции материнской Alphabet подскочили на 6,9%. И это — уже вторая хорошая новость за неделю для бигтеха: ранее Loop Capital повысил рейтинг акций до «покупать», заявив, что прежние опасения насчет перспектив поискового гиганта «были сметены волной энтузиазма вокруг ИИ».
Что умеет Gemini 3 Pro
Gemini 3 Pro — полноценный универсальный инструмент, утверждает в своем релизе Google. Модель может одновременно анализировать разные типы данных (текст, изображения, видео, аудио, код) и объединять их в цельный итоговый продукт.
▫️Показательный пример — эксперимент с архивом старых исследовательских данных, который провел профессор бизнес-школы Уортона и автор книги «Co-Intelligence» Итан Молик. Он дал модели доступ к беспорядочной папке десятилетней давности, куда входили поврежденные Excel-файлы вкупе с устаревшими форматами. Gemini 3 Pro разобралась в этом хаосе.
▫️Другой эксперимент был такой: Молик загрузил в Gemini 3 Pro скриншот твита от ноября 2022 года. Тогда первая версия ChatGPT сочинила короткий забавный стих про «космический двигатель на конфетах». Gemini 3 Pro на основе того же запроса самостоятельно спланировала, запрограммировала и запустила мини-игру — небольшой интерактивный симулятор космического корабля, движущегося на «конфетной тяге».
▫️Gemini 3 Pro отвечает коротко и по делу, посчитал один из первых тестировщиков Мэтт Шумер. Он сравнивает ее с опытным senior-инженером и признает, что модель к тому же выдерживает живой ритм на письме. Ему пришлось перечитывать созданные искусственным интеллектом главы, чтобы убедиться, что это не фрагменты реальной книги.
▫️Platformer пишет, что Gemini 3 Pro показала лучший результат среди всех протестированных систем на любимом у автора эксперименте — нарисовать векторную картинку с пеликаном на велосипеде. Проводивший эксперимент разработчик Саймон Уиллисон отметил, что модель сгенерировала «отличного пеликана» — что получается далеко не у всех топовых моделей.
Но есть нюансы
По большинству публичных бенчмарков Gemini 3 Pro уверенно обходит и недавно вышедшую GPT-5.1 от OpenAI, и Claude Sonnet 4.5 от Anthropic. Единственный тест, где модель уступила конкуренту, — SWE-Bench Verified, бенчмарка, созданного для оценки того, как хорошо ИИ-модели справляются с реальными задачами по программированию, и то на один процентный пункт.
Но исследователи отмечают любопытную деталь. В закрытом тесте AA-Omniscience Index, где модели должны отвечать только в том случае, если полностью уверены в результате, Gemini 3 Pro дала больше правильных ответов, чем конкуренты, но в ситуациях неопределенности чаще вела себя «слишком уверенно» и предпочитала придумать ответ. По данным тестировщиков, около 88% ее ошибок приходились на такие галлюцинации. Для сравнения, у менее мощного, но более осторожного Claude Haiku 4.5 этот показатель — всего 26%.
Встречались и полноценные логические ловушки. В одном из тестов Андрея Карпатого модель категорически отказывалась признать, что сейчас 2025 год, и уверяла пользователя, что все показанные статьи и скриншоты — подделка, созданная другими ИИ. Модель разбирала изображения и указывала на «признаки генерации», которых на самом деле не было. И лишь после того, как ее заставили воспользоваться поиском, модель признала, что ошиблась.