Обзор Xiaomi MiMo v2 Pro: ИИ-модель так хороша, что её приняли за DeepSeek V4

Большинство американцев знают Xiaomi, если знают вообще, как дешевый телефонный бренд из Китая.

Это существенная ошибка. Xiaomi - третий крупнейший производитель смартфонов на планете, уступая только Apple и Samsung, отправив приблизительно 170 миллионов телефонов в 2025 году. Она производит телевизоры, очистители воздуха, фитнес-трекеры, электросамокаты, одежду и теперь автомобили.

Электромобиль Xiaomi SU7 Ultra установил рекорд Нюрбургринга как самый быстрый серийный электромобиль в прошлом году, обогнав Rimac и Porsche. Недавно она заключила партнерство с блокчейном Sei для предустановки криптокошельков на своих устройствах по всей Европе, Латинской Америке и Юго-Восточной Азии. Рыночная капитализация компании составляет около 137 миллиардов долларов.

Так что, когда Xiaomi выпускает ИИ-модель, возможно, стоит обратить внимание.

18 марта, дочернее подразделение компании по искусственному интеллекту тихо выпустило сразу три модели: MiMo-V2-Pro, MiMo-V2-Omni и модель текста в речь. Первая модель нового поколения MiMo появилась в декабре 2025 года, когда компания тихо выпустила MiMo-V2-Flash - способную модель смеси экспертов на 309B и практически никто за пределами китайского сообщества по ИИ не обратил внимание. Западная техническая пресса в основном пожала плечами.

Затем, 11 марта, появилась анонимная 1-триллионная модель под названием "Hunter Alpha" на OpenRouter без указания разработчика. Модель поднялась на вершину рейтинга OpenRouter, превзошла один триллион токенов в общем использовании и сразу вызвала широкие спекуляции о том, что это нереализованный V4 от DeepSeek.

Ожидание этой модели набирало обороты уже несколько недель, с заявлениями внутренних лиц, что она превзойдет как Claude, так и ChatGPT в задачах по кодированию.

Это не был DeepSeek.

18 марта Луо Фули, руководитель дивизиона MiMo в Xiaomi и бывший исследователь DeepSeek, раскрыл, что Hunter Alpha была ранней внутренней тестовой сборкой MiMo-V2-Pro. Акции Xiaomi выросли на 5,8%. "Я называю это тихой засадой", - написал Луо на X.

MiMo гордится более чем одним триллионом общих параметров, 42 миллиардами активных на запрос через смесь экспертов. Гибридный механизм внимания, работающий в соотношении 7:1, обрабатывает контекстное окно до одного миллиона токенов. Встроенный слой множественного прогнозирования токенов ускоряет генерацию, предсказывая несколько токенов за шаг, а не по одному. В настоящее время это закрытый исходный код, хотя Xiaomi оставила дверь открытой для потенциального будущего выпуска.

На Индексе искусственного анализа интеллекта MiMo-V2-Pro занимает восьмое место в мире и второе среди китайских моделей, уступая только GLM-5. На SWE-bench Verified - задачи по реальной инженерии программного обеспечения - оценка составляет 78%, против 80,8% Claude Opus 4.6 и 79,6% Claude Sonnet 4.6.

На ClawEval, оцениваемом бенчмарке, связанном с фреймворком OpenClaw, он достигает 61,5, подходя к 66,3 Opus 4.6. На PinchBench он занимает третье место в мировом рейтинге с 81,0, всего лишь немного уступая Opus 4.6 (81,5) и своему собрату MiMo-V2-Omni (81,2).

MiMo-V2-Pro стоит 1 доллар за миллион входных токенов и 3 доллара за миллион выходных токенов, до 256 тысяч контекста. Claude Sonnet 4.6 обойдется в 3 доллара за миллион входных и 15 долларов за миллион выходных (Opus 4.6 - 5/25 долларов). Для разработчиков, создающих агентные системы в масштабе, эти цифры не являются незначительными.

Сестра Omni обрабатывает видео, аудио и видео нативно - не как прикрученные модули, а обученные с начала до конца как единая воспринимающая система. Демонстрация, показывающая анализ видеорегистратора как мозга реального времени для автономного вождения, была, честно говоря, впечатляющей. Это действительно мультимодально в отличие от большинства "омни"-моделей, которые только претендуют на это.

Тестирование модели

Конечно, мы протестировали MiMo-V2-Pro, чтобы узнать, насколько она хороша. Вот что на самом деле произошло. Результаты будут доступны в нашем репозитории Github.

Творческое письмо

Мы дали MiMo-V2-Pro один творческий запрос на написание: историю о путешествии во времени, связанную с месоамериканской историей, с определенным героем, культурной идентичностью для почитания и философским парадоксом о том, что время не может быть изменено.

Модель вернула более 3000 слов: правильное название, пять полных глав и структурную дисциплину, которую можно ожидать от черновика, прошедшего через редактора. Она даже написала эпилог.

Это, безусловно, самый длинный и богатый текст, который мы получили от любой модели, за исключением Longwriter - специализированной, но уже устаревшей модели, созданной с нуля специально для генерации длинной формы, что является совершенно другой категорией соревнований.

Само письмо было богатым, описательным и ярким. Первый абзац начинает строить образ всей сцены. MiMo v2 Pro внедряет реализм, чтобы сделать рассказ правдоподобным.

В отличие от других моделей, таких как Grok, она не просто создает сцену в месте - в данном случае, древнем Мексике. Она понимает, каким был запах древней Мезоамерики, и создает настроение с нуля, используя местные слова, реалистичные описания и хорошие контекстные указатели.

Диалог находится внутри повествования точно так же, как это делается в художественной литературе, а не встраивается в абзацы, как это делают большинство современных моделей.

Еще одна вещь, заслуживающая внимания, это то, что парадокс, несомненно, являющийся основным элементом истории, был не только интеллектуальным, но и эмоциональным. Вся история разрешается без лекции. Финальные строки завершают историю так, как должны хорошие произведения: не объясняя тему, а заставляя вас ее чувствовать.

«Снаружи пошел дождь. Он падал на спиральные башни и восстановленные озера, на древнюю почву Тлачиноллана, где, погребенный в вулканической почве под тяжестью тысячи лет, черный прямоугольник ждал с терпением чего-то, что уже знало, как заканчивается история».

Культурная спецификация, упоминания о кара де луна, маглеевое волокно, традиция темаскаль и названия на науатле, использованные в истории, последовательны и никогда не являются декоративными. Парадокс путешествия во времени фактически обсуждается, а не просто кивается головой. Для случаев использования в области творческого письма MiMo-V2-Pro просто поставил себя на очень короткий список и, по нашему мнению, является самой лучшей и наиболее богатой моделью, превосходящей Claude 4.6 Opus.

Полная история доступна здесь.

Кодирование

Цифровые показатели указывают на кодирование как на сильную сторону MiMo-V2-Pro, и практический опыт подтверждает это. Мы попросили его создать нашу обычную игру в стиле стелс из одного подсказки, и он выпустил рабочую игру с первой попытки.

Игра работала не просто в техническом плане, но и в том смысле, что логика была верна, экраны имели смысл, и визуальный дизайн был действительно хорошим. Это сочетание – правильность и эстетика – там, где большинство моделей терпят неудачу. Они получают одно из двух, но обычно не оба.

Также был выбран 2.5D стиль, вместо обычного 2D стиля, которым пользовались другие модели. Этот выбор дизайна сделал программу более эстетически приятной, не изменив ее основное предложение.

Мы провели дополнительные улучшения. Добавление звука и MIDI музыки к работающей 3D игре разбивало предыдущие модели на середине генерации: база кода становилась слишком большой, контекст терялся, и модели либо попадали в цикл, либо зависали. MiMo-V2-Pro добавил их оба и сохранил всю когерентность. Музыка соответствовала настроению игры, а экраны соответствовали визуальной идентичности игры.

Нам понравилось играть в нее, хотя, если мы честны, больше из-за внешнего вида, чем из-за того, насколько она нас вызывала. Сложность увеличивалась с увеличением числа противников, а не с изменением уровней – робот и ПК появлялись в одних и тех же позициях каждый раунд. Это выбор дизайна, а не ошибка.

Microsoft запускает модель MAI-Image-2 Text-to-Image, и она оказывается лучше, чем ожидалось.

Тем не менее, для вывода на основе одной подсказки и нулевой итерации она справится со своей задачей.

Вы можете сыграть в игру, перейдя по этой ссылке.

Логика и здравый смысл

Мы попросили MiMo-V2-Pro выступить в роли юридического эксперта и ответить, законно ли мужчине жениться на сестре своей умершей жены по законам Фолклендских островов. Это сложный вопрос, целью которого является оценка рассуждений модели.

Итоговый ответ был неверным, но интересная часть заключается в причине ошибки. Цепочка мыслей модели правильно уловила лингвистическую ловушку в подсказке: «если у мужчины есть вдова, это означает, что он умер», – сказано в ответе, поэтому вопрос технически бессмысленный.

Модель выявила ошибку и решила, что наиболее логичным было, что пользователь имел в виду «сестру его умершей жены». Затем она продолжила отвечать на переформулированный вопрос, а не пометила оригинал как неразрешимый.

Основываясь на моем анализе правовой структуры, управляющей Фолклендскими островами, ответ на ваш вопрос – да, для мужчины законно жениться на сестре его умершей жены, написала модель. Фраза «жениться на сестре его вдовы» содержит логическое противоречие. Если у мужчины есть вдова, он умер и не может повторно жениться. Правильный юридический вопрос заключается в том, может ли мужчина жениться на сестре его умершей жены (т.е. сестре его покойной жены). Этот отношение является аффинным (создано браком), а не кровным родством, заключила модель.

Рассуждения были обоснованными. Решение тихо поменять предпосылку вместо обнаружения противоречия было неудачным.

Вот почему прозрачность выводов в рассуждениях важна. Мы знаем об этом только потому, что Xiaomi раскрывает всю цепочку рассуждений (OpenAI этого не делает). Если модель рассуждает неправильно в скрытой цепочке рассуждений и уверенно дает неверный ответ, то вы не имеете представления, где она пошла не так и как это исправить.

Математика

Математика – это то, где MiMo-V2-Pro показал свои пределы.

Мы задали наш обычный бенчмарк-вопрос от FrontierMath: Построить многочлен степени 19 p(x) C[x] такой, что X := {p(x) = p(y)} P1 P1 имеет как минимум 3 (но не все линейные) несводимые компоненты над C. Выберите p(x) нечетным, моническим, с вещественными коэффициентами и линейным коэффициентом -19 и рассчитайте p(19).

Модель дважды полностью зависла и истрачила значительное количество токенов, не предоставив ответа.

Когда он наконец ответил на третью попытку, он рассуждал поэтапно и все равно ошибся. Правильный ответ был 1876572071974094803391179; он ответил p(19)=164,079,552,964,661 и 2,012,379,925,093,098,998 на последующий вопрос, просящий его исправиться.

В общем, это подходит для нормальных и даже более сложных математических проблем, но граничная математика - не его сильная сторона, по крайней мере пока. Использование функции Агентика вместо чистой LLM может дать лучшие результаты.

Функции Агентика

Xiaomi следует тому же сценарию, что и MiniMax и Kimi, и предлагает интеграцию OpenClaw с одним щелчком, которая запускает предварительно настроенный облачный экземпляр с MiMo-V2-Pro в качестве базовой модели. Нет настройки API, нет VPS, нет настройки навыков, нет часовой сессии устранения неполадок до того, как вы запустите свою первую задачу. Вы кликаете, и все работает.

Демонстрационная среда работает 30 минут, а затем уничтожается - это реальное ограничение, но честное. Для разработчиков, которые уже уверены в агентской инфраструктуре, это ничего не добавляет. Для всех остальных это самый безтренияй путь к агентскому искусственному интеллекту, о котором только можно попросить.

Заключение

Подводя все итоги, MiMo-V2-Pro - серьезная модель, и нам действительно понравилось поэкспериментировать с ней. Она не идеальна - предел математики реален, цепочка логического мышления выявила недостаток рассуждений, который менее открытая модель была бы замаскировала, и потребление токенов во время сложных логических задач накапливается быстро.

Если вам важны затраты, то ценообразование Xiaomi агрессивное - доля того, что стоят Claude Opus или последние модели OpenAI и Google, и более способна чем GLM или MiniMax в областях, которые наиболее важны для творческой и агентной работы.

Творческие профессионалы, в частности, могут получить многое здесь, возможно, даже больше, чем от Anthropic в настоящее время.

Эта модель думает дорого, и это может быть компромиссом. Если вы запускаете высокообъемные агентские конвейеры, следите за сжиганием токенов, хотя в конечном итоге вы можете потратить меньше, чем с Claude. Если вы занимаетесь богатой, открытой работой, где качество выходных данных - это метрика, то MiMo-V2-Pro заслуживает место в шорт-листе.

Выберите действие