На недавнем выпуске подкаста "Возможно", совместно с LinkedIn сооснователем Ридом Хоффманом, генеральный директор Google DeepMind Демис Хассабис заявил, что Google планирует в конечном итоге объединить свои модели искусственного интеллекта Gemini с моделями генерации видео Veo, чтобы улучшить понимание первых о физическом мире.
"Мы всегда строили Gemini, нашу основную модель, мультимодальной с самого начала", - сказал Хассабис, - "и причина, по которой мы это сделали, [заключается в том, что] у нас есть видение этой идеи универсального цифрового помощника, помощника, который на самом деле помогает вам в реальном мире".
Индустрия искусственного интеллекта постепенно движется к "омни"-моделям, которые могут понимать и синтезировать множество форм медиа. Новейшие модели Gemini Google могут генерировать как аудио, так и изображения и текст, в то время как модель OpenAI в ChatGPT по умолчанию может нативно создавать изображения, включая, конечно же, искусство в стиле Ghibli. Amazon также объявил о планах запустить модель "любая к любой" позже в этом году.
Для этих омни-моделей требуется много обучающих данных - изображения, видео, аудио, текст и так далее. Хассабис подразумевал, что видеоданные для Veo в основном поступают из YouTube, платформы, принадлежащей Google.
"Практически, просматривая видеоролики на YouTube - много видеороликов на YouTube - [Veo 2] может понять, вы знаете, физику мира", - сказал Хассабис.
Ранее Google сообщил TechCrunch, что его модели "могут" быть обучены на "некотором" контенте YouTube в соответствии с соглашением с создателями YouTube. По сообщениям, в частности, в прошлом году Google расширил свои условия предоставления услуг частично, чтобы позволить компании использовать больше данных для обучения своих моделей искусственного интеллекта.
Эта статья изначально появилась на TechCrunch по адресу https://techcrunch.com/2025/04/10/deepmind-ceo-demis-hassabis-says-google-will-eventually-combine-its-gemini-and-veo-ai-models/