(Рейтер) - Компании по искусственному интеллекту, такие как OpenAI, стремятся преодолеть неожиданные задержки и вызовы в стремлении к созданию все более крупных моделей языка, разрабатывая методики обучения, которые используют более человекоподобные способы мышления алгоритмов.
Десяток ученых по искусственному интеллекту, исследователей и инвесторов сообщили Рейтер, что они считают, что эти методики, на которых основана недавно выпущенная модель o1 от OpenAI, могут изменить гонку вооружений в области искусственного интеллекта и повлиять на типы ресурсов, которых неудовлетворенно требуют компании по искусственному интеллекту, от энергии до типов чипов, в области доминируемой Nvidia.
OpenAI отказалась комментировать эту историю. После выпуска вирусного чатбота ChatGPT два года назад технологические компании, чьи оценки значительно выросли благодаря взрыву искусственного интеллекта, публично заявили, что увеличение масштаба текущих моделей путем добавления большего объема данных и вычислительной мощности последовательно приведет к улучшению моделей искусственного интеллекта.
Однако теперь некоторые из самых известных ученых по искусственному интеллекту говорят о ограничениях этой философии "чем больше, тем лучше".
Илья Суцкевер, сооснователь лабораторий по искусственному интеллекту Safe Superintelligence (SSI) и OpenAI, недавно сказал Рейтер, что результаты масштабирования предварительного обучения, этапа обучения модели искусственного интеллекта, который использует огромное количество неразмеченных данных для понимания языковых образцов и структур, застыли.
Суцкевер широко признается как ранний сторонник достижения значительных прорывов в развитии генеративного искусственного интеллекта через использование большего объема данных и вычислительной мощности в предварительном обучении, что в конечном итоге привело к созданию ChatGPT. Суцкевер покинул OpenAI ранее в этом году, чтобы основать SSI.
2010-е годы были временем масштабирования, теперь мы снова находимся в эпохе удивления и открытий. Теперь все ищут следующее, - сказал Суцкевер. Масштабирование правильного подхода имеет большее значение сейчас, чем когда-либо.
Суцкевер отказался делиться более подробной информацией о том, как его команда решает эту проблему, кроме как сказать, что SSI работает над альтернативным подходом к масштабированию предварительного обучения.
За кулисами исследователи из крупных лабораторий по искусственному интеллекту столкнулись с задержками и разочаровывающими результатами в гонке за выпуском крупной языковой модели, превосходящей модель GPT-4 от OpenAI, которая почти два года. об этом рассказали три источника, знакомые с секретной информацией.
Так называемые тренировки крупных моделей могут стоить десятки миллионов долларов за одновременный запуск сотен чипов. Из-за сложности системы есть больше вероятность отказа оборудования; исследователи могут не знать окончательной производительности моделей до конца запуска, который может занять месяцы.
Еще одной проблемой является то, что крупные языковые модели поглощают огромные объемы данных, и модели искусственного интеллекта исчерпали все легкодоступные данные в мире. Недостаток энергии также затруднил тренировочные запуски, поскольку процесс требует огромных объемов энергии.
Для преодоления этих вызовов исследователи исследуют тестовое вычисление, метод, который улучшает существующие модели искусственного интеллекта во время так называемой фазы вывода, или когда модель используется. Например, вместо того чтобы сразу выбирать один ответ, модель может генерировать и оценивать несколько вариантов в реальном времени, в конечном итоге выбирая лучший путь вперед.
Этот метод позволяет моделям выделить больше вычислительной мощности на сложные задачи, такие как математические или программные задачи или сложные операции, которые требуют человекоподобного мышления и принятия решений.
Оказалось, что заставить бота думать всего 20 секунд в партии покера дает такой же улучшающий эффект, как увеличение масштаба модели в 100 000 раз и обучение ее в 100 000 раз дольше, - сказал Ноам Браун, исследователь в OpenAI, который работал над o1, на конференции TED AI в Сан-Франциско в прошлом месяце.
OpenAI приняла этот метод в своей недавно выпущенной модели, известной как "o1", ранее известной как Q* и Strawberry, о чем впервые сообщило Рейтер в июле. Модель O1 может "думать" через проблемы многоэтапным образом, аналогичным человеческому мышлению. Это также включает использование данных и обратной связи, отобранных у докторов наук и отраслевых экспертов. Секретный ингредиент серии o1 - это еще один набор тренировок, проведенных поверх базовых моделей, таких как GPT-4, и компания планирует применять этот метод с более крупными и продвинутыми базовыми моделями.
Тем временем исследователи из других ведущих лабораторий по искусственному интеллекту, таких как Anthropic, xAI и Google DeepMind, также работают над разработкой своих собственных версий этого метода, согласно пяти источникам, знакомым с усилиями.
Мы видим много низкорастущих плодов, которые мы можем быстро собрать, чтобы улучшить эти модели очень быстро, - сказал Кевин Уил, главный продуктовый директор OpenAI на технологической конференции в октябре. К тому времени, когда люди настигнут нас, мы попытаемся быть еще на три шага впереди.
Google и xAI не ответили на запросы о комментариях, и Anthropic не дал немедленного комментария.
Эти изменения могут изменить конкурентное поле для аппаратного обеспечения искусственного интеллекта, до сих пор доминированного неудовлетворенным спросом на чипы Nvidia. Видные венчурные капиталисты, от Sequoia до Andreessen Horowitz, которые вложили миллиарды долларов в финансирование дорогостоящего развития моделей искусственного интеллекта в нескольких лабораториях по искусственному интеллекту, включая OpenAI и xAI, обращают внимание на изменения и взвешивают влияние на свои дорогостоящие ставки.
Этот сдвиг перенесет нас из мира огромных кластеров предварительного обучения к облачным вычислениям, которые распределены, облачные серверы для вывода, - сказала Соня Хуанг, партнер Sequoia Capital, Рейтер.
Спрос на чипы искусственного интеллекта Nvidia, которые являются самыми передовыми, подогрел их взлет к статусу самой ценной компании в мире, обогнав Apple в октябре. В отличие от тренировочных чипов, где Nvidia доминирует, гиганту чипов может грозить большая конкуренция на рынке вывода.
Попросив о возможных последствиях для спроса на свою продукцию, Nvidia ссылается на недавние презентации компании о важности метода, лежащего в основе модели o1. Ее генеральный директор Дженсен Хуанг говорил о растущем спросе на использование ее чипов для вывода.
"Мы теперь открыли второй закон масштабирования, и это закон масштабирования во время вывода... Все эти факторы привели к тому, что спрос на Blackwell стал невероятно высоким", - сказал Хуанг в прошлом месяце на конференции в Индии, отсылая к последнему чипу искусственного интеллекта компании.
(Сообщение Кристал Ху из Нью-Йорка и Анны Тонг из Сан-Франциско; редактирование Кеннет Ли и Клаудии Парсонс)