Physical Intelligence, горячий стартап по робототехнике, утверждает, что его новый роботизированный мозг способен выполнять задачи, которые ему никогда не учили

Physical Intelligence, двухлетний стартап по робототехнике с штаб-квартирой в Сан-Франциско, который тихо стал одной из самых внимательно изучаемых компаний в области искусственного интеллекта в заливе, опубликовал новые исследования в четверг, показывающие, что его последняя модель может направлять роботов выполнять задачи, на которых они никогда явно не обучались способность, которую сами исследователи компании признают, что их удивила.

Новая модель, названная 0.7, представляет собой то, что компания описывает как ранний, но значимый шаг к долгожданной цели общего роботизированного мозга: такого, который может быть направлен на незнакомую задачу, проведенный через нее простым языком и действительно справиться с ней. Если результаты выдержат проверку, они предполагают, что робототехнический искусственный интеллект приближается к точке перегиба, аналогичной тому, что область видела с большими языковыми моделями, где возможности начинают увеличиваться способами, превышающими то, что подлежит прогнозированию на основе исходных данных.

Но сперва: основное утверждение в статье это композиционная обобщенность способность комбинировать навыки, изученные в различных контекстах, для решения проблем, с которыми модель никогда не сталкивалась. До сих пор стандартным подходом к обучению роботов было в основном механическое запоминание собрать данные по конкретной задаче, обучить специализированную модель на этих данных, а затем повторить для каждой новой задачи. 0.7, по заявлению компании Physical Intelligence, нарушает этот шаблон.

Как только модель пересекает тот порог, где она переходит от выполнения только тех задач, для которых были собраны данные, к тому, чтобы на самом деле перерабатывать вещи новыми способами, говорит Сергей Левин, соучредитель Physical Intelligence и профессор Университета Калифорнии в Беркли, сосредоточенный на искусственном интеллекте для роботов, возможности возрастают более чем линейно с объемом данных. Это более благоприятное свойство масштабирования, которое мы видели в других областях, таких как язык и зрение.

Самым поразительным демонстрационным примером статьи является воздушный жаровня, с которым модель фактически никогда не сталкивалась в процессе обучения. Когда исследовательская группа провела расследование, они нашли всего два соответствующих эпизода во всем наборе данных для обучения: один, где другой робот просто закрыл воздушный жаровня, и один из открытого исходного набора данных, где еще один робот поставил пластиковую бутылку внутрь одного по указаниям кого-то. Модель каким-то образом синтезировала эти фрагменты, а также более широкие предварительные данные из сети, в функциональное понимание того, как работает это устройство.

Очень сложно отследить, откуда берется знание, или где оно будет успешным или неудачным, говорит Ашвин Балакришна, научный сотрудник в Physical Intelligence и аспирант компьютерных наук Стэнфордского университета. Тем не менее, без какого-либо обучения, модель попыталась использовать устройство для приготовления сладкого картофеля. С пошаговыми устными инструкциями в сущности, человек проводит робота через задачу так, как он бы объяснил что-то новому сотруднику она успешно выполнила.

Эта возможность обучения важна, потому что она предполагает, что роботы могут быть задействованы в новых средах и улучшены в реальном времени без дополнительного сбора данных или повторного обучения модели.

Так что все это означает? Исследователи не скрывают ограничения модели и внимательны, чтобы не опережать события. По крайней мере в одном случае они указывают пальцем именно на свою собственную команду.

Иногда режим отказа не зависит от робота или модели, говорит Балакришна. Это на нас. Неудача в инженерии запросов. Он описывает эксперимент с воздушным жаровня, который на ранней стадии дал успех на уровне 5%. После того как примерно полчаса было уделено улучшению того, как задача была объяснена модели, успех вырос до 95%, говорит он.

<span class="wp-block-image__credits"><strong>Источник изображения:</strong>Physical Intelligence</span> — **Источник изображения:**Physical Intelligence

Модель также еще не способна выполнять сложные многоэтапные задачи автономно с одной высокоуровневой команды. Вы не можете сказать ей: Эй, иди, приготовь мне тост, говорит Левин. Но если вы проведете ее через для тостера, откройте эту часть, нажмите эту кнопку, сделайте это тогда она действительно работает довольно хорошо.

Команда также признала, что стандартизированные показатели для роботов на самом деле не существуют, что делает внешнюю проверку их утверждений затруднительной. Вместо этого компания сравнила 0.7 с ее собственными предыдущими специализированными моделями специально созданными системами, обученными на индивидуальных задачах и обнаружила, что обобщенная модель соответствует их производительности в широком диапазоне сложных работ, включая приготовление кофе, складывание белья и сборку коробок.

Что, возможно, наиболее заметно в исследовании если верить исследователям это не какая-то отдельная демонстрация, а степень, на которую результаты удивили самих авторов, людей, чья работа заключается в знании того, что содержится в обучающих данных и, следовательно, что модель должна и не должна быть способна делать.

Мой опыт всегда заключался в том, что когда я глубоко знаю, что содержится в данных, я могу в принципе только догадываться, что сможет сделать модель, говорит Балакришна. Меня редко удивляют. Но последние несколько месяцев были первым разом, когда я действительно удивлен. Я просто купил случайно набор шестеренок и спросил у робота: Эй, можешь повернуть эту шестеренку? И это сработало.

Левин вспоминает момент, когда исследователи впервые столкнулись с GPT-2, создающим историю о единорогах в Андамах. Откуда черт возьми он узнал о единорогах в Перу? говорит он. Это такое странное сочетание. И я думаю, что увидеть это в робототехнике действительно особенно.

Критики, естественно, указывают на некоторую некомфортную асимметрию здесь: Языковые модели имели весь интернет для обучения. Роботы нет, и никакое количество хитрых подсказок полностью не закрывает эту разницу. Но когда его спрашивают, где он ожидает скептицизм, Левин указывает в совершенно другом направлении.

Критика, которую всегда можно выдвинуть в адрес любой демонстрации обобщения роботов, немного скучновата, говорит он. Робот не делает сальто назад. Он возражает против такой постановки вопроса, утверждая, что различие между впечатляющей демонстрацией робота и роботизированной системой, которая действительно обобщает, именно в этом. Обобщение, предполагает он, всегда будет выглядеть менее драматично, чем тщательно организованный трюк но это намного более полезно.

Сама статья использует осторожный язык оценки на протяжении всего, описывая 0.7 как показывающую ранние признаки обобщения и начальные демонстрации новых возможностей. Это исследовательские результаты, а не развернутый продукт, и Physical Intelligence с самого начала была осторожна относительно коммерческих сроков.

На прямой вопрос, когда система на основе этих результатов может быть готова к внедрению в реальный мир, Левин отказывается делать предположения. Я думаю, есть серьезные причины для оптимизма, и, конечно, она развивается быстрее, чем я ожидал пару лет назад, говорит он. Но мне очень трудно ответить на этот вопрос.

Physical Intelligence привлекла более 1 миллиарда долларов и недавно была оценена в 5,6 миллиарда долларов. Значительная часть энтузиазма инвесторов вокруг компании связана с Лачи Грумом, соучредителем, который провел годы как один из самых уважаемых ангельских инвесторов в Силиконовой долине поддерживая Figma, Notion и Ramp, среди других прежде чем решил, что Physical Intelligence это компания, которую он искал. Это происхождение помогло стартапу привлечь серьезные институциональные средства, даже не предлагая инвесторам временную линию коммерциализации.

Говорят, что компания сейчас находится в переговорах о новом раунде, который почти удвоит эту цифру до 11 миллиардов долларов. Команда отказалась комментировать.

Выберите действие

Physical Intelligence, горячий стартап по робототехнике, утверждает, что его новый роботизированный мозг способен выполнять задачи, которые ему никогда не учили

Комментарии