OpenAI делает крупную ставку на аудио ИИ, и это не просто улучшение звучания ChatGPT. Согласно новым сообщениям от The Information, компания объединила несколько инженерных, продуктовых и исследовательских команд за последние два месяца для пересмотра своих моделей аудио, все это в преддверии запуска персонального устройства с акцентом на аудио, которое ожидается примерно через год.
Этот шаг отражает направление всей технологической индустрии в будущее, где экраны становятся фоном, а аудио занимает центральное место. Умные колонки уже сделали голосовые помощники привычным явлением более чем в трети домов в США. Meta только что запустила функцию для своих умных очков Ray-Ban, использующую массив из пяти микрофонов, чтобы помочь вам слышать разговоры в шумной комнате фактически превращая ваше лицо в устройство направленного прослушивания. Между тем, Google начал экспериментировать в июне с функцией аудиосводок, которая преобразует результаты поиска в разговорные резюме. А Tesla интегрирует Grok и другие LLM в свои автомобили, создавая голосовых ассистентов, которые могут управлять всем, от навигации до климат-контроля посредством естественного диалога.
Это не просто крупные технологические компании делают эту ставку. Группа стартапов с аналогичным убеждением, хотя и с разной степенью успеха, появилась на сцене. Создатели Humane AI Pin потратили сотни миллионов долларов, прежде чем их носимое устройство без экрана стало предупреждающим примером. Брелок Friend AI, который записывает вашу жизнь и предлагает дружеское общение, вызвал опасения по поводу конфиденциальности и экзистенциального страха одновременно. Теперь как минимум две компании, включая Sandbar и одну, возглавляемую Эриком Мигиковски из Pebble, строят AI кольца, ожидаемые к запуску в 2026 году, позволяющие пользователям буквально говорить руками.
Форма может различаться, но тезис одинаков: аудио становится интерфейсом будущего. Каждое пространство ваш дом, ваша машина, даже ваше лицо становится интерфейсом.
Новая модель аудио от OpenAI, запланированная на ранний 2026 год, предположительно будет звучать более естественно, справляться с прерываниями так же, как настоящий собеседник, и даже говорить, пока вы говорите, что сегодня недоступно для современных моделей. Компания также якобы видит семейство устройств, возможно, включающее очки или умные колонки без экранов, действующие менее как инструменты и больше как компаньоны.
Как отмечает The Information, бывший главный дизайнер Apple Джони Айв, присоединившийся к усилиям OpenAI по аппаратному обеспечению через приобретение фирмы Ive компанией на сумму $6,5 млрд в мае, сделал снижение зависимости от устройств приоритетом, видя дизайн с акцентом на аудио как возможность исправить ошибки прошлых потребительских гаджетов.



