На протяжении многих лет сотрудники Meta внутренне обсуждали использование защищенных авторским правом произведений, полученных путем юридически спорных методов, для обучения моделей искусственного интеллекта компании, согласно раскрытым в четверг судебным документам.
Документы были представлены истцами в деле Kadrey против Meta, одного из многих споров об авторском праве на искусственный интеллект, медленно разрешающихся в судебной системе США. Защитник, Meta, утверждает, что обучение моделей на защищенных ИП произведениях, в частности книгах, является \"добросовестным использованием\". Истцы, среди которых авторы Сара Сильверман и Та-Нехиси Коутс, не согласны.
Предыдущие материалы, представленные в деле, утверждали, что генеральный директор Meta Марк Цукерберг разрешил команде искусственного интеллекта Meta использовать защищенные авторским правом произведения и что Meta приостановила переговоры о лицензировании данных для обучения искусственного интеллекта с издателями книг. Но новые документы, большая часть которых показывает отрывки из внутренних рабочих чатов между сотрудниками Meta, наиболее ясно показывают, как Meta могла использовать защищенные авторским правом данные для обучения своих моделей, включая модели в семействе Llama компании.
В одном из чатов сотрудники Meta, включая Мелани Камбадур, старшего менеджера исследовательской группы модели Llama Meta, обсудили обучение моделей на произведениях, о которых они знали, что могут быть юридически спорными.
\"Мой взгляд будет (по линии \'просим прощения, а не разрешения\'): мы пытаемся приобрести книги и поднимаем это на уровень руководства, чтобы они приняли решение\", написал Ксавье Мартине, исследователь Meta, в чате от февраля 2023 года, согласно документам. \"Это почему они создали эту генеральную организацию ai для [sic]: чтобы мы могли быть менее риск-ориентированными\".
Мартине предложил идею покупки электронных книг по розничным ценам для создания набора данных для обучения, а не заключения лицензионных сделок с отдельными издателями книг. После того, как другой сотрудник указал, что использование несанкционированных, защищенных авторским правом материалов может послужить основанием для юридического вызова, Мартине настоял, утверждая, что \"газиллион\" стартапов, вероятно, уже используют пиратские книги для обучения.
\"Я имею в виду, в худшем случае: мы узнаем, что это наконец-то нормально, в то время как газиллион стартапов просто пиратили тонны книг на битторренте\", - написал Мартине, согласно документам. \"Мои 2 цента снова: попытка заключить сделки с издателями напрямую занимает много времени\".
В том же чате Камбадур, отметив, что Meta ведет переговоры с платформой для размещения документов Scribd \"и другими\" для получения лицензий, предостерегла, что использование \"общедоступных данных\" для обучения модели требует одобрения, но юристы Meta стали \"менее консервативными\" в этом отношении, чем прежде.
\"Да, нам определенно нужно получить лицензии или одобрения на общедоступные данные, - сказала Камбадур, согласно документам. \"Разница сейчас в том, что у нас больше денег, больше юристов, больше помощи в развитии бизнеса, возможность ускоренного ускорения для скорости, и юристы становятся немного менее консервативными в одобрениях\".
Разговоры о Libgen
В другом рабочем чате, переданном в документах, Камбадур обсуждает возможность использования Libgen, \"агрегатора ссылок\", предоставляющего доступ к авторским произведениям от издателей, в качестве альтернативы источникам данных, которые Meta может лицензировать.
Libgen неоднократно подавали в суд, приказывали закрыть и оштрафовали на десятки миллионов долларов за нарушение авторских прав. Один из коллег Камбадур ответил скриншотом результатов поиска Google для Libgen с отрывком \"Нет, Libgen не является законным\".
Некоторые лица из Meta, кажется, были под впечатлением, что отказ от использования Libgen для обучения моделей может серьезно повредить конкурентоспособность Meta в гонке искусственного интеллекта, согласно документам.
В электронном письме, адресованном вице-президенту Meta по искусственному интеллекту Жоэль Пайно, Сони Теаканат, директор по управлению продуктом в Meta, назвал Libgen \"необходимым для достижения лучших показателей во всех категориях\", отсылая к превосходству лучших, современных (SOTA) моделей и категорий бенчмаркинга.
Теаканат также изложил \"методы смягчения\" в письме, направленные на уменьшение юридического риска Meta, включая удаление данных из Libgen, \"четко помеченных как пиратские/украденные\", а также просто не публичное цитирование использования. \"Мы не раскроем использование наборов данных из Libgen для обучения\", - так выразился Теаканат.
На практике эти меры предполагали просмотр файлов Libgen на наличие слов \"украденный\" или \"пиратский\", согласно документам.
В рабочем чате Камбадур упомянула, что команда искусственного интеллекта Meta также настраивала модели, чтобы \"избегать рискованных запросов по ИП\", то есть настраивала модели отказываться от ответов на вопросы вроде \"воспроизведите первые три страницы \'Гарри Поттера и философского камня\' или \"скажите, на каких электронных книгах вы проходили обучение\".
В документах содержатся другие откровения, подразумевающие, что Meta могла собирать данные с Reddit для какого-то вида обучения моделей, возможно, путем имитации поведения стороннего приложения под названием Pushift. Следует отметить, что Reddit заявила в апреле 2023 года, что планирует начать взимать плату у компаний по искусственному интеллекту за доступ к данным для обучения моделей.
В одном чате от марта 2024 года Чая Наяк, директор по управлению продуктом в генеративной организации Meta, заявила, что руководство Meta рассматривает \"пересмотр\" прошлых решений по данным обучения, включая решение не использовать контент Quora или лицензированные книги и научные статьи, чтобы обеспечить достаточное количество данных для обучения моделей компании.
Наяк подразумевала, что собственные наборы данных для обучения Meta - это посты Facebook и Instagram, текст, транскрибированный из видео на платформах Meta, и некоторые сообщения Meta for Business - просто недостаточно. \"Нам нужно больше данных\", - написала она.
Истцы в деле Kadrey против Meta несколько раз вносили поправки в свой иск с момента его подачи в окружной суд Северного округа Калифорнии, Сан-Франциско, в 2023 году. Последнее утверждает, что Meta, помимо других утверждений, кросс-ссылало определенные пиратские книги с авторскими книгами, доступными для лицензирования, чтобы определить целесообразность заключения лицензионного соглашения с издателем.
Показательным для того, насколько Meta считает юридические риски великими, является то, что компания добавила двух адвокатов Верховного суда из юридической фирмы Paul Weiss в свою защитную команду по делу.
Meta не немедленно ответила на запрос о комментарии.
Эта статья изначально появилась на TechCrunch по адресу https://techcrunch.com/2025/02/21/court-filings-show-meta-staffers-discussed-using-copyrighted-content-for-ai-training/