Большие языковые модели ведущих технологических компаний можно заставить почти дословно воспроизводить защищенные авторским правом произведения. Это ставит под сомнение утверждения разработчиков о хранении данных и защите авторских прав.
Специалисты Стэнфордского и Йельского университетов провели эксперимент, в ходе которого алгоритм Gemini 2.5 с высокой точностью воспроизвел 76,8 % текста первой книги о Гарри Поттере, а модель Grok 3 — 70,3 %. Исследователям также удалось извлечь практически весь контент из Claude 3.7 Sonnet, используя запросы для обхода защитных механизмов.
«Появляется всё больше доказательств того, что запоминание — более серьёзная проблема, чем считалось прежде», — прокомментировал ситуацию профессор прикладной математики и компьютерных наук Имперского колледжа Лондона Ив-Александр де Монжуа.
Эксперты в области права отмечают, что подобные факты подрывают аргументацию компаний о «добросовестном использовании» данных. Партнёр по интеллектуальной собственности юридической фирмы Pinsent Masons Серис Вин Дэвис подчеркнула: «Результаты исследования могут создать проблему для тех, кто утверждает, что ИИ-модель не хранит и не воспроизводит какие-либо защищаемые авторским правом произведения».
Представители Anthropic заявили, что примененные методы взлома не используются обычными пользователями, а модели осваивают лишь закономерности между словами.
Компании xAI, OpenAI и Google текущие результаты тестов не прокомментировали.