Современные модели искусственного интеллекта стали заметно лучше работать с редкими и малоизвестными языками. Об этом сообщает TechRadar со ссылкой на исследование компании RWS.
Отмечается, что новые системы способны показывать высокое качество даже при ограниченном объёме обучающих данных. Например, модель Google Gemini Pro получила оценку выше 4,5 из 5 баллов при работе с языком киньяруанда, распространённым в Руанде, Уганде и ДР Конго.
Эксперты объясняют этот прогресс использованием общих закономерностей между языками. Также важную роль играют улучшения в токенизации — процессе, при котором текст разбивается на части для обработки.
В ходе исследования выявлен и так называемый «дрейф бенчмарка» — ситуация, когда новые версии моделей могут показывать результаты хуже или лучше предыдущих в отдельных задачах. Например, последняя версия одной из моделей OpenAI уступила более ранней в генерации текста.
Специалисты отмечают, что разработчики всё чаще уделяют внимание многоязычности. При этом даже высокие оценки не всегда отражают реальный уровень владения языком, а поддержка редких языков пока не стала приоритетом для всех систем.