Google научила Gemini 2.5 понимать интонации и передавать эмоций в диалогах

  • 08.06.2025 17:38
  • 1.4k+

На конференции Google I/O 2025 представлена обновлённая версия мультимодальной ИИ-модели Gemini 2.5. Теперь она умеет в режиме реального времени генерировать аудио и вести диалог с учётом эмоций. Доступ к функциям открыт для разработчиков через Google AI Studio и Vertex AI.

Gemini 2.5 Flash Preview обеспечивает реалистичное голосовое взаимодействие. Модель распознаёт эмоциональную окраску речи, может адаптировать интонацию и акцент, а также переключаться между более чем 24 языками. Она умеет подавлять фоновый шум и обращаться к внешним ресурсам, таким как «Поиск», для получения информации во время диалога.
Также улучшены функции синтеза речи (TTS). Пользователи могут управлять стилем, темпом и эмоциональной выразительностью озвучивания. Поддерживается генерация диалогов с несколькими голосами, что позволяет применять модель для создания подкастов, аудиокниг и других медиапроектов.
Для прозрачности используется технология SynthID, которая маркирует сгенерированное аудио как продукт ИИ. Новые возможности доступны во вкладках Stream и Generate Media в Google AI Studio.
Gemini 2.5 объединяет работу с текстами, изображениями, аудио и видео, расширяя потенциал интерактивных приложений, виртуальных помощников и образовательных решений.


вчера 14:31
1.2k+

Обновленный ChatGPT Search научился искать по картинкам и лучше вникать в контекст

OpenAI усовершенствовала свою поисковую систему ChatGPT Search. В новой версии появился поиск по картинкам, а также улучшено понимание контекста и запоминание длинных диалогов для сокращения повторяющихся ответов...

16.06.2025 17:31
724

 Meta обеспечит дата-центры ИИ геотермальной энергией

Meta заключила соглашение с компанией XGS Energy о поставке 150 мегаватт углеродно-нейтральной электроэнергии, произведённой с применением геотермальных технологий. Такая энергия будет использоваться для нужд дата-центров компании в Нью-Мексико, обрабатывающих данные, связанные с искусственным интеллектом...

13.06.2025 10:58
4.4k+

Нейросети в Китае на время экзаменов остались без функции распознавания изображений

Китайские компании временно отключили функции распознавания изображений в популярных чат-ботах, чтобы обеспечить честность в прохождении национального экзамена Гаокао. Он проходил в школах с 7 по 10 июня, сообщает Bloomberg...

25.05.2025 19:41
1.2k+

Google создала инструмент для проверки ИИ-контента

На конференции Google I/O 2025 компания представила SynthID Detector — специальный портал для проверки цифрового контента, созданного с помощью искусственного интеллекта. SynthID Detector позволяет определить, был ли загруженный файл создан с использованием ИИ-инструментов Google...