Нейросеть MusicLM от Google генерирует музыку по текстовому описанию

Исследователи из Google опубликовали документ, в котором говорится, что они создали модель нейросети, способную генерировать высококачественную музыку из текстовых описаний.

Она называется MusicLM, и, по словам специалиста по искусственному интеллекту (ИИ) Кеунву Чойта (Keunwoo Choithe), общая структура этой модели основана на других моделях, объединяющих MuLan + AudioLM и MuLan + w2b-Bert + SoundStream.

Чойт немного объяснил, как работает каждая из этих моделей:

  • MuLan – совместная модель встраивания текста и музыки с контрастным обучением и 44 миллионами пар описания музыки, аудио и текста с YouTube.
  • AudioLM – использует промежуточный уровень из предварительно обученной языка модели для семантической информации.
  • w2v-BERT – это двунаправленное кодирующее представление Transformers, инструмент глубокого обучения, первоначально использовавшийся для речи, на этот раз для аудио.
  • SoundStream – это нейронный аудиокодек.

Технологический гигант Google объединил всё это для создания музыки из текста.

Для сравнения, интересно представить о том, что смог бы сделать ChatGPT. Сложные экзамены, анализ сложного кода, написание законодательства для Конгресса и даже создание стихов, музыкальных текстов и т. д. В этом случае MusicLM выходит за рамки этого чат-бота, и превращает замысел, историю или картину в песню.

MusicLM от Google предоставляет людям возможность поэкспериментировать с более чем 5000 пар музыки и текста. К сожалению, компания не планирует выпускать эту модель для широкой публики.

Добавлено: 28-01-2023, 17:02
0
233
Поделиться:

Подписывайтесь на «Umteh.com» в Новостях и Telegram.

Новости партнеров

Новости СМИ2

Похожие публикации


Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Наверх