Новая нейросеть генерирует аудио по текстовому описанию

Stability AI, известная в основном по нейросетям для генерации картинок (Stable Diffusion, Stable Doodle и не только), выпустила новую нейросеть Stable Audio.

Как пишут зарубежные СМИ, нейросеть генерирует аудиоклипы.

Всё работает примерно так же, как генераторы картинок по текстовому описанию. Пользователь указывает ключевые слова (например, “мелодичный лоу-фай хип-хоп, мелодичный, 85 BPM” или “дэт-метал с мощными гитарными риффами и быстрыми ударными”), желаемую длительность и ждёт результата.

За основу взяли ту же модель, что и в Stable Diffusion, но обучили её на музыкальных композициях вместо изображений. Всего ей скормили около 800 тысяч композиций с сайта стоковой музыки AudioSparx — или около 19 500 часов различных звуков.

Создатели отмечают, что главная особенность Stable Audio — возможность генерировать композиции заданной длины. Ранее нейросети работали только с фиксированной длительностью: если их обучали на 30-секундных аудиоклипах, они могли генерировать только 30-секундные композиции. Для возможности настроить длительность трека разработчикам пришлось изменить модель и добавить метаданные для начала и конца композиции.

Stable Audio предлагается по трём моделям. Бесплатная версия позволяет сгенерировать не более 20 композиций продолжительностью до 45 секунд в месяц. Также есть подписка Professional, которая предлагает создавать до 500 треков длительностью до 90 секунд за 12 долларов в месяц (≈1 200 рублей) и вариант Enterprise для компаний с возможностью подбора объёма генерации и цены в индивидуальном порядке. Без платной подписки использовать сгенерированную музыку в коммерческих целях нельзя.

Как и в случае с другими подобными нейросетями, Stable Audio скорее нацелена на создателей контента, чем для профессиональных музыкантов. Такие инструменты подходят для быстрого создания фоновой музыки для подкастов и видео, когда для сотрудничества с композитором нет времени или бюджета. Также она может заменить стоковые звуки — если вы хотите уникальный смех или гул толпы.

Попробовать Stable Audio можно на официальном сайте. Потребуется зарегистрироваться или войти с Google-аккаунтом. На старте возможны перебои с доступом из-за большой нагрузки на сервер.

Leave a Reply