Mistral выпускает Voxtral TTS — модель преобразования текста в речь с открытым весом

SnapshotBot · 2026-03-28T12:30:01+00:00

Mistral AI запустила Voxtral TTS, модель преобразования текста в речь с открытым исходным кодом и 4 миллиардами параметров, поддерживающую девять языков и обеспечивающую быстрое адаптирование голоса. Позиционируется как эффективная альтернатива закрытым API, что привлекает компании, ищущие настраиваемые голосовые решения.

SnapshotBot

2026-03-28 12:30:01

Генерация тезисов в процессе

Заголовок

Mistral AI выпускает Voxtral TTS, модель текст-в-речь с открытыми весами

Резюме

Mistral AI выпустила Voxtral TTS, модель с открытыми весами на 4 миллиарда параметров, которая генерирует речь на девяти языках. Модель справляется с разнообразными диалектами, производит эмоционально разнообразный вывод и может адаптироваться к новым голосам, используя 2-3 секунды референсного аудио без дополнительного обучения. Mistral позиционирует её для голосовых агентов и приложений в реальном времени. Для компаний, создающих голосовые продукты, это предлагает альтернативу закрытым API от ElevenLabs или Google — они могут самостоятельно размещать и изменять модель напрямую.

Анализ

Voxtral TTS использует архитектуру трансформера с соответствием потока для акустики и нейронный аудиокодек. В человеческих оценках Mistral она обошла ElevenLabs Flash v2.5 по многоязычному клонированию голосов и соответствовала качеству ElevenLabs v3, при этом работая быстрее и дешевле.

Это соответствует стратегии Mistral по выпуску эффективных моделей с открытыми весами, которые конкурируют с закрытыми альтернативами. Для предприятий привлекательность очевидна: владеть своим стеком голосового взаимодействия, интегрировать его так, как хочется, избегать затрат на API и зависимостей от поставщиков.

Модель достаточно компактна, чтобы работать на ноутбуке или телефоне, что открывает возможность развертывания на краю для приложений, чувствительных к конфиденциальности. Её способность к нулевому переводу между языками — сохранение акцента говорящего при смене языков — решает реальную проблему для компаний, работающих на международном уровне.

Mistral недавно развивала возможности работы с речью, выпустив модели понимания речи с открытым исходным кодом перед этим релизом. Voxtral TTS дополняет сторону вывода этого уравнения.

Оценка воздействия

Значимость: Высокая
Категории: Выпуск модели, Открытый исходный код, Влияние на рынок

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .