Синтез речи с переменными

В телефонном канале боты поддерживают два основных способа формирования ответов — синтез речи и воспроизведение аудио:

Способ	Преимущества	Недостатки
Синтез речи (TTS, Text-to-Speech)	Можно озвучивать произвольный текст и не пользоваться услугами дикторов. Текст озвучивается автоматически, и нет дополнительных затрат, если нужно отредактировать реплики.	Озвучка происходит роботизированным голосом. Сложно добиться хорошего звучания реплики, эмоций и интонаций.
Воспроизведение аудио	Речь диктора живая и динамичная, что позволяет качественнее выстраивать диалог с клиентами.	Технология не подходит, если нужно, чтобы бот озвучивал в диалоге переменные значения, зависящие от контекста: например, имя клиента или размер страховой суммы. В этом случае необходимо сегментировать аудио на части и вставлять в них синтезированные фрагменты, что негативно сказывается на качестве воспроизведения.

Вы также можете использовать синтез речи с переменными. Синтез речи с переменными — это технология, которая позволяет заменить несколько слов в аудиозаписи, сделанной диктором.

Замену слов (переменных) осуществляет специальная модель синтеза речи, которая обучена на аудиозаписях, сделанных тем же диктором. Такая модель способна «подстраиваться» под интонации диктора, благодаря чему переменные звучат естественно и бесшовно вклеиваются в аудиозапись.

Преимущества

Основные преимущества использования синтеза речи с переменными:

Вам не нужно склеивать аудиозаписи. Реплики с переменными автоматически озвучиваются голосом диктора.
Озвучка переменных не режет слух, нероботизированная. Это повышает удобство использования бота и увеличивает конверсию.
Абонентам комфортнее разговаривать с ботом. Это снижает процент перевода на оператора и экономит время ваших сотрудников.
Можно озвучивать любые переменные, даже те, значения которых неизвестны на момент звонка.

Провайдеры

В JAICP синтез речи с переменными доступен на базе технологий:

Синтез речи с переменными

Преимущества​

Провайдеры​

Преимущества

Провайдеры