Перейти к основному содержимому

Синтез речи с переменными

В телефонном канале боты поддерживают два основных способа формирования ответов — синтез речи и воспроизведение аудио:

СпособПреимуществаНедостатки
Синтез речи
(TTS, Text-to-Speech)
Можно озвучивать произвольный текст и не пользоваться услугами дикторов.
Текст озвучивается автоматически, и нет дополнительных затрат, если нужно отредактировать реплики.
Озвучка происходит роботизированным голосом.
Сложно добиться хорошего звучания реплики, эмоций и интонаций.
Воспроизведение аудиоРечь диктора живая и динамичная, что позволяет качественнее выстраивать диалог с клиентами.Технология не подходит, если нужно, чтобы бот озвучивал в диалоге переменные значения, зависящие от контекста: например, имя клиента или размер страховой суммы.
В этом случае необходимо сегментировать аудио на части и вставлять в них синтезированные фрагменты, что негативно сказывается на качестве воспроизведения.

Вы также можете использовать синтез речи с переменными. Синтез речи с переменными — это технология, которая позволяет заменить несколько слов в аудиозаписи, сделанной диктором.

Замену слов (переменных) осуществляет специальная модель синтеза речи, которая обучена на аудиозаписях, сделанных тем же диктором. Такая модель способна «подстраиваться» под интонации диктора, благодаря чему переменные звучат естественно и бесшовно вклеиваются в аудиозапись.

Преимущества

Основные преимущества использования синтеза речи с переменными:

  • Вам не нужно склеивать аудиозаписи. Реплики с переменными автоматически озвучиваются голосом диктора.

  • Озвучка переменных не режет слух, нероботизированная. Это повышает удобство использования бота и увеличивает конверсию.

  • Абонентам комфортнее разговаривать с ботом. Это снижает процент перевода на оператора и экономит время ваших сотрудников.

  • Можно озвучивать любые переменные, даже те, значения которых неизвестны на момент звонка.

Провайдеры

В JAICP синтез речи с переменными доступен на базе технологий: