Озвучивание текстов с помощью программы Демагог

Последнее обновление страницы: 03.12.2025 09:03:54

В начале 2000-х годов мы активно занимались оцифровкой агиографических изданий и рукописей XVI–XX веков, т. е. превращали фотокопии и ксерокопии этих источников в текстовый вид. Для успешного выполнения корректорской работы в этом случае необходимы два человека: один вслух внимательно читает источник, а второй, слушая читаемое, сличает услышанное с текстовой копией.

Естественно, что возникло желание поставить эту задачу на современные рельсы, заменив одного из корректоров компьютером, заставив его читать вслух набитый текст. Нашли программу под названием «Говорилка». И оказалось, что это то, что нужно! С помощью имеющихся в ней словарей удалось заставить её произносить буквы ять, фиту и ижицу, а также знаки препинания. Например, дойдя до такой фразы:

«Се азъ раба Божія Марѳа, списа сіе рукописаніе при своемъ животѣ,»

Говорилка произносила:

«Се аз раба Божия Марфитаа запятая, списа сие рукописание при своем животйать запятая,»

Это было очень удобно. Никакой живой человек не справился бы с этой задачей со 100%-ной точностью.

Частично результаты этой работы выложены на нашем сайте.

Прошли годы, мы стали постоянно слушать аудиокниги. Однако не всё, что хотелось послушать, удалось найти в начитанном виде, некоторые книги имеются только в текстовом формате. Попытались использовать для их чтения Edge TTS. Слушать можно, и к техническому голосу привыкнуть можно, но раздражало постоянное «Александр Ай», «Наполеона Три», «Карл Ха», «Льва То́лстого», «Анны Тютчево́й»… И повлиять на это было довольно проблематично.

В конце 2024 года перед нами встала задача записать свою аудиокнигу, и мы уже вплотную занялись этим вопросом. Нашли программу Демагог («Говорилка» уже давно не поддерживается). А к ней – сборку «Демагог + Silero» от 16 декабря 2022 г. с несколькими встроенными голосами, большим набором словарей (которые можно самостоятельно править) и скриптами, автоматизирующими процесс озвучивания. Причём – что очень важно! – вся обработка текстов и генерация звуковых файлов выполняется в офлайне (в отличие от Edge TTS). В результате, во-первых, мы не привязаны к Интернету, а во-вторых – результат является предсказуемым: тот текст, который мы озвучили сегодня, будет звучать точно так же, как тот же текст, озвученный через месяц. С Интернетовским искусственным интеллектом нельзя ожидать, что завтра получишь то же самое, что получил сегодня.

Попытки записать свою аудиокнигу с использованием этого способа, однако, не увенчались успехом – об этом мы в своё время писали во ВКонтакте. Но для прослушивания книг, скачанных в текстовом формате, такой вариант очень удобен. Из имеющихся в данной сборке голосов мы остановились на голосе Kseniya. По мере того, как натыкаемся на ошибки произношения, вносим исправления в словари. Но, конечно, не каждое ошибочно произнесённое слово – ибо тогда можно на это жизнь положить, а только в том случае, когда это слово ещё не раз встретится. Надо сказать, что ошибки не так уж раздражают, поскольку понимаешь, что это компьютерное чтение, и относишься к нему снисходительно. А некоторые ошибки вызывали даже у нас положительные эмоции, например: «Иван Сергеевич узнал от Колбаси́на»…

В качестве иллюстрации выкладываем пример озвучивания 1-го абзаца книги Анри Труайя «Лев Толстой» этой сборкой голосом Kseniya со скоростью воспроизведения 0.9 (так с нашей точки зрения легче воспринимается содержание книги):


Ссылки для скачивания сборки «Демагог + Silero» даны в этом сообщении. Сборка полностью портабельная и никаких следов в реестре не оставляет. Сразу после скачивания и распаковки можно запускать программу Demagog.exe и приступать к работе.

И к этой сборке мы предлагаем обновление, которое постоянно поддерживаем в текущем состоянии. Его нужно распаковать поверх соответствующих файлов из основной сборки.

Скачать текущее обновление к сборке «Демагог + Silero»

Ниже перечислены особенности этого обновления.

1. Добавлен присланный по личной переписке скрипт «_Tests_\ОЗВУЧИТЬ ВЫДЕЛЕННЫЙ ФРАГМЕНТ СО СЛОВАРЯМИ.lua».

2. Обновлённый файл «profiles\defs.lst»: добавлено назначение горячей клавиши «Shift+Ctrl+6» на вышеупомянутый скрипт.

3. Новый файл «profiles\search.lst»: шаблон для замены в исходном тексте фразы «Примечание. NТекст» на «Примечание N. Текст».

4. Словари dic2:

  • Добавлен словарь «00_00_REX_NaaLenПредварительная чистка.rex». Самое главное в нём:
    • добавлены паузы перед скобками и после скобок;
    • добавлены паузы перед примечанием и после него;
    • добавлена замена «M-lle=m-lle» (т. е. «mademoiselle»), иначе словарь «10_REX_числа(chisla).rex» заменяет «M-lle» на «одна тысяча -lle».
  • Добавлен словарь «00_04_NaaLenСокращения.dic». В данный момент в нём имеется только исправление произношения букв в инициалах – так, чтобы они звучали наиболее естественно.

5. Словари dic:

  • Откорректирован словарь «25_REX_Замены ИМЕНА(index).rex»: в строке 104 добавлено: «@(\w+)([,: -]*)\s+Толстым\b=$1$2 толстЫм», иначе после применения последующих словарей теряется заглавная буква, и уже не отличить, идёт речь о «Толсты́м» или о «то́лстым».
  • Добавлен словарь «64_NaaLenИностранные@.dic» для слов на иностранных языках.
  • Откорректирован словарь «67_TTS_Offline АВТОР(phoneme).dic»: в строке 47634 добавлено: «$сАмого толстОго=самог+о толст+ого» (по тем же причинам).
  • Добавлен словарь «76_NaaLen@(phoneme).dic». Это основной наш словарь. В нём, в частности, корректируется неправильное произношение фамилий исторических личностей и расшифровываются их инициалы, когда это требуется для правильного понимания текста.
  • Добавлен словарь «98.NaaLenПАУЗЫ@(phoneme).dic» для корректировки длительности пауз.