Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я., Фарсобина В.В.
БАЗА РЕЧЕВЫХ ФРАГМЕНТОВ РУССКОГО ЯЗЫКА “ISABASE”1
Аннотация
Статья посвящена описанию речевой базы данных русского языка, разработанной в Институте системного анализа РАН при поддержке Российского Фонда Фундаментальных Исследований.
Рассматриваются вопросы, связанные с разработкой структуры базы данных, подбором текстовых материалов, вводом и разметкой речевых фрагментов. Приводится описание фонетического и программного обеспечения базы данных, а также основных функций специализированной системы управления базой данных.
Введение
Создание и классификация крупномасштабных речевых баз данных является одной из главных предпосылок успешного развития современных речевых технологий. Понимание важности наличия доступа к большому количеству правильно размеченных речевых данных для целей обучения и оценки качества автоматического распознавания речи стало общепризнанным в среде специалистов по речевым технологиям.
Решение задач, использующих речевые технологии, помимо собственно речевых материалов, требует также наличия большого количества данных лингвистического характера, таких, как наборы текстов, их лингвистические описания, словари различного рода и т.п.
Исследования в таких областях, как распознавание речи и синтез речи, требуют накопления все большего и большего количества речевых фрагментов, сопровождаемых описанием соответствующих деталей этих фрагментов.
Под речевым фрагментом мы будем понимать представленный в виде оцифрованной звуковой волны фрагмент речевого сигнала, произведенного говорящим человеком.
Совокупность речевых фрагментов с дополнительной информацией специального вида будем называть речевым набором или речевой базой данных. (Вообще-то это называют акустико-фонетической базой данных)
В Институте системного анализа РАН при поддержке Российского Фонда Фундаментальных Исследований создана речевая база данных русского языка, описанию которой посвящена данная статья.
Элементом базы данных является совокупность оцифрованной звуковой волны, представляющей собой фразу, произнесенную на русском языке, и дополнительной информации об этой волне. Дополнительная информация содержит сведения о дикторе, произнесшем фразу, и о самой фразе (ее текст, фонетическую транскрипцию и результаты ручной сегментации на слова и фонемы).
Для наговаривания речевых материалов было привлечено 36 дикторов. Из них 20 мужчин и 16 женщин. Все они не являлись профессиональными дикторами и не имели опыта в искусстве речевого чтения. Дикторы не отбирались с точки зрения разнообразия диалектов и, в основном, относились к носителям московского диалекта. Текстовые прообразы речевых фрагментов наговаривались в режиме дискретной читаемой речи, в котором соответствующий речевому фрагменту текст произносится с короткими, отчетливо выделяемыми паузами между отдельными словами. Дополнительно в базу данных был введен раздел, содержащий речевые фрагменты квазинепрерывной речи, т.е. речи, где не требуются паузы между словами, однако отсутствуют коартикуляционные эффекты на стыке слов. Фразы произносились с сохранением интонационных особенностей.
Отметим, что в базе данных представлены различные условия акустической среды. Часть текстов произносилась в условиях, близких к студийным, в отдельной кабине, изолированной от внешних шумов, а другая часть произносилась в обычной комнате с естественным шумовым фоном.
Поделитесь с Вашими друзьями: |