Я., Фарсобина В. В. База речевых фрагментов русского языка “isabase”



Скачать 155.13 Kb.
страница3/4
Дата05.05.2018
Размер155.13 Kb.
ТипСтатья
1   2   3   4
Фонетическое обеспечение базы данных
Речевые фрагменты, содержащиеся в базе данных, были размечены на слова и фонемы с помощью полуавтоматической системы разметки. Для обозначения фонем при разметке потребовалась разработка специальной системы фонетической транскрипции. За основу была взята система русскоязычной фонетической транскрипции Р.И.Аванесова [5, 6], привычная для специалистов в области лингвистики. Разработанная система учитывает тонкие особенности произношения в русском языке и поэтому включает в себя около 160 различных обозначений, используемых при разметке речевого фрагмента. Выделим следующие моменты, которые принимались во внимание при создании системы фонетической транскрипции:

- гласные звуки могут смягчаться слева, справа или с обеих сторон, в зависимости от мягкости соседних согласных;

- отдельно рассматриваются случаи гласных под ударением, сильных безударных гласных и слабых безударных гласных;

- для каждого согласного, как твердого, так и мягкого, отдельно выделяется случай сдвоенного (долгого) согласного;

- введены обозначения для озвонченных глухих фонем, возникающих при произношении на стыках слов определенных сочетаний согласных, например, таких, как "хг", "цб" или "чб";

- введен целый ряд обозначений для некоторых особых явлений, наблюдаемых в речевом сигнале, в частности, для смычек, соответствующих большинству обычных и сдвоенных согласных, для пауз между словами, в начале и в конце фразы, а также для эпентетических пауз, для неидентифицированных сегментов звуковой волны; далее они условно будут называться служебными фонемами.

- поскольку введенные обозначения набирались операторами вручную на клавиатуре при разметке речевых фрагментов, особое внимание уделялось тому, чтобы они были, по возможности, короткими и не требовали частой смены режима работы клавиатуры.

Были приняты также следующие соглашения по поводу обозначений:

- символом " * " обозначается мягкость звука слева, справа или с двух сторон (в зависимости от того, с какой стороны находится символ " * ");

- символом "+" обозначается гласный под ударением;

- символом ":" обозначается длительность согласного (например, в случае сдвоенного согласного);

- смычки обозначаются соответствующим согласным, заключенным в квадратные скобки.

Приведем список введенных обозначений для различаемых нами звуков русского языка.

Гласные под ударением:

а+, а*+, *а+, *а*+, о+, о*+, *о+, *о*+, у+, у*+, *у+, *у*+, и+, и*+, *и+,*и*+, е+, е*+, *е+, *е*+.

Сильные безударные гласные (то есть безударные гласные, расположенные в 1-ом предударном слоге, или после паузы в начале слова, или после согласной перед паузой, или последней в группах гласных):

а, а*, *а, *а*, у2, у*2, *у2, *у*2, и, и*, *и, *и*, е, е*, *е, *е*.

Слабые безударные гласные (то есть безударные гласные, расположенные только после согласных, но не в 1-ом предударном слоге и не в конце слова перед паузой):

ъ, ъ*, у1, у*1, *у1, *у*1, *ь, *ь*.

Губные согласные:

м, м:, м*, м*:, б, б:, б*, б*:, п, п:, п*, п*:, в, в:, в*, в*:, ф, ф:, ф*, ф*:.

Шумные зубные согласные:

з, з:, з*, з*:, с, с:, с*, с*:, д, д:, д*, д*:, т, т:, т*, т*:., ц, ц:.



Сонорные зубные согласные:

р, р:, р*, р*:, н, н:, н*, н*:, л, л:, л*, л*:.



Шипящие (постальвеолярные) согласные:

ж, ж:, ж*, ж*:, ш, ш:, щ*, щ*:, ч, ч:, ч*, ч*:.



Йот (палатальный согласный): й*.

Задненебные согласные:

г, г:, г*, г*:, к, к:, к*, к*:, х, х:, х*, х*:.

Озвонченные согласные (на стыке слов): (хг), (дз), (дж*).

Служебные фонемы:

смычки взрывных согласных и аффрикат: [т], [т*], [д], [д*], [п], [п*], [б], [б*], [р], [р*], [к], [к*], [г], [г*], [ц], [дз], [ч], [ч*], [дж*], [т:], [т*:], [д:], [д*:], [п:], [п*:], [б:], [б*:], [р:], [р*:], [к:], [к*:], [г:], [г*:], [ц:], [ч:], [ч*:], [дж*];

пауза в начале фразы и в конце фразы - %%;

пауза между словами - %;

пауза вставочная (эпентетическая) - ~;

неидентифицированный сегмент в начале слова - q.

Следует отметить, что нами рассматривались различные варианты выбора фонетической системы для базы речевых фрагментов. Можно было выбрать более простую систему фонем, и такая система, возможно, была бы удобна с точки зрения использования этой базы данных в системах автоматического распознавания речи. Однако использование базы речевых фрагментов в лингвистических исследованиях или в задачах, связанных с автоматизацией синтеза речи, требует более тонкой дифференциации фонем. Именно поэтому и было принято решение взять за основу такую достаточно детализированную фонетическую систему. Что же касается вопросов использования ее в системах распознавания речи, то, в случае необходимости, ее можно редуцировать к более простому набору фонем.


Программное обеспечение базы данных
Для наполнения базы речевых фрагментов и работы с ней создано соответствующее программное обеспечение, которое состоит из двух частей.

Первая часть представляет собой специализированную систему управления базами данных, ориентированную на работу с речевыми фрагментами. Эта система предоставляет пользователю возможность выполнять целый ряд операций над элементами базы данных и осуществлять полуавтоматическую разметку речевого фрагмента. Приведем описание некоторых из этих операций.

Можно вызвать из базы данных графическое изображение речевого фрагмента (осциллограмму). Это изображение можно просматривать, передвигая вдоль него изображение специального указателя с помощью клавиатуры или "мыши". При этом на экране отображаются текущее значение временного отсчета и соответствующее ему значение амплитуды. Изображение фрагмента можно масштабировать, что дает возможность визуально наблюдать характер поведения графика даже на небольших сегментах речевого фрагмента. Всего допускается девять степеней масштабирования.

Можно получить информацию о характеристиках речевого фрагмента, в частности, о его длительности, выраженной в количестве временных отсчетов и в миллисекундах, а также максимальное и минимальное значения амплитуд в пределах речевого фрагмента.

Можно выделить некоторый сегмент речевого фрагмента, и получить такую же информацию о характеристиках этого сегмента.

Есть возможность воспроизвести звучание всей звуковой волны, а также звучание ее выделенного сегмента.

Есть операция вычисления спектральных характеристик звуковой волны и представления их на экране в специальном графическом виде (в виде динамической спектрограммы и спектрального среза).

Существуют операции, позволяющие производить редактирование речевых фрагментов. Предварительно выделенный сегмент речевого фрагмента можно удалить, скопировать или переместить в другое место того же или какого-либо другого фрагмента.

Система управления базами данных обеспечивает также возможность производить полуавтоматическую разметку звуковой волны. Под разметкой понимается сегментирование звуковой волны на участки, соответствующие отдельным словам и фонемам, и приписывание этим фонемам транскрипционных обозначений.

Разметка производится специально обученным оператором. Просматривая отдельные участки звуковой волны, учитывая характер поведения графика волны на этих участках и одновременно прослушивая их звучание, оператор фиксирует начала и концы участков, соответствующие словам, и границы участков, соответствующих фонемам. Иногда оператор использует и синхронный просмотр графического изображения спектра волны, соответствующего рассматриваемому участку. Наблюдение характера поведения формант позволяет оператору более точно выделить границы фонем. Кроме того, в специальном поле оператор записывает транскрипционное обозначение отмеченной фонемы и имеет также возможность в специальном поле записать краткий комментарий, объясняя, например, по какой причине он идентифицировал фонему соответствующим образом.

Информация о разметке звуковой волны сохраняется в базе данных в специальном файле, который в совокупности с файлом, содержащим саму звуковую волну, собственно, и образует элемент базы речевых фрагментов. Приведем пример содержимого такого файла.
[Text] 05/11/95

Чемоданы сданы в багаж .


[Words] 05/11/95

19701 38250 Чемоданы

49671 65430 сданы

78030 85401 в

101286 115452 багаж
[Phonemes] 05/11/95

0 19701 %%

19701 21384 ч*

21384 22356 *ь

22356 23886 м

23886 26595 а

26595 28278 [д]

28278 28566 д

28566 32823 а+

32823 34443 н

34443 38250 и

38250 49671 %

49671 51912 з

51912 53685 [д]

53685 54045 д

54045 57186 а

57186 59868 н

59868 64935 и+

64935 65430 ~

65430 78030 %

78030 81144 в

81144 84969 ъ

84969 85401 ~

85401 101286 %

101286 102492 [б]

102492 103149 б

103149 105939 а

105939 107865 [г]

107865 108216 г

108216 112554 а+

112554 115452 ш

115452 118507 %%

В этом файле содержится текст речевого фрагмента, а также указаны в единицах временного отсчета границы начала и конца каждого слова и каждой фонемы, отмеченные оператором при разметке звуковой волны.

При вызове уже размеченной звуковой волны ее графическое изображение содержит все элементы разметки. Сегмент звуковой волны, соответствующий какой-либо фонеме или слову, выделен своими границами, а под ним расположены поля, содержащие транскрипцию сегмента и комментарий к ней, если такой имеется. Есть возможность откорректировать уже имеющуюся разметку. Пример визуализации графика речевой волны, ее спектра и разметки приведен на рисунке 1.

Была произведена разметка почти всех звуковых сигналов, содержащихся в базе данных. Не размечены лишь те звуковые файлы которые представляют фрагменты квазинепрерывной речи.

Изложенное выше описание процесса разметки дает представление о том, что этот процесс требует определенных знаний и навыков. Поэтому разметка производилась операторами, специально обученными под руководством разработчиков программного обеспечения и опытных лингвистов.

Вторая часть программного обеспечения состоит из ряда сервисных программ, предназначенных, в основном, для ввода речевого материала и его коррекции.

Подсистема ввода и прослушивания речевых фрагментов позволяет осуществлять запись фраз, произнесенных диктором, в базу данных, прослушивать фразы, введенные в базу данных, а также осуществлять перезапись некорректно введенных фраз. С ее помощью можно производить автоматическую настройку микрофона, учитывающую уровень шума в помещении, где производится запись речи, и масштабирование амплитуды звуковой волны. С помощью этой подсистемы осуществляется также автоматическое формирование файлов первичной дополнительной информации к каждому вводимому элементу базы данных, содержащих текст фразы и сведения о дикторе.

Комплекс сервисных программ также включает программу контроля записи речевых фрагментов и их коррекции. Эта программа позволяет автоматически или в режиме просмотра базы данных отыскивать искажения речевого сигнала в случаях, когда значения некоторых амплитуд выходили за пределы допустимых значений. Программа автоматически корректирует речевой сигнал, если искажения вызваны случайными сингулярными шумовыми помехами в результате сбоя аппаратуры.

В процессе разметки операторы могут допускать ошибки. Ту значительную часть ошибок, которая заключается в неправильном написании транскрипционных обозначений фонем, логично выявить с помощью автоматического контроля. В связи с этим была разработана программа, которая просматривает все элементы базы данных в указанном разделе и выдает файл протокола сообщений об ошибках, которые можно обнаружить автоматически. Кроме ошибок, связанных с неверными обозначениями фонем, программа сообщает о несоответствии начальных и конечных границ в словах и предложениях. С помощью этой программы были проверены все разделы базы данных и затем проведена коррекция неверно размеченных фрагментов.

При создании базы данных использовались и некоторые другие программы, в частности, те, с помощью которых для множества текстов, соответствующих представленным в базе речевым фрагментам, были автоматически построены лексический и фонетический словари. Сначала по исходным текстам программа строила словарь всех различных слов (словник текстового набора). На основе этого словаря с помощью специально разработанной программы был построен акцентуированный словарь словоформ. А уже затем автоматический транскриптор строил фонетический словарь словоформ.


Каталог: ~otipl
~otipl -> Язык Подвижный мышечный орган в ротовой полости позвоночных животных и человека
~otipl -> Хомский и направление в лингвистике, основанное им, принципиально отличается от концепций великих лингвистов, с которыми мы знакомились ранее
~otipl -> Комбинаторная модель русской интонации
~otipl -> Антирезультатив: до и после результата
~otipl -> Тема основы логики (первый этап отношений логики и языка) (6 часов)
~otipl -> Эссе по курсу «Введение в специальность»
~otipl -> И. М. Кобозева семантические проблемы анализа политической метафоры
~otipl -> Кинетические средства общения


Поделитесь с Вашими друзьями:
1   2   3   4


База данных защищена авторским правом ©znate.ru 2017
обратиться к администрации

    Главная страница