Я., Фарсобина В. В. База речевых фрагментов русского языка “isabase”



Скачать 155.13 Kb.
страница2/4
Дата05.05.2018
Размер155.13 Kb.
ТипСтатья
1   2   3   4
Состав текстового материала
С точки зрения текстового материала база данных состоит из двух частей. Первая часть содержит набор коротких повествовательных предложений. Эти предложения были взяты из материалов Государственного стандарта СССР, предъявляющих требования к разборчивости речи при ее передаче по трактам радиотелефонной связи [4]. Предложения представлены группами, каждая из которых состоит из 10 предложений. Лексический материал в этих группах фонетически сбалансирован. В каждой группе встречаются все основные фонемы русской речи и их варианты. Слова для предложений взяты из разряда нейтральной лексики с включением, в качестве примера, лексики команд авиационной тематики. Приведем несколько примеров таких предложений:

"Звонок раздался совершенно неожиданно."

"Руководитель разрешил произвести маневр."

"Химия и физика - интересные науки."

Всего в этом разделе содержатся речевые фрагменты для 50 групп таких предложений. Общее число произнесенных фраз - 1900, причем 1200 фраз произнесли 5 дикторов-мужчин и 700 фраз произнесли 4 диктора-женщины.

Вторая часть базы данных содержит текстовые материалы, которые, в отличие от первой части, являются не фонетически сбалансированными, а фонетически репрезентативными. Множество текстов мы называем фонетически репрезентативным, если распределение частот фонем и других фонетических единиц в этом множестве близко к теоретическому распределению, под которым понимаются частоты языковых единиц, полученные на достаточно представительных и больших по объему выборках.

Один из этих текстов был взят из методической разработки по составлению тестовых материалов [7]. Этот тестовый материал получен из рассказа М.Камраса "Исповедь инженера-акустика", содержащегося в книге "Физики продолжают шутить", М., 1963. Рассказ был изменен за счет упрощения синтаксических конструкций и других преобразований, а затем в нем были произведены лексические замены с тем, чтобы распределение согласных фонем соответствовало теоретическому распределению.

Лексический материал второго текста также является фонетически репрезентативным. Этот текст включает 70 предложений, среди которых есть как повествовательные, так и вопросительные предложения. Он содержит также элементы диалога. Вот несколько примеров предложений из этого текста:

"Рыжий мальчик, которому было года три, отворачивался, вырывался."

"Но она, стараясь сохранить строгий вид, не могла не улыбаться."

" "Дядя, это кто?" - спросил малыш, заглядывая на следующую страницу."

"Это кит."

Все предложения этого текста произносили 4 диктора-мужчины и 5 дикторов-женщин.

При подборе третьего текста для этой части базы данных мы исходили из гипотезы о том, что любой, достаточно большой, отрывок литературного текста является фонетически репрезентативным. В связи с этим, в качестве такого текста были взяты отрывки из рассказов Чехова "Ионыч", "Человек в футляре" и "Крыжовник", и после некоторого упрощения синтаксически сложных конструкций было получено 790 предложений. В их состав входят предложения разных интонационных типов (повествовательные, вопросительные и восклицательные), а также предложения, содержащие прямую речь.

В общей сложности во вторую часть базы входит 3280 речевых фрагментов, которые произносили 15 дикторов-мужчин и 14 дикторов-женщин.

Лексический словарь всей базы данных содержит 3713 различных слов.

Структурно каждая часть базы данных состоит из отдельных разделов, каждый из которых соответствует определенному текстовому материалу. Разделы, в свою очередь, состоят из подразделов, в каждом из которых сосредоточены речевые фрагменты, произнесенные одним диктором.


Каталог: ~otipl
~otipl -> Язык Подвижный мышечный орган в ротовой полости позвоночных животных и человека
~otipl -> Хомский и направление в лингвистике, основанное им, принципиально отличается от концепций великих лингвистов, с которыми мы знакомились ранее
~otipl -> Комбинаторная модель русской интонации
~otipl -> Антирезультатив: до и после результата
~otipl -> Тема основы логики (первый этап отношений логики и языка) (6 часов)
~otipl -> Эссе по курсу «Введение в специальность»
~otipl -> И. М. Кобозева семантические проблемы анализа политической метафоры
~otipl -> Кинетические средства общения


Поделитесь с Вашими друзьями:
1   2   3   4


База данных защищена авторским правом ©znate.ru 2017
обратиться к администрации

    Главная страница