Meaning In Language Research Group (MILa)

photo by S. Malamud

Corpus of Bilingual Russian      
Child Speech      
[BiRCh]     
                    

Создание корпуса детской речи
в монолингвальных и билингвальных русскоязычных семьях

Проект по созданию корпуса BiRCh -- многолетний проект. Наша цель - миллион слов (в основном, русской) устной речи детей и их семей в России, Германии и США.
В корпусе два основных компонента:

  • •Транскипты, расшифровывающие аудиозапись, синхронизированные со звуковым рядом, с возможностью текстового поиска.
  • •Грамматически размеченная версия транскриптов (с разметкой частей речи, морфологии, и синтаксической структуры)

Описание проекта

Цель проекта -- это создание размеченного, синхронизированного со звукорядом и свободно доступного в интернете корпуса речи детей, усваивающих русский язык в монолингвальных и билингвальных семьях.
Хотя речь иммигрантов часто подвергается негативной стереотипации (даже самими иммигрантами), она играет центральную роль в культурной идентичности и практиках русскоязычных общин, и её изучение предоставляет возможность прояснить фундаментальные свойства языкового знания, процессов усвоения и развития речи, языкового контакта, а также языковых изменений, происходящих в течение жизни человека.

Первым и очень важным шагом в создании корпуса является сбор данных. Поэтому наша главная цель -- это сбор данных по речевому развитию детей в русскоязычных семьях в России, США и Германии. Аудиозаписи сохранят этот ценный социолингвистический ресурс для будущих поколений, и синхронизация цифрового звукоряда с транскриптами позволит исследователям быстро найти нужную часть звукозаписи с помощью простого поиска в тексте транскриптов.

Второй целью проекта является создание грамматически размеченного корпуса. Такой корпус будет незаменим в исследовании грамматики русского языка в России, Германии и США, и в изучении факторов, влияющих на развитие речи в монолингвальных и билингвальных ситуациях. Мы надеемся, что этот ресурс поможет продвинуть научные познания в области лингвистики, изучения процессов усвоения первого и второго языка, и билингвизма.

Научные исследования в области грамматики, значения, и использования языка должны быть основаны на данных, которые позволяют исследователям видеть лингвистическую структуру, значение и контекст. Как показал опыт в других областях лингвистики, большие базы языковых данных с размеченной грамматической информацией могут послужить основой для научных прорывов. К примеру, создание размеченных корпусов исторических английских текстов (Kroch & Taylor 1999, Taylor et al. 2003, Kroch et al. 2004) привело к научным открытиям процессов, определивших грамматику современного английского, и позволило лингвистам получить более ясное представление о сути языковых изменений в целом.

Грамматически размеченный корпус монолингвальной и билингвальной детской речи предоставит необходимые данные для исследований речи в иммигрантской среде и монолингвальных общинах, развития херитажных языков и развития речи в целом, и видоизменений речи в ситуациях билингвизма и языкового контакта.

Корпус также предоставит необходимую информацию для практических целей -- разработки языковых материалов для иммигрантов второго поколения, изучающих русский язык; для родителей, воспитывающих билингвальных детей; а также для специалистов-практиков, разработчиков учебных программ, и экспертов в области языковой политики при разработке нормативов и стратегий.

Создатели проекта

Авторы, в алфавитном порядке:
  • Е.В. Денисова-Шмидт, доцент (Lecturer), Школа гуманитарных и социальных наук, Университет Санкт-Галлена, Швейцария
  • И.Е. Дубинина, доцент (Assistent Professor) русского языка, директор программы по изучению русского языка, Университет им. Брандейса
  • С. А. Маламуд, профессор (Associate Professor) лингвистики, Университет им. Брандейса

Ассистенты:
  • Кристина Фуксман, проверка расшифровки русской, английской и немецкой речи, анонимизация, разметка, Университет им. Брандейса
  • Эмиль Кениг, проверка расшифровки русской и английской речи, Университет им. Брандейса
  • Алекс Лыу, конвертирование корпуса СинТагРус в формат идентичный корпусам исторических английских текстов; создание программ по автоматической разметке русских данных, Университет им. Брандейса
  • Маша Шапошникова, транскрипция русской, английской и немецкой речи, проверка, аннотация, Университет им. Брандейса
  • Ян Шнейдерман, проверка расшифровки русской и английской речи, аннотация, Университет им. Брандейса
  • Галина Унгуряну, транскрипция русской и немецкой речи, Магадан, Россия

Консультанты:
  • Кит Плэстер (Keith Plaster), доцент (Lecturer) лингвистики, Университет им. Брандейса
  • Ньянвен Шуэ (Nianwen Xue), профессор (Associate Professor) лингвистики и информатики, Университет им. Брандейса

Гранты

Этот проект финансируется следующими грантами
Грант Леонардо да Винчи, Евросоюз - Е.В. Денисовой-Шмидт [проект BILIUM], 08/2012 -- 07/2014
Грант Теодора и Джейн Норман, Университет им. Брандейса - И.Е. Дубининой, сбор данных для проекта BiRCh, лето 2014
Ректорский грант на научные исследования, Университет им. Брандейса - С.А. Маламуд, 07/2015 -- 08/2016
Грант для научных сотрудников в гуманитарных дисциплинах, Фонд Мэндел - С. А. Маламуд и И.Е. Дубининой, 01/2016 - 12/2017

 

Copyright 2013