• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Компьютер как новый "несовершенный" носитель языка

 Доклад О. Ляшевской 3 апреля 2015 года

В последнее время большую популярность приобрели корпуса так называемых "несовершенных" говорящих, включающие, например, тексты носителей эритажного языка, ответы на экзамене по иностранному языку,
первые опусы студентов в жанре академического письма или перевода. Ошибки таких авторов признаны ценным эмпирическим материалом, который восполняет лакуну negative evidence в корпусной лингвистике и
проливает свет на многие теоретические вопросы. 
В докладе рассказывалось о корпусе расшифровок устной речи, полученных с помощью сервиса SpeechKit Cloud (Яндекс) и снабженных параллельным слоем ручной разметки. Несмотря на то, что
технологии автоматического распознавания активно развиваются, дополняют акустическую модель параметрами синтаксической, семантической, доменной и т.п. дистрибуции, полнота и точность письменной кодировки речевого сигнала все еще далека от идеала. Взяв за основу параллельные данные автоматической и ручной расшифровки, была предложена типология ошибок нашего "несовершенного" носителя, обсуждалось, что же позволяет человеку более точно настраивать свой аппарат речевого распознавания. Кроме того, были рассмотрены метавопросы создания корпуса расшифровок, а именно, проблемы выравнивания параллельных расшифровок (автоматической и ручной) и детекции ошибок.