Компьютер как новый "несовершенный" носитель языка
Доклад О. Ляшевской 3 апреля 2015 года
первые опусы студентов в жанре академического письма или перевода. Ошибки таких авторов признаны ценным эмпирическим материалом, который восполняет лакуну negative evidence в корпусной лингвистике и
проливает свет на многие теоретические вопросы.
В докладе рассказывалось о корпусе расшифровок устной речи, полученных с помощью сервиса SpeechKit Cloud (Яндекс) и снабженных параллельным слоем ручной разметки. Несмотря на то, что
технологии автоматического распознавания активно развиваются, дополняют акустическую модель параметрами синтаксической, семантической, доменной и т.п. дистрибуции, полнота и точность письменной кодировки речевого сигнала все еще далека от идеала. Взяв за основу параллельные данные автоматической и ручной расшифровки, была предложена типология ошибок нашего "несовершенного" носителя, обсуждалось, что же позволяет человеку более точно настраивать свой аппарат речевого распознавания. Кроме того, были рассмотрены метавопросы создания корпуса расшифровок, а именно, проблемы выравнивания параллельных расшифровок (автоматической и ручной) и детекции ошибок.
Дата
6 апреля
2015
В статье упомянуты