Russian Learner Translator Corpus

Проект Russian Learner Translator Corpus (Russian LTC) или «Корпус несовершенных переводов» нацелен на создание доступной исследователям коллекции студенческих переводов в направлениях «английский-русский» и «русский-английский». Корпус доступен на сайте http://rus-ltc.org.

Корпус может быть использован для исследований в области переводческих ошибок и вариативности перевода. Он представляет собой набор предложений на русском и английском языках и их переводов. Для большинства оригиналов существует несколько переводов, что отличает Russian LTC от многих других существующих параллельных корпусов.

Мы составляем корпус из студенческих переводов, предоставленных нам российскими университетами. В настоящий момент объём корпуса составляет более миллиона слов, сбор материала продолжается. Запланированный конечный объём — 10 миллионов слов.

Поиск в корпусе можно производить как по оригиналам, так и по переводам. Кроме того, разметка корпуса позволяет уточнять поиск по мета-данным о тексте и о ситуации перевода. Например, вы можете искать слово might в переводах студентов-мужчин ТюмГУ 4 года обучения, получивших оценку 4.

Проект RusLTC стартовал в 2011 году и поддерживается группой компьютерных лингвистов и преподавателей перевода из Высшей Школы Экономики и Тюменского Государственного Университета. Он развивается в рамках проекта «Корпусные технологии в лингвистических и междисциплинарных исследованиях», выполненного в рамках Программы фундаментальных исследований НИУ ВШЭ в 2013-2014 годах. Контент корпуса (оригиналы и переводы, а также мета-данные) доступен под свободной лицензией Creative Commons Attribution-ShareAlike.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Лингвистическая лаборатория по корпусным технологиям

Russian Learner Translator Corpus