Сегодня 9 мая, четверг ГлавнаяНовостиО проектеЛичный кабинетПомощьКонтакты Сделать стартовойКарта сайтаНаписать администрации
Поиск по сайту
 
Ваше мнение
Какой рейтинг вас больше интересует?
 
 
 
 
 
Проголосовало: 7272
Кнопка
BlogRider.ru - Каталог блогов Рунета
получить код
Блог Яндекса
Блог Яндекса
Голосов: 7
Адрес блога: http://company.yandex.ru/blog/
Добавлен: 2007-12-13 21:24:18 блограйдером Luber
 

Национальный корпус русского языка

2013-04-22 13:35:05 (читать в оригинале)

Национальный корпус русского языка — крупнейшее электронное собрание текстов, включающее более 500 млн словоупотреблений. Это один из основных источников, к которому обращаются лингвисты, исследующие русский язык. Проект был запущен 9 лет назад, в апреле 2004 года. Корпус пополняется и поддерживается силами многих организаций, среди которых Институт русского языка имени В. В. Виноградова РАН, Институт проблем передачи информации РАН, МГУ и многие другие. С самого начала Яндекс разрабатывал адаптированную для НКРЯ версию поисковой машины для поиска текстов с разного рода разметкой.

Морфологическая разметка текстов корпуса осуществляется автоматически с помощью разработанной в Яндексе программы mystem. Однако у ряда текстов вручную «снята омонимия», то есть для каждого слова указаны его правильная словарная форма и грамматические характеристики. Для многих компьютерных лингвистов эта часть корпуса представляет особый интерес, так как её можно использовать при разработке морфологических анализаторов и для разных вычислительных экспериментов. Мы рады сообщить, что теперь часть текстов со снятой омонимией размером 1 млн словоупотреблений стала доступна для скачивания. Чтобы получить к ней доступ, необходимо зарегистрироваться и подписать лицензионное соглашение.

 

Команда Национального корпуса русского языка

.

Тэги: mystem, ya.ru:author:64682324, ya.ru:text, нкря, русский, язык

 


Самый-самый блог
Блогер ЖЖ все стерпит
ЖЖ все стерпит
по количеству голосов (152) в категории «Истории»


Загрузка...Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.