на главную страницу
 FAQ   •  Поиск  •  Пользователи  •  Группы   •  Регистрация  •  Профиль  •  Войти и проверить личные сообщения  •  Вход
 Зову в проект Открытого Корпуса русского языка Следующая тема
Предыдущая тема
Начать новую темуОтветить на тему
Автор Сообщение
alt



Зарегистрирован: 13.06.2007
Сообщения: 3093
Откуда: 17
Группы: Нет

СообщениеДобавлено: 07.12.2012 10:00:17 Ответить с цитатойВернуться к началу

Я тут ввязался в очередной волонтерский проект – создание Открытого Корпуса русских текстов с лингвистической разметкой ( http://opencorpora.org/ ), не ограниченного запретами на использование и свободно доступного под лицензией Creative Commons.

Зачем это нужно?
Подобные корпуса необходимы для машинного обучения и тестирования лингвистических систем: автоматических переводчиков, распознавателей речи и текста, классификаторов, поисковиков, fact-extractor-ов, орфокорректоров и т.д.

Чем не устраивают имеющиеся?
Размеченные русские корпуса в природе существуют, но пока не было ни одного, который можно было бы скачать и использовать в своей работе полностью свободно.
Корпуса велики (миллионы словоупотреблений) и бОльшая часть разметки делается вручную, поэтому для всяких студентов, стартапов и некрупных проектов создание или покупка корпуса попросту невозможны.
Открытый Корпус (OpenCorpora) как раз призван дать таким начинаниям возможность работать на переднем крае современных технологий, создавая интересные лингвистические сервисы для русского языка – то, что раньше было доступно только нескольким крупным организациям.

Короче, дело нужное. Зову всех присоединяться.
Ниже будут ссылки, где можно почитать поподробнее.

Чем можно помочь:

1) Нужны современные тексты, доступные онлайн. Чтобы корпус можно было выкладывать в открытый доступ целиком, в него включаются только тексты, опубликованные под свободными лицензиями (Creative Commons) или находящиеся в общественном достоянии. Таковых не слишком много. Особенно нужны: художественные и nonfiction (в т.ч. и научные) тексты, блоги. Пригодилась бы еще пара новостных источников. Суммарно где-то на +500 тысяч слов.
Вот подробное обращение по поводу блогов: http://lazy-frog.livejournal.com/151835.html .

2) Нужно размечать. Ближайшая цель – создание размеченного корпуса в 1 млн. словоупотреблений. Это 4-5 млн. единиц ручной разметки. На данный момент только-только перевалили за 700 тысяч.
Разметка устроена очень удобно, брать можно задания разной сложности (они регулярно появляются), в любой момент можно отключиться. Сделанная часть при этом автоматически сохраняется, а недоделанная автоматически возвращается в пул заданий. У меня уже некоторое время новый любимый таймкиллер ))
Сделал там группу "ПХ" – если кто решится, добавляйтесь Wink, и обязательно читайте инструкции по разметке!!!
Подробное обращение про участие в разметке: http://lazy-frog.livejournal.com/153062.html .

Говорят, что я непонятно объясняю. Вот здесь еще понятная лирика Wink http://fritzmorgen.livejournal.com/547229.html .

_________________
"Можем ли мы изменить мир? Нет, но, черт возьми, можно попытаться!" Руперт Мердок
Посмотреть профильОтправить личное сообщение
Показать сообщения:      
Начать новую темуОтветить на тему


 Перейти:   



Следующая тема
Предыдущая тема
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах




Powered by phpBB © 2001, 2002 phpBB Group :: FI Theme :: RSS :: Часовой пояс: GMT + 3
Русская поддержка phpBB