Волонтери створють умови для повноцінної обробки україномовних текстів. Долучайтеся!
Опрацювання текстів природною мовою — так званою NLP (не плутайте з "нейролінгвістичним програмуванням"!) — це міждисциплінарна галузь знань, яка збирає методи розв’язання задач аналізу і опрацювання текстів. І всім, хто має стосунок до цього напряму, добре відомо, що принциповою умовою його розвитку є наявність даних (які в цьому домені звуться словниками та корпусами).
До останнього часу українська мова, на жаль, була обділена лінгвістичними даними. Не те, щоб зовсім нічого не було, але більшість робіт виконували в закритому режимі, який притаманний нашим старим науковим кадрам, тож отримати доступ до якісних корпусів навіть базового рівня майже нереально.
Втім, нещодавно ситуація з даними почала змінюватись. І, як і інші зміни в нашому суспільстві, її рушієм були зусилля купки волонтерів. Що виглядає цілком очікувано для індустрії розробки, де open source і пов’язане з ним волонтерство є усталеним і зрозумілим явищем.
Отже, за останній рік справа створення відкритих даних для українського NLP зрушила з мертвої точки. Група лінгвістів, лідером якої є Мар’яна Романишин, почала збирати відкритий український корпус-мільйонник — і за рік їм вдалось накопичити вже майже 40% потрібних текстів. Разом з Андрієм Рисіним, який є основним мейнтейнером української версії проекту LanguageTool, вони зарелізили найповніший і дуже якісний відкритий граматичний словник
Останньою подією в цій сфері на сьогодні є реліз NER-анотації до половини наявних текстів зі згаданого корпусу-мільйонника. Цей проект реалізували Всеволод Дьомкін разом з Дмитром Чаплинським і трьома анотувальниками всього лише за місяць, використовуючи краудсорсинг (чи то, як він каже, «колхозну») платформу Вулик, яку Дмитро розробив для автоматизації завдань, пов’язаних з використанням праці волонтерів (див. наприклад сайт declarations.com.ua). Деталі ініціативи
Разом з анонсом цього корпусу розробники оголосити про більш загальну ініціативу: "ми вирішили об’єднати під одним дахом всі ці споріднені ініціативи — в рамках спільноти lang-uk, яка побудована на єдиних і простих принципах і буде займатися підтримкою наявних і розвитком нових проектів по збору українських корпусів та інших текстових даних. Ядром цієї спільноти є перелічені вище «активісти», а також певна кількість волонтерів. Звісно, це тільки початок, і ми відкриті до приєднання нових учасників, які поділяють наші принципи"
Насправді, роботи багато вже, а далі її буде ще більше. Це робота і для програмістів, і для лінгвістів, і для дослідників з аналітиками, і для анотувальників, і, може, ще для когось.