У

Українська мова на слух відрізняється від російської на 52% – спостереження і розрахунки

Киянин Андрій Ковальов взявся дослідити відмінності між українською та російською мовами у сприйнятті на слух – у потоці, який чує україномовна дитина від російськомовної. Його розрахунки показують, що українська та російська відрізняються для сприйняття на 52%.

Як саме це обчислено – читайте у дослідженні, яким Андрій Ковальов поділився з редакцією ТЕКСТІВ. Публікуємо його разом з методологією.

Автори:
Андрій Ковальов, засновник аналітично-консалтингової компанії, інвестор
Олекса Шкатов, журналіст

У серпні минулого року Андрій Ковальов разом з дружиною запустили проєкт “Сімейна практика української мови” в дитячому садочку свого 4-річного сина. Їх, як і багатьох інших україномовних батьків, турбує проблема зросійщення україномовних дітей у російськомовному середовищі поза родиною.
Далі – пряма мова автора.

З чого все почалося

Основна проблема, з якою ми стикнулися в садочку, та чому розпочали проєкт з популяризації української мови: діти в Києві (як і в інших русифікованих містах України) майже не розмовляють українською мовою, попри практично 100% україномовний навчальний процес. Вони можуть розуміти українську на слух (багато фраз досить точно можна зрозуміти з контексту ситуації, не знаючи значної частини лексики) та відповідати одним-двома словами на запитання викладачів, однак у багатьох майже повністю відсутнє спонтанне мовлення українською та практика продукування зв’язних розгорнутих речень.

Основна ідея проєкту: показати педагогам і батькам важливість мовного середовища та сімейної практики української мови для розвитку активного мовлення їхніх дітей. А також дати інструменти для початку практики української вдома, створити розмовні клуби української мови. За п'ять місяців “Сімейної практики української мови” 50% російськомовних батьків у нашому садочку почали (з різною частотою від 15 до 50% всього часу) використовувати українську в щоденному спілкуванні з дітьми, хоча раніше обсяг мовлення українською вдома у них був близьким до 0%.

Перші результати проєкту відчутні не тільки в нашому садочку. 24 грудня МОН розіслало інформаційний лист про цей проєкт в усі обласні департаменти освіти з рекомендацією можливого використання підходів щодо сімейної практики української мови в закладах дошкільної освіти. В січні 2022 року департамент освіти міста Києва розповсюдив презентаційні матеріали про важливість сімейної практики української мови та розклад розмовних клубів серед директорів та вихователів всіх садочків Києва, щоб вихователі передавали цю інформацію батькам.

Докладніше про проєкт йдеться в моїх дописах на ФБ: тут і тут.

Що не так з українською у малюків

Ми провели та задокументували соціолінгвістичні спостереження за комунікацією дітей дошкільного віку в садочку та на дитячих майданчиках. Наші спостереження показують низку проблем з комунікативними навичками дітей українською мовою:

  1. Дітям треба певний час, щоб зрозуміти питомо українські слова, що звучать не схоже на російські, спілкування між дітьми значно сповільнюється або стає практично неможливим (приклади речень, які російськомовна дитина зрозуміла не відразу або не зрозуміла взагалі: “який тобі поверх?”, “дивись, літак”, “я стрибаю по сходах” тощо).
  2. Російськомовні діти не можуть порівняно довго (одна-дві години) говорити українською, практикуючи активний лексичний запас. Постійно відбувається перемикання на домінантну мову (“російську”).
  3. Мовна різноманітність як української, так і російської мов значно знижується, діти шукають слова, що найбільш схоже звучатимуть обома мовами, питомо українські слова не практикуються в активних висловлюваннях.
  4. Діти починають плутати фонетику та лексику двох мов, формується суржик.
  5. Діти практично не грають у мовні ігри українською, не вигадують нові смішні слова, вигуки, меми, хоча мовна гра є одним з основних інструментів мовного розвитку та соціалізації.
  6. Україномовні діти почуваються дискомфортно серед більшості російськомовних дітей, в них немає комфортного середовища для навчання, розвитку та соціалізації (попри те, що, згідно з опитуванням департаменту освіти, 98% вихователів говорять з дітьми українською).
  7. Такий дискомфорт може призводити до сором’язливості, невпевненості, відсутності лідерських навичок, невміння роботи в команді тощо (лист НАПН).
  8. Російськомовні діти не привчаються правилам ввічливості: переходити на українську з україномовними дітьми, не сприймають дитячий садочок як середовище для практикування комунікації українською.
  9. 60–70% дітей 6–7 років у Києві, що йдуть до першого класу, не можуть зв’язно та розгорнуто відповісти на запитання українською мовою.

Чи дуже схожі українська та російська?

Часто під час спілкування з вихователями та батьками звучить аргумент про те, що “українська та російська – дуже близькі та схожі мови” і “україномовні діти вивчать російську (або російськомовні вивчать українську) самі собою, просто часто чуючи цю мову навкруги”. Ми вирішили дослідити правильність твердження про схожість двох мов. Отже, питання дослідження наступне: “Наскільки лексично та фонетично відрізняються українська та російська мови?”

Ми зосередились лише на лексиці та фонетиці як основних характеристиках мовного потоку, який сприймає дитина від дорослих або інших дітей. Не порівнювали морфологію, синтаксис, інші структури мови та мовлення.

Методика та результати

Порівняння лексики

Для порівняння лексики ми взяли три тисячі найбільш вживаних слів з частотного списку лем (одиниць мови) на основі “Національного корпусу російської мови”.

Переклали ці три тисячі лем з російської на українську: спочатку за допомогою функції GOOGLE TRANSLATE, а потім пройшли вручну та виправили всі неправильні гуглопереклади. Результати перекладу у файлі “UKR_RUS_Corpus comparison” на листі “rus”.

Пройшлися по обраним словам і проставили значення поля “same root” (1 - якщо слова спільнокореневі, 0 - якщо ні).

Також ми внесли значення поля “borrowed”, якщо і українська, і російська використовують однакове запозичене слово в однаковому значенні (наприклад “система” (рядок 149), “машина” (рядок 190), “проблема” (рядок 200) тощо) і поля “name”, якщо слово є власним іменем (наприклад, “Александр” (рядок 452), “Иван” (рядок 600) тощо).

Спільнокореневість деяких зі слів в полі “same root” ми позначали як “0,5”, коли є декілька варіантів перекладу (наприклад, рядок 23: “который” - “який”, “котрий”; рядок 59: “говорить” - “казати”, “говорити”; рядок 66: “дело” - “справа”, “діло” і т.д.)

З трьох тисяч найуживаніших російських слів 2 066 (69%) мають спільний корінь з одним з кількох відповідних українських слів, 2 001 (67%) мають спільний корінь лише з одним відповідним українським словом.

Відсоток спільнокореневих слів не зменшується з просуванням “вглиб” корпусу, принаймні ми не бачимо цього на перших трьох тисячах слів.

Три тисячі слів дають можливість зрозуміти 95% всіх висловлювань (згідно з результатами досліджень Lingolic), тому аналіз такої кількості слів можна застосувати з великою ймовірністю до усіх можливих висловлювань.

Порівняння фонетики

Для порівняння різниці у звуковому потоці, який чує україномовна дитина від російськомовної (або навпаки) зі своєю рідною мовою (українською або російською) ми розрахували відстань Левенштайна між рядками, що репрезентують вимову російського та відповідного українського спільнокореневого слова (очевидно, що різнокореневі слова звучатимуть дуже по-різному).

Ідею аналізу запозичили ось тут. Відстань Левенштайна – це міра відмінності між двома символами (у нашому разі – звуками), яка вимірюється кількістю операцій, потрібних для перетворення одного символу в інший.

Ми записали 2 001 спільнокореневе російське та відповідне українське слово транскрипцією українськими літерами (оскільки в українській мові набагато частіше літера передає конкретний звук, “як пишеться, так і вимовляється”). Приклад такого запису – в таблиці 1 (колонки “rus_phonem”, “ukr_phonem”).

mova_scheme.jpg

М’якість російських звуків “е”, “и” в словах типу “первый”, “сила” передавали за допомогою м’яких знаків.

Ми розуміємо обмеженість такого підходу, однак, на наш погляд, транскрибування українськими літерами відповідних звуків у російських та українських словах достатньо для висновків щодо фонетичної різниці спільнокореневих слів.

Фонетичну відстань між двома словами ми розраховуємо як відстань Левенштайна між колонками “rus_phonem” та “ukr_phonem”.

Програмний код (Visual Basic) відстані Левенштайна
Програмний код (Visual Basic) відстані Левенштайна

Після отримання відстані Левенштайна розраховуємо “відсоток фонетичної різниці”, ділячи відстань на довжину відповідної транскрипції. Наприклад, між словами “женшчіна” і “жінка” “відсоток фонетичної різниці” = 63% = 5 (відстань Левенштайна) / 8 (довжина транскрипції).

Ми визначаємо слова, які дуже по-різному звучать. Тобто у яких відсоток фонетичної різниці більше або дорівнює 50%. Наш аналіз показує, що таких слів – 29% серед найвживаніших спільнокореневих слів.

Висновок

Наші розрахунки показують, що в усьому потоці мовлення, який чує україномовна дитина від російськомовної, 33% слів не є спільнокореневими й дуже відрізняються на слух. Серед інших 67% спільнокореневих слів звучання 29% з них відрізняється на 50 і більше відсотків. Отже, українська та російська відрізняються для сприйняття на (33% + 67% * 29%) = 33% + 19% = 52%.

Ознайомитися з детальними підрахунками можна
за лінком.

українська мова русифікація українізація

Знак гривні
Знак гривні