Для навчання ШІ використовували сайти терористів з “ДНР-ЛНР”. Багато українських ЗМІ мають гірші показники

Сайти терористичних угруповань “ДНР” і “ЛНР” використовувалися для навчання моделей штучного інтелекту у Google C4 dataset (colossal, cleaned version of Common Crawl's web crawl corpus). Низка українських ЗМІ або зовсім не потрапили в масив, або отримали значно гірші показники у вибірці, ніж ресурси бойовиків. ТЕКСТИ знайшли посилання на ці дані у базі даних, яку оприлюднило видання The Washington Post у своїй статті Inside the secret list of websites that make AI like ChatGPT sound smart, переклад якої ми публікували напередодні.

Ми перевірили через пошуковий рядок доменні імена найбільших українських медіа, а також дезінформаційних сайтів із нашого проекту кількарічної давнини “У нас погані новини”. Навіть попри те, що за п’ять років ситуація з дезінформаційним полем суттєво змінилась, низка сайтів із цього переліку, переважно тих, що належать терористам з “ДНР” та “ЛНР”, все ще виявились на досить високих позиціях у списку.

ШІ навчали на сайтах терористичних ЛДНР

сайти терористичних “ДНР-ЛНР”

1,700,000

unian.info

760,000

lb.ua

710,000

interfax.com.ua

550,000

ukrinform.net

510,000

ukrainianweek.com

310,000

day.kyiv.ua

170,000

news-front.info

160,000

hromadske.ua

140,000

rusvesna.su

130,000

ukranews.com

100,000

voxukraine.org

80,000

censor.net.ua

78,000

ukrainer.net

60,000

stopfake.org

56,000

detector.media

48,000

theukrainians.org

33,000

tyzhden.ua

32,000

lug-info.com

19,000

dan-news.info

15,000

nahnews.org

12,000

hromadske.radio

11,000

dnr-online.ru

10,000

imi.org.ua

9900

naspravdi.info

8500

strana.ua

7700

texty.org.ua

6200

pravda.com.ua

5800

zik.ua

4300

4300

hvylya.net

3300

3300

bihus.info

1300

1300

ukrainian.voanews.com

900

900

24tv.ua

280

280

obozrevatel.com

190

190

minfin.com.ua

180

180

radiosvoboda.org

56

56

depo.ua

Дані: The Washington Post

Нагадаємо, що WP ранжувало майже 10 мільйонів вебсайтів на основі того, скільки “токенів” з'явилося на кожному з них у наборі даних. Токени – це невеликі фрагменти тексту, які використовуються для обробки невпорядкованої інформації – зазвичай це слово або фраза. Видання відзначило, що у перелік потрапило багато сайтів-сміттярок, російських державних медіа (наприклад, пропагандистська RT.com займає 65-те місце в ренкінгу з 26 млн. токенів), розповсюджувачів теорій змов і рандомних веб-ресурсів, тож ми вирішили подивитися на “український” корпус.

ТЕКСТИ виявили, що найбільш “популярним” серед українських інформаційних сайтів в масиві Google C4 був англомовний домен агентства УНІАН - unian.info, для ШІ використали 1,7 млн токенів з цього сайту. На другому місці - видання lb.ua - 760 тис., на третьому - агентство Інтерфакс-Україна - 710 тис. Далі йдуть англомовний домен державного агентства Укрінформ - 550 тис., англійський сайт видання Український тиждень (Ukrainian week) - 510 тис., сайт газети “День” - 310 тис. токенів.

Після цих медіа - 170 тис. токенів “подарував” штучному інтелекту дезінформаційний сайт News-front. Також у перелік сайтів, які нам вдалось ідентифікувати, потрапили терористичні ресурси Rusvesna, lug-info, dan-news, nahnews, dnr-online, naspravdi.info. Також ми виявили в корпусі сайт zik.ua, який раніше входив в медіахолдинг Медведчука, та проросійський сайт strana.ua (у версії домена до його заборони в Україні).

Цікаво, що у масиві немає прямої кореляції між реальною відвідуваністю сайту і кількістю токенів, які були використані для навчання штучного інтелекту. Наприклад, сайт ТЕКСТів має в масиві 7,7 тис. токенів, а сайт Української правди - 6,2 тис. Сайти інших лідерів за переглядами на українському ринку - каналу новин 24 і Обозреватель - віддали ШІ всього 900 і 280 токенів відповідно. Низка популярних в Україні ресурсів, наприклад, Ліга, НВ, РБК-Україна, ТСН, Суспільне - в масив зовсім не потрапили.

Натомість, досить вагомий “внесок” у корпус у Громадського (160 тис.), VoxUkraine (100 тис.), Цензора (80 тис.), Ukrainer (78 тис.), StopFake (60 тис.), Детектор Медіа (56 тис.).

Серед пов’язаних з Україною доменів багато агентств знайомств, освітніх порталів, спортивних сайтів, а також сайтів регіонів, міських порталів або дивних сайтів на кшталт журналу “Корупціонер в Україні”. Проте їхній внесок у загальний масив відносно скромний. Наприклад, на пошуковий запит “ukr” найбільш “вагомим” у масиві випадає англомовний сайт-агрегатор ukropnews24.com (660 тис. токенів), який не обслуговується з січня 2019 року.

дезінформація штучний інтелект

Знак гривні
Знак гривні