Для навчання ШІ використовували сайти терористів з “ДНР-ЛНР”. Багато українських ЗМІ мають гірші показники
Сайти терористичних угруповань “ДНР” і “ЛНР” використовувалися для навчання моделей штучного інтелекту у Google C4 dataset (colossal, cleaned version of Common Crawl's web crawl corpus). Низка українських ЗМІ або зовсім не потрапили в масив, або отримали значно гірші показники у вибірці, ніж ресурси бойовиків. ТЕКСТИ знайшли посилання на ці дані у базі даних, яку оприлюднило видання The Washington Post у своїй статті Inside the secret list of websites that make AI like ChatGPT sound smart, переклад якої ми публікували напередодні.
Ми перевірили через пошуковий рядок доменні імена найбільших українських медіа, а також дезінформаційних сайтів із нашого проекту кількарічної давнини “У нас погані новини”. Навіть попри те, що за п’ять років ситуація з дезінформаційним полем суттєво змінилась, низка сайтів із цього переліку, переважно тих, що належать терористам з “ДНР” та “ЛНР”, все ще виявились на досить високих позиціях у списку.
ШІ навчали на сайтах терористичних ЛДНР
сайти терористичних “ДНР-ЛНР”
1,700,000
unian.info
760,000
lb.ua
710,000
interfax.com.ua
550,000
ukrinform.net
510,000
ukrainianweek.com
310,000
day.kyiv.ua
170,000
news-front.info
160,000
hromadske.ua
140,000
rusvesna.su
130,000
ukranews.com
100,000
voxukraine.org
80,000
censor.net.ua
78,000
ukrainer.net
60,000
stopfake.org
56,000
detector.media
48,000
theukrainians.org
33,000
tyzhden.ua
32,000
lug-info.com
19,000
dan-news.info
15,000
nahnews.org
12,000
hromadske.radio
11,000
dnr-online.ru
10,000
imi.org.ua
9900
naspravdi.info
8500
strana.ua
7700
texty.org.ua
6200
pravda.com.ua
5800
zik.ua
4300
4300
hvylya.net
3300
3300
bihus.info
1300
1300
ukrainian.voanews.com
900
900
24tv.ua
280
280
obozrevatel.com
190
190
minfin.com.ua
180
180
radiosvoboda.org
56
56
depo.ua
Дані: The Washington Post
Нагадаємо, що WP ранжувало майже 10 мільйонів вебсайтів на основі того, скільки “токенів” з'явилося на кожному з них у наборі даних. Токени – це невеликі фрагменти тексту, які використовуються для обробки невпорядкованої інформації – зазвичай це слово або фраза. Видання відзначило, що у перелік потрапило багато сайтів-сміттярок, російських державних медіа (наприклад, пропагандистська RT.com займає 65-те місце в ренкінгу з 26 млн. токенів), розповсюджувачів теорій змов і рандомних веб-ресурсів, тож ми вирішили подивитися на “український” корпус.
ТЕКСТИ виявили, що найбільш “популярним” серед українських інформаційних сайтів в масиві Google C4 був англомовний домен агентства УНІАН - unian.info, для ШІ використали 1,7 млн токенів з цього сайту. На другому місці - видання lb.ua - 760 тис., на третьому - агентство Інтерфакс-Україна - 710 тис. Далі йдуть англомовний домен державного агентства Укрінформ - 550 тис., англійський сайт видання Український тиждень (Ukrainian week) - 510 тис., сайт газети “День” - 310 тис. токенів.
Після цих медіа - 170 тис. токенів “подарував” штучному інтелекту дезінформаційний сайт News-front. Також у перелік сайтів, які нам вдалось ідентифікувати, потрапили терористичні ресурси Rusvesna, lug-info, dan-news, nahnews, dnr-online, naspravdi.info. Також ми виявили в корпусі сайт zik.ua, який раніше входив в медіахолдинг Медведчука, та проросійський сайт strana.ua (у версії домена до його заборони в Україні).
Цікаво, що у масиві немає прямої кореляції між реальною відвідуваністю сайту і кількістю токенів, які були використані для навчання штучного інтелекту. Наприклад, сайт ТЕКСТів має в масиві 7,7 тис. токенів, а сайт Української правди - 6,2 тис. Сайти інших лідерів за переглядами на українському ринку - каналу новин 24 і Обозреватель - віддали ШІ всього 900 і 280 токенів відповідно. Низка популярних в Україні ресурсів, наприклад, Ліга, НВ, РБК-Україна, ТСН, Суспільне - в масив зовсім не потрапили.
Натомість, досить вагомий “внесок” у корпус у Громадського (160 тис.), VoxUkraine (100 тис.), Цензора (80 тис.), Ukrainer (78 тис.), StopFake (60 тис.), Детектор Медіа (56 тис.).
Серед пов’язаних з Україною доменів багато агентств знайомств, освітніх порталів, спортивних сайтів, а також сайтів регіонів, міських порталів або дивних сайтів на кшталт журналу “Корупціонер в Україні”. Проте їхній внесок у загальний масив відносно скромний. Наприклад, на пошуковий запит “ukr” найбільш “вагомим” у масиві випадає англомовний сайт-агрегатор ukropnews24.com (660 тис. токенів), який не обслуговується з січня 2019 року.