Журналістика даних. Українські приклади - текст і слайди виступу на TEDx Kyiv (ІНФОГРАФІКА)
До вашої уваги - виступ про журналістику даних від ТЕКСТІВ на конференції TEDx Kyiv 20 травня. Більшість результатів прозвучало на конференції, а тепер публікується на сайті, вперше. Наприклад, ми перевірили кожен голос, відданий за один з ~800 прийнятих за останній рік законів, чи був у цей час депутат у залі? Таких, "чесно проголосованих" законів виявилося аж ... 14%!
Автор: Анатолій Бондаренко
Доброго дня. На Текстах ми багато займаємося журналістикою даних. Ми навіть зробили окремий розділ на сайті, який так і називається. Саме через те, що у нашій країні ми це зробили першими, тому вважаємо себе місцевими батьками-засновниками цього напрямку (жарт).
Це відносно новий тип журналістики - що знаходить цікаві історії, працюючи з великими кількостями даних. Насправді, інколи навіть одне зображення може нести в собі дуже сильну історію.
Для нас важливо, щоб наші матеріали відповідали на питання, які цікавлять читача: тому у нас на сайті є візуалізацій на теми грошей, освіти, здоров'я. Однак, дуже важливо, щоб з часом наш читач починав ставити більш складні і цікаві питання. Ми хочемо щоб наші візуалізації, були початком подорожі, а не її кінцем. нам хочеться щоб наші читачі були розумнішими за нас. Наприклад, ця маленька кулька з води, що наверху на зображенні, насправді дуже велика - її радіус всього у два рази менше радіуса Місяця.
Робота з даними буквально щомісяця стає все більш популярною. Чому це відбувається? Тому що кількість різноманітних даних зростає, і щоб розуміти сучасний світ, дані необхідно перетворювати у знання. Ерік Шмідт, один з керівників компанії Google стверджує що тепер людство протягом кількох днів генерує стільки інформації, скільки її було накопичено за весь час від винаходу писемності і до 2007 року включно. От тому інфографіка та візуалізація стали такими популярними в останні декілька років - як просто спосіб не втонути у даних.
Доказом популярності стало виникнення поп-інфографіки, яку ви безумовно не раз зустрічали в інтернетах:
Найбільші досягнення людей почалися з того моменту, коли ми винайшли науковий метод. Якщо ви хочете вивчити якусь складну систему, вам потрібно обрати у ній, що саме ви будете міряти. Створити модель, перевірити її на дослідах. Змінити модель, якщо необхідно. Бути постійно в пошуку того, що порушує вашу модель - лише в такому випадку наше знання може рухатися далі.
У випадку, якщо немає що міряти, - значить якийсь показник треба придумати. Журналістика даних також використовує науковий метод. Про декілька прикладів того, що можна зробити з даними про Україну я хочу сьогодні розповісти. Особисто для мене дуже важливим є момент маленьких відкриттів, які з'являються в процесі.
Отже, перша історія - про вступну кампанію 2011 року і ЗНО.
Приблизно в 2007-2008 роках МінОсвіти для своєї системи придумало такий показник, який можна вимірювати, коли запровадило ЗНО (Зовнішнє Незалежне Оцінювання). ЗНО вперше дало можливість оцінити систему освіти об'єктивно.
У минулому році, використовуючи інформацію про ЗНО з системи "Конкурс", ми зробили свій рейтинг вузів. В основі його лежить дуже проста ідея - чим більше дітей з високими показниками по ЗНО йдуть в той чи інший ВНЗ, тим він краще. Сам рейтинг можна подивитися на сайті, серед інших наших візуалізацій.
Однак є один цікавий момент, про який ми ще ніде не згадували: як співвідносяться оцінки по ЗНО і оцінки в атестаті? До речі, половина успіху візуалізації даних - це вміння знайти таке головне питання
Отже, дані які у нас є: декілька сотень тисяч абітурієнтів, у кожного з яких - середня оцінка атестату та середня оцінка ЗНО, кожна від 100 до 200 балів
Так виглядають ці два показника по декільком сотням тисяч абітурієнтів, якщо їх відкласти по вісям Х та Y. Лише не варто робити таке обличчя, як тут:
Навпаки, така велика кількість даних - це дуже добре. Ми підійдемо до аналізу з іншого боку. Ми подивимося на розподіл цих показників. Що таке розподіл? Це коли ми визначаємо, які значення вимірюваної величини зустрічаються часто, а які - рідко.
На малюнку - розподіл зросту населення якоїсь абстрактної країни. Це симетрична, подібна за формою на дзвін крива, що називається гауссіан, і її форма дуже часто зустрічається коли ми щось міряємо у "природних" процесах. Всюди, де на нашу величину впливає декілька незалежних випадкових чинників (як наприклад на зріст), зустрічаються розподіли саме такої форми - існує дуже відома математична теорема, яка саме про це говорить - вона називається "Центральною граничною теоремою".
Однак, якщо би ви виміряли зріст усіх дівчат в маленькому англійському містечку Блеклі-Парк в Англії, на початку 40-х років 20-го сторіччя, у вас би вийшла несиметрична крива, схожа на червону з наступного малюнку:
Чому так відбулося? Тому що у Блеклі-парку була найбільш засекречена британська установа 20 сторіччя - установа де математики та інженери-електронники створювали перші в світі комп'ютери, які допомагали "на льоту" розшифровувати перехоплені повідомлення німецького Генерального штабу.
Для цих пристроїв потрібно було багато довгих дівчат, лише вони могли крутити ручки і встромляти штекери на верхніх високих панелях перших електромеханічних комп'ютерів, тому їх кількість була аномально великою, і крива розподілу зросту стала схожою на червону. Тобто, там де є штучний чинник, наприклад потреба у високих дівчатах, нормальний розподіл втрачає форму, стає несиметричним.
Давайте подивимося на графік з результатами середньої оцінки ЗНО по кожному абітурієнту. Форма його - практично ідеальний гаусcіан(якби ця лекція була математичною, я б не наважився зробити подібне твердження), тобто це "природній" розподіл, без штучного спотворення якогось діапазону даних. Схоже на те, що тести ЗНО - дійсно незалежне, дійсно об'єктивне оцінювання.
Тепер додамо на малюнок графік розподілу середньої оцінки атестату.
Ого! Ми бачимо, що якась "невидима рука ринку" витягнула середнє значення цього розподілу вверх, до вищих оцінок. Несиметрична форма розподілу свідчить про штучне втручання. Тепер зверніть увагу на піки, що це за числа, на яких значеннях оцінок виросли ці аномальні піки розміром в десятки тисяч учнів (з такою оцінкою)? Що це магічна послідовність 143, 152.5, 162, 171.5 ... ?
Це якраз той момент момент маленьких відкриттів, про який я казав. Я знайшов таку спеціальну таблицю, яку використовує МінОсвіти, що дає перерахунок діючих у школі 12-бальних оцінок у 100-200 бальну шкалу, і ось що вийшло: 143 - це 6 за шкільними оцінками, 152.5 - 7, 162 - 8 і так далі, тобто всі ці аномально великі піки - це все круглі числа, круглі оцінки за шкільною 12-бальною шкалою.
Окрема оцінка і є круглою - скажете ви. Так, але не середній бал атестату! Тому що у нас на графіку - це середній бал. Потрібно чимало спеціальної шкільної магії, щоб зробити середню оцінку атестату круглою. Тобто, ці піки теж яскраво свідчать про "підгонку" оцінок в атестаті.
Цей малюнок є прижиттєвим пам'ятником команді з МінОсвіти, чи не єдиним реформаторам за 20 років незалежності, що у 2008 році запровадили ЗНО. Він показує, повторюсь, що на відміну від атестату, ЗНО при всіх своїх обмеженнях є незалежним і об'єктивним.
Наступна історія буде про Верховну Раду
Верховна Рада сильно змінилася з початком президентства Януковича. Минулої осені ми обробили 18.5 тис законопроектів за період 2008-2009 та 2010-2011 роки, навіть побудували мережу зв'язків між депутатами - хто з ким співпрацює над законопроектами (виявилися цікаві неочевидні зв'язки - все це є на сайті), тому ми змогли підрахувати - як саме кількісно змінилася Рада?
Наприклад, швидкість прийняття законопроектів від президента та Кабміну зросла в 2.5 рази, не в останню чергу через невтомну роботу депутатів, що голосують чужими картками. Якщо ви не знаєте, то голосувати чужою карткою - це порушення Конституції. Та й взагалі, прогулювати свою роботу якось не прийнято - за це звільняють. Тим не менше, у нас є депутати-прогульники, що допомагають порушувати Конституцію - їх картками голосують інші.
Давайте подивимося, наскільки серйозною є ситуація із нашими законами, скільки з них було прийнято за останній рік у неконституційний спосіб? Це можна зробити за допомогою журналу ручної реєстрації, там депутат ставить свій особистий підпис.
Ми перевірили кожен голос, відданий під час одного з ~800 результативних голосувань за останній рік (таких, де було більше ніж 225 голосів "За"), перевірили за допомогою журналу ручної реєстрації, чи був у цей час депутат у залі?
Таких, "чесно проголосованих" законів (червоний колір на малюнку) виявилося аж ... 14%! (у цей список входять закони проголосовані в першому, другому читанні і в цілому). Зверніть увагу, на вечірні засіданнях депутати чесно прийняли величезну кількість законів, аж цілий один! Практично все що було прийнято ввечері, прийнято за неконституційною процедурою.
Як це змінити? Не пропускати таких депутатів - і тих хто голосує чужими картками, і тих хто не ходить на засідання, в парламент. Їх список, разом з інтерактивною версією візуалізації, з'явиться у нас на сайті протягом одного-двох тижнів. (Дивіться інтерактивну візуалізацію, та список депутатів з прогулами)
До речі, ще один результат про який ми до цього дня ще не згадували: після аналізу 18.5 тис законопроектів ми створили алгоритм, який може робити прогноз, чи пройде той чи інший законопроект?
Яка ступінь передбачуваності поточної Ради? Більше ніж 90%. Тобто, знаючи авторів законопроекту,його назву і декілька інших відкритих параметрів, можна у більш ніж 90% випадків зробити прогноз - буде він прийнятий чи ні.
Знаєте жарт про те, що цілі міністерства, у разі перемоги програмістів, можна замінити простою комп'ютерною програмою? Так от, для Верховної Ради така невеличка програма у нас вже є.
Останній приклад про який я хотів би розповісти, це тема державних закупівель. Що це таке? Коли державні підприємства - сюди входять підприємства комунальні, бюджетні установи, підприємства з часткою держави 50% та більше, замовляють собі на конкурсі (на тендері), або без конкурсу, якісь товари або послуги.
Насправді, закупівлі - це найбільш прихована таємниця нашої держави, яка лежить на поверхні.
Ця таємниця, про неї не говорять, однак її можна знайти в числах з сайту держслужби статистики та з офіційного вісника державних закупівель. Ситуація досить лячна: за чотири останніх роки, як видно з графіку, сума що була на них витрачена, зросла з 17% до 38% еквіваленту ВВП (середнє по Європі - 16%). У цьому році ми йдемо на рекорд - сума закупівель може перевищити 50% ВВП. Що це означає, серед іншого?
Сама по собі цифра страшнувата, тому що дуже мало знайдеться країн, де головний ринок - це державні закупівлі. Ми ризикуємо, як держава, вилетіти у трубу разом з цими закупівлями.
Для кого саме відбулося покращення? Згідно офіційних даних по закупівлям, з яких ми зробили базу і прикрутили до неї веб-інтерфейс, в 2008 році верхній один відсоток компаній (їх було 106), що перемагали на тендерах, отримали 37% всіх коштів.
Однак, в 2011 році такі компанії вже отримували - майже 80% усіх коштів! Загальна сума коштів для "золотого" першого відсотку зросла в 10 разів.
Що отримали інші? В 2008 році найменші 80% з усіх хто брав участь в тендерах, отримали 14% усіх коштів (трохи менше ніж має бути згідно Парето, але близько до того).
В 2011 році - 80% компаній отримали всього 4% усіх коштів від державних закупівель
Тобто, нерівність зросла у катастрофічний спосіб, монополізація держкоштів зросла у катастрофічний спосіб. А що означає така нерівність? Це погіршення усіх інших показників в економічній і соціальній сфері, від збільшення злочинності до падіння ВВП (раджу подивитися на цю тему блискучий виступ Річарда Вілкінсона на минулорічному ТЕД в Единбурзі)
Отже, не лише сама сума закупівель є загрозою, але й те як вона розподіляється.
Тут я зупиняюсь і пропоную рішення одразу двох проблем, депутатів відсутніх на засіданні Ради, і монополізації коштів держзакупівель. Сотня-дві компаній, які найчастіше виграють тендери, належить в основному якраз тим депутатам, які не ходять на засідання. Тому депутати повинні сидіти в Раді і голосувати особисто за закони, це завадить їм остаточно перетягнути на себе усі закупівлі. Це звичайно, лише напів-жарт, однак ще раз повторю, одна з наших задач - змусити депутатів у Раді голосувати особисто.
Як завжди - все у наших руках. Зміни можливі, якщо у нас в голові буде альтернативне бачення, як можна жити по іншому? Візуалізації - це інструмент, що допомагає за допомогою маленьких відкриттів, дізнаватися про справжній стан справ складних систем, будь то система освіти, економіка, чи її соціально-політичний устрій країни. Візуалізації допомагають нам створювати бачення нового.
Якщо ви вмієте робити щось одне з наступних пунктів - журналістика, програмування, дизайн, - я раджу вам спробувати створювати свої візуалізації. Це не дуже складно, але дуже цікаво і перспективно, якщо подивитися на світові тренди. Якщо ви знаєте якісь два з названих напрямків - вам практично не буде конкуренції на цьому ринку. Якщо три - негайно пишіть до нас в ТЕКСТИ листа, ми зробимо екстра-класний спільний проект.
Дякую за увагу!
P.S. Допоможіть поширити інформацію про сайт в соціальних мережах. Якщо ви лайкнете сторінку ТЕКСТІВ на Фейсбуці і порекомендуєте лайкнути її своїм друзям, це допоможе нам зробити ще більше цікавих візуалізацій