Математика явки: близько 400 тисяч голосів у першому турі було фальсифіковано? (оновлено)
За допомогою центральної граничної теореми можна виловлювати нерегулярності на виборах. Тому що чесні вибори генерують результати, що можуть бути представлені у вигляді добре відомої усім статистикам функції - нормального розподілу.
Рахував: Анатолій БОНДАРЕНКО (@dvrnd)
Як виглядають чесні вибори на графіках?
А виглядають вони як гауссіан - одногорба симетрична крива.
Почнемо з картинки (Польша, 2005 рік, другий тур президентських виборів)
По осі Х - відвідуваність на дільниці, по осі Y - кількість дільниць. Цей графік показує розподілення дільниць у залежності до явки. Видно, що дільниць з дуже маленькою, а також дуже великою явкою, було мало.
На більшості дільниць явка була порядку 50%. Як бачите, перед вами симетрична функція з одним горбом, яку ще називають гаусовою кривою, або гауссіаном. Ще одна назва – функція нормального розподілу випадкової величини.
Такого типу криві виникають там, де (згрубша) якась величина має тенденцію групуватися навколо свого середнього значення.
Трохи більш адекватне математичне пояснення можна знайти у статті "Росія і Україна: Нерегулярні результати регулярних виборів". Зараз для нас достатньо двох фактів – перше, подібна форма графіку виникає в природі дуже часто (наприклад, якщо намалювати криву для розподілу чоловіків по зросту – то виникне схожа картинка).
І друге: якщо вибори проходять чесно, то графік розподілу явки виборців є схожою кривою – одногорбим та симетричним.
На підтвердження цього існують графіки явки для багатьох виборів там, де вони визнані (незалежними спостерігачами) чесними - наприклад, в країнах Балтії.
Один із багатьох прикладів – наведений вище графік для Польщі.
Росія
Тепер подивимося на більш сумну картинку – вибори президента в Росії, 2008 рік.
Перша частина графіка - приблизно до 60% явки - схожа на нормальний розподіл, але потім різко змінює свою поведінку.
Саме так впливають на розподілення явки фальсифікації та використання адмінресурсу: штучне дописування голосів в протоколах та збільшення явки, вкидання бюлетнів, примус голосувати за якогось кандидата, тощо.
Коли виборчі комісії штучно міняють таким чином результати, вони і не підозрюють, що спотворюють загальний розподіл - а це потім можна буде визначити. Ілюстрація - на Мал.2.
Ось y цьому дослідженні, яке значною мірою надихнуло мою статтю, дуже цікаво написано про цілий ряд російських виборів останнього часу.
Деякі спостереження – просто зворушливі. Так, зубці "пилки" на другій половині графіку з Мал.2 виникли не в довільних місцях, а на круглих показниках явки: 70, 75, 80, 85%.
Просто комісії підганяли результати під красиву звітність.
Наш перший тур
Тепер повернемося до результатів 1-го туру наших президентських виборів (усі дані, з якими я працював для написання статті, отримані з сайту ЦВК).
Дані в одному великому текстовому файлі лежать тут - для тих, хто хоче погратися з ними сам.
Ось так виглядає графік розподілу явки:
Видно, що наші вибори за розподілом явки значно більше схожі на вибори у Польщі, ніж на той тихий жах, що відбувався в Росії.
Однак, якщо придивитися уважніше, то невеликі проблеми є і у нас – приблизно починаючи з рівня 77%-ї відвідуваності, крива трохи вище, ніж має бути. Для порівняння, зеленим кольором позначено ідеальний варіант нормального розподілу.
Для того, щоб зрозуміти, де в першому турі відбувалися “нерегулярності” – наступні два графіка.
На першому зображено розподіл усіх дільниць, з відвідуваністю більше ніж 77% (там, де починаються нерегулярності на графіку для явки на Мал. 3).
Їх – 8691, середня кількість виборців на них – 408 чоловік. Видно, що це переважно дільниці невеликого розміру.
На другому графіку - ще більш екстремальні дільниці, де було 100% явки. Їх 381, і вони відповідають за ту саму крайню праву точку на головному графіку малюнку 3, яка є найбільш нерегулярною (задертий правий "хвіст" найбільше вибивається з форми нормального розподілу).
Середня кількість виборців на такій дільниці – 212 чоловік, тобто за розміром це - одні з найменших дільниць по країні.
Для того, щоб оіцнити кількість “нерегулярних” голосів, можна використати т.з. метод Шпилькіна.
Для цього будується графік, де по Х так само відкладається явка, а по осі У – кількість голосів (в інтервалі 1% явки), відданих на дільницях з таким значенням відвідуваності.
Це теж – нормально розподілена величина (дивись примітку ** нижче).
Зеленим кольором, знов таки, показане ідеалізований нормальний розподіл – тобто, як виглядали би результати виборів за повної відсутності нерегулярностей: маніпуляцій, адмінресурсу і впливу на голосування, тощо.
Для любителів точних параметрів - це нормальний розподіл явки у відсотках, із середнім, що дорівнює 67%, і з стандартним відхиленням у 6.9. Це непогане співпадіння - за даними ЦВК, середня явка склала 66.76%.
За різницею між цими двома графіками можна оцінити кількість нерегулярних голосів у масштабах всієї країни. За дуже грубою оцінкою – під підозрою є близько 400 тис. голосів, тобто ~ 1.6%. ***
Три перших позиції
І нарешті, останній графік – це результати для трьох лідерів – Януковича (блакитний колір), Тимошенко (червоний колір), та Тігіпка (коричневий колір) в масштабах усієї країни.
Тип графіків – такий самий, як і на мал. 6. Тобто по осі Х – відвідуваність, по осі Y – кількість голосів, набраних кожним кандидатом на дільницях з відвідуваністю X.
Графік Тігіпка – майже ідеальний нормальний розподіл - схоже, що адмінресурс на нього не працював, і голоси не дописували.
З Тимошенко і Януковичем – трохи складніше. Видно, що результати саме цих двох кандидатів, починаючи з того самого рівня приблизно у 77%, створюють нерегулярності на загальному графіку.
Хто ж з них “дописав” більше?
Зверніть увагу на те, що графік Тимошенко з якогось моменту перетинає графік Януковича, хоча такого бути не повинно. Таке аномальне збільшення показників Тимошенко може непрямо свідчити, що загалом по країні адмінресурс прем'єрки виявився довшим, ніж адмінресурс лідера ПР.
Однак ще раз хочу наголосити – розмова йде про 1-2% нерегулярностей, так що в першому турі наші вибори можна вважати чесними і демократичними, як і стверджували більшість спостерігачів.
Висновки
Фальсифікації (впливи на волевиявлення) у першому турі були, але незначні. За отриманими результатами - це менше ніж 2% голосів.
Підозри викликають результати двох лідерів - Януковича та Тимошенко. А от, скажімо, графік Тігіпка, з цієї точки зору - практично ідеальний.
Спостерігачам, від кого б вони не були, варто звернути увагу на дільниці з рівнем відвідуваності більше ніж 77%. З великою долею ймовірності, саме на них відбувалося спотворення результатів голосування.
Особливої уваги потребують невеликі дільниці, з кількістю виборців у декілька сотень чоловік і менше.
Однак в першу чергу, варто розібратися з дільницями, де відвідуваність була 100%.
Безумовно, на дільницях з 100% відвідуваністю відбувалося застосування адмін-ресурсу.
Не важливо, за кого змушували голосувати, однак голосувати точно змушували (або заповнювали всі невикористані бюлетні), інакше б не було так багато випадків 100% результату (дільниць із такою відвідуваністю повинно бути в десятки рази менше).
Така відвідуваність - це ненормально для демократичних виборів (див. графік з Мал. 1). Зрештою, ми все таки не Північна Корея, і люди не вибирають з одного кандидата на ім'я Кім Чен Ір.
Примітки
** Чому? Це потребує додаткового математичного аналізу, точніше мат. статистичної моделі
*** Модель, за якою підбирався ідеальний нормальний розподіл, потребує більш стійкого до зміни параметрів алгоритму.
Післямова №1
Хоча у назві статті і вживається - дещо претензійно - слово "математика", все ж таки це не математична стаття, а серія гіпотез. Автор відштовхувався від уже проведених досліджень, провів ряд експериментів з числами від ЦВК і оцінив рівень фальсифікацій, як міг.
Однак! На найбільш цікаві математичні питання, що виникають під час вивчення даних голосування, ця стаття відповіді не дає.
Наприклад, немає в статті доказу того, що на "чесних" виборах форма розподілу явки - симетричний "дзвін", або чому таку ж форму має графік сумарної кількості голосів, отриманих на дільницях з однаковим рівнем явки.
Експериментальні дані виборів у різних країнах підтверджують таку поведінку графіків, однак це не зовсім математика. Вочевидь, йдеться про застосування центральної граничної теореми, однак у який спосіб?
Післямова №2
Ця стаття не була б написана, якби не два open source інструменти: мова статистичної обробки даних R, за допомогою якої проводились числові експерименти, та мова програмування Ruby, на якій був написаний скрипт, що скачав дані по 30+ тисяч дільницям з сайту ЦВК.
Ну і звичайно, хто б не був новим президентом, наша справа зробити так, щоб ми завжди мали доступ до даних із сайту ЦВК. Та з інших урядових сайтів також. Зрозуміло навіщо, правда?
Післямова №3
Один з читачів (що приємно, це один з авторів методик, що використані в статті ) звернув увагу на те, що ЦВК змінила формат результатів по дільницям - з них були прибрані дані по кількості зареєстрованих виборців. Поки ми будемо листуватися з ними, хочу викласти початковий варіант даних ЦВК, де є вся інформація.
Формат полей описаний у файлі README. У кожному файлі - дані по ТВО з номером, що дорівнює імені файла.
Післямова №4
Тепер на графіках можна подивитися самому, що у в різних регонах відбувалося з явкою, за допомогою онлайн-інструменту: http:/
_________________________
Сайт TEXTY.org.ua існує завдяки пожертвам наших читачів.
Фінансова підтримка кожного з вас дуже важлива для нас. Звертаємося з проханням здійснити пожертву на підтримку ТЕКСТІВ.
Якщо ви зробили пожертву, то просимо повідомити нас по емейлу texty.org.ua равлик gmail.com і вказати, на яку платіжну систему ви переслали кошти