Де шукати дані?...
Сьогодні ми розглянемо доступні джерела даних. І в першу чергу джерела відкритих даних, як найбільш зручних для використання.
Найкращий варіант це портали даних, де можна швидко знайти вже систематизовані та підготовлені дані.
Крім того, на порталах дані можна отримати і через API.
В українському просторі такими є наш розділ відкритих даних та Data.gov.ua.
Специфікою нашого порталу є те, що дані з'являються в процесі роботи над проектом. Чим обумовлений перелік та тематика наявних даних, але ви можете повідомити нам про дані, які вас цікавлять.
Наразі є 25 наборів та 22 ресурси даних.
Data.gov.ua було створено майже півтора року тому. Планується, що в майбутньому портал стане єдиним державним порталом даних органів влади.
Зараз він містить близько 100 демо-наборів даних, однак з часу створення цей перелік, за одиничним виключенням, майже не змінився.
Бувають в даних і помилки.
За останніми новинами: найближчим часом, з прийняттям рішення кабінетом міністрів, мають відбутися якісь зміни.
Ще можна зустріти і окремі особисті сховища, наприклад, на github. Проте з кількістю та якістю даних тут - як пощастить.
Якщо ж необхідних даних вище не знайшлося, то продовжити пошуки можна на сайтах органів влади та недержавних організацій.
Але, щодо перших, будьте готові до квесту.
Знайшовши необхідні дані, добре коли вони структуровані і знаходяться, наприклад, в Excel-, HTML-файлах. Однак часто це може бути простий текст, зображення або PDF-файл низької якості, які потребують додаткової обробки.
З ресурсами недержавних організацій ситуація краща. Але їх потрібно ще знайти, бо їх не так вже і багато.
Якщо ж даних у відкритому доступі не знайшлося, тоді, згідно з Законом про доступ до публічної інформації, можна подати відповідний запит.
Але цей спосіб більше підходить для органів влади: інші суб'єкти обмежені, як за переліком, так і за даними, що можуть бути надані.
Недоліки тут такі ж як і у попередніх джерелах, і ще додається час очікування відповіді: по закону - від 5 до 20 роб. днів, проте варто бути готовими до різних затримок, втрат і т.д., або навіть відмов.
З детальним описом процесу подачі запиту можна ознайомитись у нашому блозі.
До опису з блогу додам ще одну пораду.
Визначайте формат відповіді, так щоб її можна було обробити якомога легше: в першу чергу запитуйте структуровані дані(таблиці, csv, xml і т.п.), якщо це зображення, то з розділенням, яке дозволить виконати розпізнавання тексту.
Вдалих вам пошуків!
Автор:
Олександр
засновник і головний розробник
CityScale.com.ua.