Непаханное поле больших данных: инструкция для НКО по работе с Big Data


Раскрыть картель за 5 секунд. Эксперты рассказали, как правозащитники и НКО могут работать с Big Data

Что такое большие данные и чем Big Data отличается от Open Data? В рамках подкаста узнали, как правозащитникам и представителям НКО использовать в работе анализ информации из сети, что можно сделать с большими данными на обычном компьютере, какие программы использовать и как не нарушить закон. Также выяснили, кто из современных НКО работает с Big Data и какие расследования уже вышли в России и за рубежом.

Эксперты:

  • Сергей Устинов — эксперт Комитета гражданских инициатив;
  • Дмитрий Сухарев — руководитель отделения «Трансперенси Интернешнл — Россия» в Санкт-Петербурге;
  • Саркис Дарбинян — ведущий юрист проекта «РосКомСвобода».

Слушать в iTunes.

Сергей Устинов — эксперт Комитета гражданских инициатив:

Big Data — это маркетинговый термин, который появился в последние годы. Выросли возможности, а хранить и обрабатывать данные стало дешево. Люди, которые начали на этом зарабатывать, решили выделить эти данные на фоне остальных. Придумали термин Big Data. Якобы у вас есть какие-то большие объемы данных о том, что ваша аудитория делает, а мы можем это хранить и обрабатывать, чтобы помогать решать какие-то конкретные задачи. Если говорить про обывательское обозначение: если ваш компьютер не может это обработать и зависает — можно называть это большими данными.

Чтобы что-то проанализировать, достаточно компьютера и программы Excel. Есть Google Таблицы, для визуализации можно использовать Tableau и DataWrapper. Если компьютер не зависнет от большого объема данных, то можно анализировать и без программирования. Например, можно на компьютере проанализировать 50 тысяч строк. Здесь нужно скорее уметь искать данные. У нас есть bus.gov.ru — это про бюджетные учреждения, есть портал ГИБДД — это про ДТП. Есть госконтракты — это про финансы и траты. Здесь важен первичный запрос — зачем это нужно. Потом начинается поиск, где данные можно найти. Когда находишь, уже думаешь — а чего в этих данных может быть интересного.

Например, у нас есть проект по ДТП, где мы берем открытые государственные данные. И они запакованы в не очень удобном формате, сделаны для чиновников — можно сравнить насколько в течение месяца или года изменялась аварийность в районе или городе. По сути, рядовому человеку это не очень интересно. Человеку интересен конкретный перекресток, где его ребенок ходит, начинающему водителю — опасные участки, урбанистам — проблемные места в городе, которые необходимо перепроектировать. Госотчет не может на эти вопросы отвечать. Мы взяли эти данные, переработали, и теперь все это можно делать. Заход должен быть с проблематикой общества.

Почему от государства стоит требовать не только открытости, но и исходные данные, когда они выкладывают отчеты. Например, если мы говорим про ДТП, нам могут сказать, что на Северном Кавказе очень мало аварий. А когда начинаем копаться в данных, понимаем, что на Северном Кавказе очень мало ДТП регистрируется. Люди сами разбираются на дорогах между собой и разъезжаются. А в отчетах мы слышим, что ДТП мало, и нам кажется, что там порядок. Хотя на самом деле порядка нет. И государство исключено из сферы ДТП.

Многие НКО сами создают данные. Например, в экологии. В Европе ставят датчики по городам. В Нью-Йорке волонтеры собрали данные о каждом дереве — рост, возраст. Посчитали, какую каждое дерево приносит экономию в денежном эквиваленте и сколько приносит преимуществ для жителей — создает тень, очищает воздух и так далее. Инвентаризацию всех деревьев в Нью-Йорке провели. Теперь, когда чиновники хотят срубить какое-то дерево, волонтеры показывают — это дерево, по нашей оценке, приносит пять тысяч долларов. У них появляются новые аргументы.

Дмитрий Сухарев — руководитель отделения «Трансперенси Интернешнл — Россия» в Санкт-Петербурге:

Некоторые наши исследования невозможно было провести, обрабатывая информацию вручную. Самый простой пример — расследования, которые мы делаем по недвижимости чиновников, по декларациям. Есть большой список объектов недвижимости, по которому известны фамилия, имя и отчество собственников. И для того, чтобы понять, тот ли это человек, приходится какие-то формулы вводить. Если 50 тысяч выписок просматривать вручную глазками — я боюсь представить, сколько времени потребуется, чтобы это все обработать. При автоматической обработке в обычную программу Excel, я просто добавляю новую выписку и формулу, и эта формула мне показывает есть ли совпадения. На это требуется пять секунд. Если делать это вручную, это займет минут 20 на одну выписку.

[Работа с большими данными пригодится], когда вы хотите составить какое-то мнение о госоргане или поставщике на госзаказе. Или вы хотите найти картель. На счету «Трансперенси» как минимум четыре исследования о подтвержденных картелях, один из которых на сумму более, чем миллиард. Невозможно сесть и отсмотреть все контракты, которые есть. Картели ловятся только при помощи специально написанных программ.

Мы все знаем как чиновники в росреестре пытаются скрыть свою собственность. Видим, как на госзакупках пытаются скрыть те или иные закупки. Искать это достаточно сложно, но можно. Интернет такая штука — оттуда ничего нельзя удалить. Даже если что-то удалил, оно все равно где-то появится. Попытки засекретить, скрыть, спрятать — они все равно будут обречены на неуспех.

Если у вас 50 тысяч строк, то Excel это «скушает». Все, что дальше — оно уже обрабатывается другими программами. Например Tableau или Open Refine. Эти программы позволяют работать с по-настоящему большими объемами данных. Но получить какие-то результаты можно и при помощи Excel.

Мы с такими программами стали работать относительно недавно. Tableau используем для того, чтобы визуализировать большие объемы данных. Open Refine — это специальный инструмент, который позволяет анализировать данные, он ест немного памяти, а функционал у него больше, чем у Excel.

Саркис Дарбинян — ведущий юрист проекта «РосКомСвобода»:

Рынок больших данных пока находится в серой зоне. У нас законодательно никак не урегулирован порядок хранения и обработки такого массива информации. При этом оборот таких данных частично покрывается законодательством о персональных данных — это 152-ФЗ. Это предусматривает определенную ответственность, права и обязанности для операторов этих данных. И, соответственно, никто не признает, что он обрабатывает большие данные на своей стороне. В основном это делают те, кто эти данные собирает. Они же могут предоставлять какой-то скоринг.

Сейчас предпринимаются попытки отрегулировать оборот больших данных. Буквально недавно был представлен законопроект по этому поводу. Сейчас же есть федеральное законодательство, и есть вопрос о защите персональных данных. Европейское законодательство сильно отличается. Поэтому важно понимать, с какими данными вы работаете, кому они принадлежат — жителям России или Европы. Либо это жители различных стран — например, в США свои правила, связанные с обработкой данных лиц.

Самое важное, это понимание того, что использование данных не должно ни в коем случае навредить человеку и должно использоваться в этичных целях.

Мнение участников программы может не совпадать с мнением редакции.
Теги: Big Data, данные

Понравилась статья? Поделись с друзьями!

comments powered by HyperComments