Центр Защиты Прав СМИ
учреждён в 1996 году
28.09.2017
В рамках мероприятия участники дискуссии расскажут об изменениях закона для СМИ за последние пару лет. 

«То, что выше наших возможностей, как правило, ниже нашего достоинства»

Владимир Калечицкий, журналист

19.05.2016

Темная сторона открытости: почему не все данные стоит раскрывать

Новые технологии позволяют гражданам узнавать о злоупотреблениях чиновников, но одновременно усиливают проблему информационного неравенства

Гетто и самосуд
Разговор о «больших данных» почти всегда сводится к обсуждению их пользы для общества и бизнеса. При этом на удивление мало информации о том, что «большие данные» часто вредят потребителю: они не уменьшают, а увеличивают информационное неравенство.

Возьмем, к примеру, данные правоохранительных органов и криминальную статистику. Имеем ли мы право знать, какие преступления происходят на той или иной улице, в том или ином районе? Жители, как правило, говорят, что да, имеют, а руководители уже на уровне муниципалитетов задаются вопросом, не спровоцирует ли это панику или социальную напряженность, не усилит ли публикация данных о качестве жизни неравенство и не подтолкнет ли к формированию гетто.
Подход может быть разным. В Великобритании на сайте police.uk публикуются данные по каждому преступлению. При этом есть ряд жестких ограничений. Самое главное, не публикуются точные геоданные о месте совершения преступлений, детализация идет только в масштабе улицы. Но можно выбрать на карте конкретную улицу или район и увидеть количество совершенных там преступлений, а также узнать об их типе и количестве пострадавших.

Полиция США, напротив, публикует подробную информацию о каждом преступлении с детализацией до конкретного адреса, а также указывает тип происшествия, число погибших или раненых. Есть несколько коммерческих проектов, таких как CrimeMapping.com и CrimeReports.com, которые эту информацию используют для оказания услуг по уведомлению граждан о новых преступлениях и помощи в выборе места жительства и работы. Популярна она и у риелторских компаний. Служба такси Uber, например, анализирует получаемые заказы, просчитывает корреляцию с уровнем преступности по районам и с учетом этого составляет маршруты движения и определяет места стоянки такси.
В других странах, например в Германии, криминальная статистика до сих пор не публикуется с такой детализацией. Причина не в риске появления гетто или паники среди населения (в развитых странах все и так знают, где гетто есть, а где его нет). Дело в том, что такую информацию активно используют преступники для поиска каналов сбыта наркотиков и оружия.

Есть и другие риски. Например, полицейский департамент Нью-Йорка открыто пополняет базу данных людей, совершивших преступления, связанные с сексуальным насилием. В базу Sex Offender Registry вносятся фотография насильника, фамилия и имя, основные параметры, раса и адрес фактического проживания. Причины, по которым такая информация должна быть в открытом доступе, понятны, но есть и серьезные доводы против ее разглашения. К примеру, риск самосуда. Представьте себе, что в России велась бы открытая база данных педофилов с указанием их мест проживания. Многие ли из них после этого проживут долго?

Повторная идентификация
Другая сфера, для которой актуальны вопросы использования открытых данных, — это образование. Много лет эксперты призывают Министерство образования, Мособрнадзор и региональные департаменты образования публиковать данные о среднем балле ЕГЭ по школам. Сейчас это один из немногих критериев оценки качества школьного образования. К ЕГЭ много претензий, но тем не менее есть основания считать, что в хороших школах оценки ЕГЭ гораздо выше среднего показателя. Пока Министерство образования не готово публиковать такие данные.

Для сравнения, в 2012 году в Великобритании была опубликована база всех учеников Великобритании (National Pupil Database). Без имен и фамилий, но с указанием школ, районов, уровня успеваемости и многого другого. Публикацию этой базы лоббировало огромное количество коммерческих компаний, дата-аналитиков, которые на ее основе оценивают качество школ в стране. Однако ряд некоммерческих организаций, к примеру Open Rights Group, высказывал опасения, что при наличии некоторых навыков программирования можно идентифицировать конкретного ученика. Этот процесс называется повторная идентификация (reidentification).

В российском законе о персональных данных такого понятия нет. Но что делать в ситуации, когда по публикуемым государством анонимным данным можно вычислить конкретного человека? Простой пример. Предположим, в реестре учеников не будет их имен, но будет номер телефона и успеваемость по каждому ученику. Через номер телефона, используя социальные сети и другие источники, можно с легкостью идентифицировать конкретного человека. Идентификация и сбор данных по номеру телефона активно используются бизнесом, например при выдаче банковских кредитов. По телефону и адресу электронной почты человека можно легко найти в соцсетях, которые активно используются кредиторами для скоринга. В презентации одной из скоринговых компаний было указано, что в своих оценках надежности заемщика компания опирается в том числе на количество музыки на его стене «ВКонтакте»: чем больше музыки у потенциального заемщика, тем ниже будет его оценка.

В нашей стране вопросы повторной идентификации на официальном уровне пока не обсуждаются.

Сканы как защита
Если госорган заключает контракт с индивидуальным предпринимателем или физлицом, он обязан опубликовать его персональные данные. Этого требует федеральный закон о госзакупках, устанавливающий исключение из закона о персональных данных. Фактически это означает следующее: если вы вступили в финансовые отношения с государством, особенно если вы при этом ИП, то всегда есть вероятность, что ваши данные будут опубликованы в открытом доступе и вы их не сможете удалить никогда.
Парадоксальным образом одним из главных барьеров приватности и защитой от подобного раскрытия информации является то, что большинство госдокументов до сих пор публикуется в отсканированном виде. Для тех, кто работает с данными, это проклятие, а для граждан главная защита, потому что пока еще поисковые системы не научились автоматически извлекать информацию из документов в формате PDF, TIFF и т.п.
Это касается не только госзакупок. На многих других государственных информационных системах, например портале torgi.gov.ru, в последние годы публикуют личную информацию о победителях конкурсов, которую далеко не каждый гражданин готов опубликовать самостоятельно.
Эта информация чувствительна для обычных людей, но не для ведомств или конкретных чиновников. Кстати, последние не спешат раскрывать информацию о себе. В частности, получить декларации о доходах от большинства чиновников в машиночитаемом виде очень трудно. Они все публикуются в отсканированном виде, причем зачастую это делается сознательно, чтобы с ними было максимально неудобно работать.
Сейчас публикация договоров в виде сканов — единственный барьер, ограничивающий возможности поиска информации. Но российские и зарубежные компании активно занимаются разработкой софта для распознавания текста. Когда поиск по этим документам станет возможным, люди тут же начнут искать данные друг друга и обнаружат немало интересного.

Системный подход

В вопросе информационной открытости есть две стороны. С одной стороны, «панамские бумаги» убеждают нас в ее пользе: мы получаем больше информации о лицах, принимающих решения, и видим случаи масштабной коррупции. Представители гражданского общества начинают кооперироваться в стремлении к прозрачности, например для обработки «панамских» данных и проведения расследований (в России большую работу проделали журналисты «Новой газеты» и РБК, а центр «Трансперенси Интернешнл — Россия» провел «офшоротон» с привлечением полусотни волонтеров).

С другой стороны, каждый из нас по отдельности беззащитен перед корпорациями с их огромными техническими ресурсами, позволяющими обрабатывать наши данные. Это и есть цифровое неравенство: мы знаем о банках и их владельцах очень ограниченный объем официальной информации, которую требует публиковать ЦБ. Банки могут узнать о нас значительно больше, изучая наши соцсети и следы в интернете. Корпорации, основанные на данных (data corporations), знают многое о наших потребительских предпочтениях и начинают манипулировать нами, подкидывая нужную рекламу. По косвенным признакам о нас можно узнать больше, чем мы бы сами хотели рассказывать окружающим. Например, согласно одному из исследований, по уровню заряда телефона в течение дня с  точностью 90% можно определить вероисповедание его владельца. В России эта проблема пока не осознается ни обществом, ни государством, которое, несмотря на закрытость в определенных вопросах, выкладывает в открытый доступ очень много данных.

Если не вести общественную дискуссию, не заниматься всесторонним и максимально широким обсуждением вопроса, то количество проблем, связанных с раскрытием или нераскрытием данных, будет только расти. И люди, владеющие технологиями, смогут узнавать о нас гораздо больше, чем мы бы хотели.

Источник: "РБК"