Что такое открытые данные
Открытые данные — это любая структурированная информация, которая доступна публично и может быть повторно использована. Другими словами, это упорядоченные данные в формате, пригодном для машинной обработки. В случае с открытыми данными обычно ведут речь о всевозможной (государственной) статистике, которая собрана на средства налогоплательщиков, но по большей части пылится в бумажных архивах или теряется в отраслевых сборниках и ведомственных отчетах. Одна из задач движения за раскрытие данных состоит в том, чтобы вернуть эти данные в экономический оборот.
Пример для наглядности. Знаменитый портал открытых данных США Data.gov сегодня содержит описания и ссылки на 390 253 массива данных по различным сферам государственной деятельности: от занятости до международных спонсорских программ американского правительства. Буквально в несколько кликов мыши журналист, исследователь или просто неравнодушный избиратель может посмотреть, сколько долларов было потрачено, скажем, на поддержку демократии в отдельно взятой стране.
Простота и оперативность работы с информацией становится возможной благодаря тому, что данные предоставляются в структурированном виде и в машиночитаемом формате (csv, xml, rdf и др.). Чтобы почувствовать разницу, желающие могут сравнить формат публикации Индекса потребительских цен на сайте Белстата (html) и на сайте статкомитета Канады (csv). Именно машиночитаемый формат данных позволяет по-настоящему их раскрыть.
Открытость и «открытость» данных
Казалось бы, отличие несущественно: в обоих случаях данные опубликованы. Но для анализа той же белорусской инфляции за нужный период данные в формате html нужно сначала скопировать, преобразовать в таблицу и только потом можно начинать с ними работать. Если же вам нужны данные за большой период, то задача усложняется поиском и сбором данных на разных html-страницах. Наконец, задача становится особенно сложной, если приходится искать и собирать нужные данные из нескольких файлов в формате doc или pdf. Таким образом, публикация данных еще не означает их раскрытия.
Эту проблему, конечно, можно решать без участия государства — но с государственной поддержкой дело движется гораздо быстрее. Так, до 2010 года британское правительство публиковало отчеты о расходах депутатов парламента в формате pdf. В 2009 году — за год до выборов — британская газета Guardian загрузила 458 832 страниц этих документов в специально созданную базу данных и предложила посетителям своего сайта изучить эти отчеты (о командировочных, офисных, представительских и других расходах депутатов за счет бюджета).
Уже на четвертые сутки около 20 000 волонтеров обработали более 170 000 страниц. Результаты анализа были преобразованы в машиночитаемый вид и опубликованы в специализированном блоге газеты с возможностью сортировки по именам депутатов, округам, партийной принадлежности и т. д. Как результат — сразу после выборов в мае 2010 г. новый состав парламента принял Акт о парламентских стандартах, регулирующий депутатские расходы, а в декабре заработала специальная база данных. В ней можно найти нужного депутата и посмотреть, на что и сколько бюджетных фунтов он потратил, а также выгрузить эти данные себе на компьютер в машиночитаемом формате csv.
Кому нужны открытые данные?
Из приведенных выше примеров уже понятно, что главными потребителями открытых данных являются специалисты по анализу информации: аналитики, исследователи, журналисты, а также студенты. И соответственно, в наличии и умножении открытых данных заинтересованы исследовательские центры, университеты, информационные агентства, (отраслевые) СМИ, а также разнообразные гражданские и политические проекты.
За последние годы многие глобальные организации открыли на своих официальных сайтах специальные каталоги открытых данных. Вот лишь несколько примеров: Всемирный банк, ООН, Международный валютный фонд. Такие проекты существенно облегчают рутинную работу специалистов по поиску, сбору и упорядочиванию информации и освобождают больше времени на сами исследования или на подготовку журналистских материалов. С другой стороны, нужно признать, что раскрытие данных одновременно подрывает информационные монополии государств и признанных исследовательских центров, но это уже другая история.
Наряду с проектами глобального уровня развиваются и национальные каталоги. При поддержке государств уже несколько лет действуют порталы открытых данных в Великобритании, Австралии, Норвегии, Франции. Независимо от государства развиваются каталоги в России, Германии, Испании, Польше. Подробный список каталогов можно найти на сайте Datacatalogs.org.
Где бизнес?
Проекты подобного рода обычно являются бесприбыльными и создаются на деньги донорских организаций. Однако профессиональные web-разработчики и информационные архитекторы сделают правильный вывод о том, что создание и поддержка таких каталогов может быть выгодным делом, особенно если речь идет о госзаказе. Например, максимальная стоимость прошлогоднего тендера на разработку портала открытых данных ЕС составляла EUR 800 000. Его планируется запустить этой весной.
Коммерческих проектов на основе открытых данных пока не так много. Например, сайт Datamarket.Com предлагает несколько тарифных планов с различным функционалом для коллективной работы, визуализации и экспорта данных. В качестве «сырья» используются данные в т. ч. и из перечисленных выше глобальных и национальных каталогов. Вероятно, подобные бизнес-проекты могут заинтересовать СМИ, которые не считают целесообразным выделять дополнительные бюджеты на разработку таких платформ у себя.
Также существует множество платных информационных приложений для мобильных устройств, в которых используются открытые данные: от реестров музейных памятников (с указанием геокоординат) до списков ресторанов и кафе, к которым у санэпидемстанции есть претензии. Такие виды бизнеса начинают развиваться, как только Министерство культуры и Центр гигиены и эпидемиологии публикуют эту информацию в виде открытых данных. Государство в этом случае предоставляет информационное «сырье», а бизнес начинает конкурировать в том, как удобнее его «упаковать» и доставить потребителю.
Данные — это капитал
Многим известны информационные приложения с данными о погоде в нужном городе или о пробках на дорогах в определенное время. Но также существует огромный массив информации, которая используется не так активно или не используется совсем: о загрязненности воздуха и воды, о состоянии преступности, о радиационном фоне, санитарной обстановке, об изменениях в расписании движения транспорта.
Эта и другая информация десятилетиями и даже столетиями собирается государственными органами на средства налогоплательщиков, но обычно хранится на архивных полках или публикуется на ведомственных сайтах в немашиночитаемых форматах. Сегодня, благодаря распространению Интернета и всевозможных персональных устройств, эту информацию можно и нужно пускать в оборот. Например, прогнозный объем рынка мобильных приложений на основе открытых данных в ЕС к 2013 году составляет EUR 15 млрд.
Кроме коммерческой выгоды не стоит забывать и о другом важном виде капитала — доверии граждан. В накоплении этого капитала заинтересовано, прежде всего, само государство. Недаром кандидат в президенты В. Путин посвятил большую часть своей последней статьи в «Коммерсанте» новым механизмам участия и укреплению обратной связи между гражданами и властями. Судя по тому, что ранее об открытых данных говорила глава Минэкономразвития РФ Набиуллина, эта тема выходит за рамки только предвыборной агитации. Проблема доверия власти тем более актуальна для Беларуси, где за последний год доверие государственным органам обрушилось до исторического минимума.
Открытые данные в Беларуси закон «О доступе к информации о деятельности государственных органов», однако процесс замедлился. В отсутствие единой стратегии раскрытия государственных данных, отдельные
Ситуация с открытостью государственных данных в Беларуси в целом неплоха. Главная проблема связана с отсутствием национальной стратегии раскрытия данных в машиночитаемом виде. Год назад во время послания народу и парламенту президент Лукашенко говорил о необходимости разработать госорганы Беларуси действуют по собственной инициативе — и это следует приветствовать.
Справедливости ради нужно сказать, что с недавних пор Белстат публикует все больше информации в машиночитаемом виде (xls). В декабре 2011 года в тестовом режиме была запущена полезная база данных с результатами последней переписи населения и возможностью экспорта данных. Тем не менее, на сайте Белстата еще очень много немашиночитаемых данных, что заставляет белорусских разработчиков выступать с такими вот обращениями. Другие органы власти РБ также движутся в этом направлении: Национальный банк, Таможенный комитет, Министерства юстиции, образования и здравоохранения и др.
Что касается использования данных в Беларуси, то по указанной выше причине отсутствия единой стратегии большинство проектов вынуждены пользоваться тем, что есть. Из проектов СМИ можно упомянуть статическую и интерактивную flash-инфографику на сайте информагентства БелаПАН, а также инфографический раздел на сайте информагентства БелТА. Серьезным шагом вперед стал запуск проекта «Криминальная карта Минска» в декабре прошлого года. Все эти проекты построены на данных, преобразованных в машиночитаемый формат усилиями их авторов, а не государством.
Рано или поздно белорусские власти будут вынуждены реализовать идею открытых данных — хотя бы потому, что наши партнеры по Единому экономическому пространству опережают Беларусь в развитии служб электронного правительства. Для этого нужно, как минимум, упомянуть принцип открытых данных в готовящемся законопроекте «О доступе к информации о деятельности государственных органов» и обязать государственные органы публиковать на своих сайтах данные в машиночитаемых форматах.
В выигрыше от этого шага окажутся все. Центральные власти смогут более эффективно контролировать работу региональных и местных властей, профессионалы будут тратить меньше сил и нервов на поиск и обработку нужной информации, а рядовые граждане и иностранные гости получат множество новых полезных сервисов и, вероятно, станут больше доверять властям. Правда, последнее нельзя гарантировать, но попробовать все же стоит.