пятница, 10 мая 2013 г.

Руфус Поллок: Забудьте «большие данные», настоящая революция связана с «маленькими данными»


Заметка Руфуса Поллока (Rufus Pollock) была опубликована на блоге фонда «Открытые знания» (Open Knowledge Foundation) 22 апреля 2013 года.

Сейчас много говорят о «больших данных». Например, в данный момент проходит «Неделя больших данных», в рамках которой посвященные большим данным мероприятия  пройдут в десятках городов по всему миру. Но в дискуссиях вокруг больших данных упускается из виду гораздо более масштабная и более важная общая картина: реальные возможности связаны не с «большими данными», а с «малыми». Не централизованное перемалывание данных супермощными системами («big iron»), а их децентрализованная переработка. Не «одно кольцо, чтобы управлять ими всеми», а «свободно соединяемые маленькие звенья».

Д-р Руфус Поллок является основателем и одним из руководителей фонда «Открытые знания» (Open Knowledge Foundation)

 «Большие данные» попахивают очередной попыткой централизации из числа тех, что мы видим на каждом этапе развития компьютерных вычислений. Мысль о том, что «Эй, здесь больше данных, чем мы можем обработать!» (которая, несомненно, остается справедливой из года в год с момента появления компьютерных вычислений) подается  как последний тренд – вместе с соответствующими технологиями, которые просто необходимо иметь.

Тем временем мы рискуем проглядеть гораздо более интересное направление, настоящую революцию, которой является массовая демократизация средств обеспечения доступа, хранения и обработки данных. Здесь речь идёт не о больших организациях, использующих параллельно работающее программное обеспечение на десятках тысяч серверов, а о том, что больше людей, чем когда-либо, сейчас могут эффективно взаимодействовать в рамках распределенной экосистемы информации, - экосистемы малых данных.

Точно так же, как теперь кажутся смешными попытки говорить о «большом программном обеспечении», - как будто размер сам по себе является мерилом ценности, - в один прекрасный день станут казаться странными разговоры о «больших данных». Сам по себе размер/объём не имеет значения - важно располагать теми данными (какими бы они ни были по объёму), которые помогают решить проблему или ответить на стоящий перед нами вопрос.

Для решения многих задач и вопросов вполне достаточно «малых данных». Данные о потреблении энергии моей семьёй, расписание местных автобусов, государственные расходы - всё это малые данные. Всё, что обрабатывается в Excel, это тоже малые данные. Когда Ханс Рослинг (Hans Rosling, см. http://ru.encydia.com/en/Ганс_Рослинг ) показывает нам, как можно понять наш мир через изменение численности населения или его грамотности, он делает это с использованием малых данных.

И когда требуется увеличить масштабы обработки данных, сделать это можно через разделение данных на блоки малых данные (componentized small data) - путем создания и интеграции «пакетов» малых данных вместо строительства монолитов больших данных; путем разбиения проблем на части так, чтобы их одновременно могли решать многие люди и организации, а не посредством создания отдельных колоссальных центров централизованной обработки данных.

Следующее десятилетие будет принадлежать распределенным, а не централизованным моделям; коллективному сотрудничеству, а не контролю; а также «малым», а не «большим» данным.

Руфус Поллок (Rufus Pollock)

Источник: блог Open Knowledge Foundation
http://blog.okfn.org/2013/04/22/forget-big-data-small-data-is-the-real-revolution/

1 комментарий:

  1. Наташа, спасибо за шаринг интересной точки зрения на проблематику "больших" и "малых" данных.

    Моя точка зрения - применять следует тот инструмент, который наиболее подходит для текущей ситуации. Это м.б. и big data и excel. Значительно важнее мастерство самого субъекта, который эти инструменты применяет для своих конкретных целей, а также то, как он с помощью данных инструментов достигает заданного результата.

    ОтветитьУдалить