Статья Сираджа Дату (Siraj Datoo – на фото) была опубликована на сайте британской газеты «Гардиан» 14 января 2014 года.
«Большие данные» были в 2013 году одним из самых модных понятий, и организации нередко использовали этот термин неуместно и в неправильном контексте. В этом году, люди, наконец, поймут, что он означает.
Если оглянуться на 2013 год, то его можно рассматривать как прорывной для «больших данных», причем в основном в плане осведомленности о них, а не с точки зрения инноваций. Следствием растущего интереса к «большим данным» стало беспрецедентное внимание со стороны крупных игроков рынка. Все корпорации, такие, как Google , IBM, Facebook и Twitter, приобрели компании, действующие с области «больших данных». Документы, раскрытые Эдвардом Сноуденом, также показали, что спецслужбы уже лет десять собирают «большие данные» в виде метаданных и, среди прочего, информацию из профилей пользователей социальных сетей.
Центр обработки данных, обслуживающий всемирный онлайн-центр компании Google в Далласе, штат Орегон, США, был первым в своем роде среди построенных этим онлайн-гигантом. Фото: Google / Rex Features
Помимо этого, «большие данные» стали в 2013 году самым ненавистным для всех модным словом из-за его повсеместного, от заседаний высшего руководства компаний и до конференций, использования не по делу. Как следствие, бесчисленные аналитики, журналисты и читатели стали призывать людей прекратить болтовню о «больших данных». Хорошим примером может служить публикация, появившаяся на прошлой неделе в «Уолл-стрит джорнал» (Wall Street Journal, http://online.wsj.com/news/articles/SB10001424052702304325004579295143935713378 ), где читатель пожаловался: «Масса компаний говорит о них, однако немногие знают, что это такое».
Хотя это действительно серьёзная проблема, с ней связано моё первое предсказание:
1. В 2014 году люди начнут, наконец, осознавать, что стоит за термином «большие данные». В настоящий момент, как выяснилось, многие этого не понимают (см. http://qz.com/81661/most-data-isnt-big-and-businesses-are-wasting-money-pretending-it-is/ ).
Правда заключается в том, что мы только начали всерьёз говорить о больших данных, и компании не собираются прекращать шумиху вокруг своих последних крупных начинаний в этой области. Смотрите, ещё только начался январе, и социальная сеть библиографических ссылок Pinterest ( https://www.pinterest.com/ ) уже скупила платформу распознавания графических образов VisualGraph ( http://www.visualgraph.com/ ) . Зачем? Pinterest хочет понять, что за графические изображения пользователи размещают в этой сети, и разработать более совершенные алгоритмы, помогающие пользователям лучше отражать то, что их интересует).
Итак, давайте начнем 2014 год с правильного шага - с определения больших данных, предложенного исследователями из британского университета Сент-Эндрюс, которое достаточно легко понять (см. обзор определений «больших данных», подготовленный Джонатаном Уордом и Адамом Баркером - Jonathan Stuart Ward and Adam Barker "Undefined By Data: A Survey of Big Data Definitions", http://arxiv.org/pdf/1309.5821.pdf ):
«Хранение и анализ больших и/или сложных наборов данных с использованием ряда методов, включающих (список не является исчерпывающим) NoSQL, MapReduce и системы машинного обучения»Как об основных характерных свойствах «больших данных» обычно говорят об их объеме, темпах создания и разнообразии (т.н. «три V» - volume, velocity and variety; см. пост Дуга Лейни (Doug Laney) из консультационной фирмы Gartner “Deja VVVu: Others Claiming Gartner’s Construct for Big Data”, http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ ) . И как трактовать прилагательное «большие»? Если ваш личный ноутбук способен обработать данные в электронной Excel-таблице, это не «большие данные».
Мой комментарий: Со всем уважением к автору статьи и британским ученым, я считаю такое определение неточным. Сам по себе объём данных не имеет абсолютно никакого значения, если наборы данных просто устроены, а содержащиеся в них записи более-менее взаимно-независимы.
С моей точки зрения, о «больших данных» говорить можно тогда, когда с использованием сложных нетрадиционных алгоритмов и/или огромных вычислительных мощностей осуществляется переработка информационной «руды» с целью извлечения из неё неочевидных трудноизвлекаемых знаний.
Я также считаю, что во всех случаях, когда нужный результат может быть получен путем обработки высококачественных «небольших данных», этот путь более надёжен и экономически эффективен, - что, между прочим, подтверждает практический опыт, накопленный многими научными дисциплинами. Когда есть возможность выбора, всегда выгоднее перерабатывать обогащенную руду, чем отвалы пустой породы. - Н.Х.
Мой комментарий: Последнее утверждение показывает, что автору статьи не чужды распространенные предрассудки. Вопрос ведь не только в количестве данных и мощности вычислительной техники (сегодняшние смартфоны будут куда помощнее крупных компьютеров 1960-180-х годов!), но и в сложности используемых алгоритмов обработки.
Вообще, термин «большие данные» из числа понятий, всегда обозначающих ещё не достигнутые цели. Как только какой-то вид обработки данных станет общедоступным, он сразу же будет вычеркнут из числа охватываемых данным понятием ;)
Журналист сайта ReadWriteWeb ( http://readwriteweb.com ) Мэтт Асей (Matt Asay) также многое делает для того, чтобы объяснить, почему «большие данные» представляют собой проблему (в отличие от более привычной бизнес-аналитики - см. его публикацию «В 2014 году мифы больших данных уступят место реальности» (Big Data Myths Give Way To Reality In 2014), http://readwrite.com/2013/12/26/big-data-myths-reality ):
«Если Вы знаете, какие вопросы задавать в отношении Ваших данных о платежных транзакциях, которые прекрасно вписываются в реляционные базы данных, проблема «больших данных», скорее всего, перед Вами не стоит. Если же Вы храните эти же данные вместе с массивами данных о погоде, социальными и другими данными с тем, чтобы попытаться выявить тенденции, способные повлиять на продажи, то это, вероятно, Ваша проблема.»2. Потребители начнут (добровольно) частично раскрывать свои персональные данные ради персонализации
Мы все слышали о куках (cookies) - и знаем, что наши действия в интернете влияют на то, какую рекламу нам показывают на веб-сайтах и на какие товары нам предлагают обратить внимание при посещении сайта Amazon. Мы не просто привыкли к этому, но и приняли данный подход. В конце концов, если мы хотим получать информацию, то лучше и удобнее, чтобы при этом учитывались наши предпочтения.
Но уже наблюдались и проблемы. Некоторые веб-сайты злоупотребляли доверием клиентов, завышая, например, цены на рейсы, к которым те ранее проявляли интерес (клиенты покупают билеты, опасаясь, что цена будет и дальше повышаться).
Но по мере того, как все больше компаний будут внедрять технологии «больших данных», клиенты будут готовы со своей стороны идти на сотрудничество, ожидая для себя от этого выгоду. Вероятно, это будет делаться по образцу методологии фирмы Tesco, когда клиентам рассылаются ваучеры на товары, которые они, скорее всего, в любом случае купят, и тем самым создается взаимовыгодная для обеих сторон ситуация. Клиенты, как правило, рады получить скидку, а предприятия розничной торговли рады тому, что клиенты возвращаются к ним (особенно если срок действия ваучеров ограничен).
3. Очень перспективным направлением деятельности станут «большие данные как услуга»
Несмотря на заверения аналитиков, что все коммерческие организации будут стремиться нанимать собственных специалистов по работе с данными, это просто не может произойти. Во-первых, существует дефицит таких специалистов (который отчасти объясняет, почему компании занимаются переподготовкой имеющихся сотрудников для работы с большими данными). Во-вторых, не все компании готовы (да это им и не требуется) для анализа и осмысления своих данных инвестировать в работающих полный рабочий день специалистов этого профиля.
Я ожидаю, что вместо этого, как и в других областях деятельности, пойдёт волна компаний, торопящихся войти в пространство «больших данных как услуги», идея о котором начала понемногу завоевывать умы в конце 2013 года. Это может быть всё что угодно, от приобретения малыми и средними компаниями целых пакетов услуг по хранению, анализу, интерпретации и визуализации данных, до более «компактных» услуг, нацеленных на передачу данных на облачные сервера с тем, чтобы обеспечить возможность обработки этих данных в будущем.
4. И, наконец ... Вы помните, что Hadoop является программным обеспечением с открытым исходным кодом? Ожидайте появления куда большего числа таких решений.
Hadoop (см. http://ru.wikipedia.org/wiki/Hadoop - Н.Х.), названный так в честь игрушечного слона, хорошо известен всем. Кого интересует наука обработки. Это программное обеспечение лежит в основе многих крупных систем обработки данных, позволяя организациям хранить и анализировать массивы данных. Самое главное, что это открытое ПО, внедрение которого не требует больших затрат, и это позволило многим организациям понять собираемые ими данные вместо того, чтобы проигнорировать их.
Квентин Галливан (Quentin Gallivan), исполнительный директор фирмы Pentaho, разрабатывающей программное обеспечения для бизнес-аналитики, в прошлом месяце объяснял, что новая волна программного обеспечения с открытым исходным кодом принесёт с собой больше инновации и способов анализировать данные. Он отметил (см. http://blog.pentaho.com/2013/12/05/quentin-2014-big-data-predictions/), что:
«Новые проекты открытого ПО, такие как Hadoop 2.0 и YARN в качестве менеджера ресурсов Hadoop следующего поколения, сделают инфраструктуру Hadoop более интерактивной ... такие проекты, как протокол потоковой передачи данных STORM, обеспечат расширенные возможности для совместной обработки информации в экосистеме «больших данных» в режиме реального времени и по требованию».Сирадж Дату (Siraj Datoo)
Источник: сайт газеты «Гардиан»
http://www.theguardian.com/technology/datablog/2014/jan/14/big-data-4-predictions-for-2014