четверг, 18 сентября 2014 г.

Сорок мнений о том, что такое «большие данные», часть 1


Данная заметка Дженны Датчер (Jenna Dutcher – на фото) была опубликована 3 сентября 2014 года на блоге datascience@berkeley факультета информатики  университета Калифорнии и Беркли (Berkeley School of Information, Univesity of California).

Выражение «большие данные» сейчас встречается, кажется, повсеместно. В 2013 году термин был включён в Оксфордский словарь английского языка (  http://www.oed.com/view/Entry/18833#eid301162177 ):
«Большие данные: Вычислительные данные очень большого объёма, как правило, настолько большого, что их обработка и управление ими связаны с серьёзными логистическими проблемами.»
В 2014 году он появился в словаре Вебстера (Merriam-Webster’s Collegiate Dictionary, http://www.merriam-webster.com/dictionary/big%20data ):
«Большие данные: набор данных, который слишком велик по объёму и сложен для того, чтобы его можно было обрабатывать с использованием традиционных инструментов управления базами данных.»
А согласно только что опубликованному консультационной фирмой Gartner «циклу ажиотажа» для нарождающихся технологий (hype cycle) на 2014 год (см. http://siliconangle.com/blog/2014/08/19/gartners-hype-cycle-big-datas-on-the-slippery-slope/ ) «большие данные» прошли «пик завышенных ожиданий» и начали спуск во «впадину разочарований».  «Большие данные» в моде, но что на самом деле стоит за этим термином?

В часто используемом определении фирмы Gartner ( http://blogs.gartner.com/it-glossary/big-data/ ):
“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.”

«Большие данные - это отличающиеся большими объемами, скоростью роста и разнообразием информационные активы, требующие использования экономически эффективных инновационных форм обработки информации в целях повышения качества извлечения знаний и принятия решений.»
упоминаются «три V-фактора»: volume, velocity, variety – объём, скорость роста, разнообразие. Есть, однако, иные точки зрения, согласно которым определяющим фактором является не объём данных, а используемые инструменты либо те знания, которые могут быть извлечены из набора данных.

Ключевые слова, чаще всего встречающиеся в определениях, предложенных нашими «идейными лидерами» (инфографика подготовлена с использованием Wordle, http://wordle.net/ )

Чтобы раз и навсегда разобраться с данным вопросом, мы попросили более 40 идейных лидеров из таких областей, как издательское дело, мода, пищевая промышленность, автомобилестроение, медицина, маркетинг (и изо всех отраслей на их стыках) сказать, как бы они определили понятие «большие данные». Их ответы могут вас удивить! Взгляните на приведенные ниже их мнения, чтобы узнать, что же такое «большие данные» (выделение ключевых фраз - как у автора - Н.Х.):

Джон Акред (John Akred), основатель и директор по технологиям компании Silicon Valley Data Science:
«Под «большими данными» понимается совокупность
  • подхода, предусматривающего использование для принятия решений знаний и представлений, полученных на основе анализа данных; и

  • набора поддерживающих технологий, позволяющих экономически эффективно извлекать знания из источников данных, которые порой могут быть очень объемными и разнообразными по составу.
Развитие технологий зондирования, перевод в электронный формат торговли и коммуникаций, а также появление и рост социальных сетей – это лишь некоторые из тенденций, создавших возможности для использования объёмных детальных данных с целью понять закономерности систем, поведения и коммерческой деятельности. Одновременно инновации в технологиях делают экономически оправданным использование этой информацию для принятия обоснованных решений и улучшения результатов деятельности.»
Филип Эшлок (Philip Ashlock), главный архитектор сайта Data.gov:
«Хотя трактовка данного термина часто довольно туманная и он нередко используется и для других целей, «большие данные», с моей точки зрения, подразумевают анализ данных в ситуациях, когда либо данные действительно очень запутанные, либо Вы не знаете правильных вопросов /запросов, которые нужно задать / выполнить – этот анализ, помогающий Вам выявить закономерности, аномалии или новые структуры в массиве данных, который на вид кажется хаотическим или очень сложным.

Речь обычно идёт о наборах данных, объём которых в байтах кажется довольно большим по сравнению с привычной точкой отсчёта - размером файлов в настольных ПК (например, превышает терабайт), и задача многих из относящихся к области «больших данных» инструментов заключается в том, чтобы помочь справиться с такими объёмами. Для меня, однако, самые важные аспекты «больших данных» связаны совсем не с тем, что они такие «большие» в этом смысле (тем более, что в наши дни это достаточно относительное понятие). На деле термин «большие данные» часто также вполне применим к наборам данных поменьше. Обработка текстов на естественных языках и поисковые системы на основе Lucene являются хорошими примерами методов и инструментов «больших данных», которые нередко используются при обработке относительно небольших объемов данных.»
Йон Брюнер (Jon Bruner), редактор в O’Reilly Media:
«Большие данные» является результатом сбора информации на ее наиболее детальном уровне - это то, что Вы получаете, когда оснащаете систему измерительными приборами и датчиками и сохраняете все данные, которые Ваши приборы в состоянии собрать.»
Рейд Брайант (Reid Bryant), специалист по данным компании Brooks Bell:
«По мере роста вычислительных мощностей, термин «большие данные» будет в меньшей степени связан с фактическим размеров конкретного набора данных и будет больше говорить о специфическом опыте и знаниях, необходимых для его обработки. Исходя из этого, под понятие «больших данных» в конечном счете подпадает любой набор данных, который достаточно велик для того, чтобы для получения отдачи от данного актива потребовались навыки высокоуровневого программирования и методологии, подтверждаемые статистикой.»
Майк Каваретта (Mike Cavaretta), специалист по анализу и управлению данными из компании Ford Motor Company
 «Не бывает слишком много данных. Я рассматриваю «большие данные» как повествование, - посредством инфографики или с использованием иных способов визуализации, - подающее информацию таким образом, что её могут понять представители различных профессий. Я всегда предпочитаю данные в полном объеме различным средним показателям и выборкам - и мне нравится обращаться к первичным данным в связи с теми возможностями, которые при этом открываются.»
Дрю Конвей (Drew Conway), ответственный за данные, стартап «проект Флорида» (Project Florida):
 ««Большие данные», которые начинались как технологические инновации в распределенных вычислениях, в настоящее время стали течением в нашей культуре, в рамках которого мы продолжаем узнавать, как люди взаимодействуют с миром - и друг с другом - в крупном масштабе.»
 (Продолжение следует, см. http://rusrim.blogspot.ru/2014/09/2_19.html )

Дженна Датчер (Jenna Dutcher)

Источник: блог факультета информатики  университета Калифорнии и Беркли
http://datascience.berkeley.edu/what-is-big-data/

Комментариев нет:

Отправить комментарий