вторник, 23 сентября 2014 г.

Сорок мнений о том, что такое «большие данные», часть 3


Продолжение подготовленной Дженной Датчер (Jenna Dutcher – на фото) подборки мнений американских специалистов о том, что же такое «большие данные». Предыдущую часть см. http://rusrim.blogspot.ru/2014/09/2_19.html

Шармила Маллиген (Sharmila Mulligan), генеральный директор и основатель компании ClearStory Data:
«[Большие данные означают] использование большего числа источников разнородных данных, при этом «разнообразие данных» и «скорость накопления/обновления данных» являются ключевыми возможностями (каждый источник представляет собой «сигнал», отражающий то, что происходит в деловой деятельности). Появляется возможность получить отдачу от разнообразия данных, автоматизировать «гармонизацию» источников данных, выдавать быстро обновляющиеся аналитические результаты, потребляемые пользователями из основных деловых подразделений.»
Шон Патрик Мёрфи (Sean Patrick Murphy), научный консультант по работе с данными, со-основатель стартапа в области аналитики данных:
«Хотя «большие данные» часто велики по объёму по сравнению с возможностями доступного набора инструментов,  прилагательное «большой» на самом деле относится к важности данных. Ученым и инженерам уже давно известно о ценности данных, но теперь и весь остальной мир, включая тех, кто контролирует кошельки, понял, какую отдачу можно получить от данных.»
Пракаш Нандури (Prakash Nanduri), генеральный директор, президент и со-основатель компании Paxata, Inc
«Сегодня практически всё, что нас окружает, способно выдавать данные – а не только те устройства, которые мы используем для вычислений. Мы получаем цифровой «выхлоп» от различных устройств, начиная от системы открывания дверей гаража и заканчивая кофеваркой - и от всего того, что между ними. Одновременно мы превратились в поколение людей, требующих мгновенного доступа к информации – от информации о погоде в стране, находящейся за тысячи миль от нас, до сведений о том, какие магазины предлагают лучшие цены на тостеры. Большие данные находятся на пересечении сбора, организации, хранения и переработки всех этих первичных данных в действительно значимую информацию.»
Крис Ньюман (Chris Neumann), генеральный директор компании DataHero:
«Мы в компании Aster Data первоначально использовали термин «большие данные» в своем маркетинге для обозначения аналитических баз данных массово-параллельной архитектуры (Massive Parallel Processing, MPP), подобных нашей, с тем, чтобы отличить их от традиционного программного обеспечения хранилищ данных. Хотя и те, и другие способны были хранить «большие» объемы данных (которые в 2008 году мы определили как превышающие 10 терабайт), системы «больших данных» могли выполнять сложные аналитические операции с этими данными - то, что старое программное обеспечение хранилищ данных делать не умело.

Таким образом, согласно нашему первоначальному определению, к «большим данным» относилась система, которая:
  • была способна хранить не менее 10 Тб данных, и

  • была способна справляться с повышенной вычислительной нагрузкой, такой, как выполнение задач поведенческой аналитики или анализа рыночной корзины, обрабатывая эти большие объемы данных.
Шло время, разнообразие данных стало более существенной особенностью этих систем (особенно потребность в совместной обработке структурированных и неструктурированных данных), что привело к более широкому распространению определения больших данных на основе «3-х V» (объема, скорости и разнообразия), - и эта ситуация сохраняется до сих пор.»
Кэти О’Нил (Cathy O’Neil), директор программы Lede Program (введение в практику работы с данными) Колумбийского университета:
«Большие данные – многогранное понятие, но важной особенностью является его использование в качестве риторического приема, который может быть использован для обмана, введения в заблуждение или раздувания ажиотажа. В связи с этим чрезвычайно важно, чтобы люди, которые занимаются продвижением моделей больших данных, учитывали не только технические, но и этические аспекты.»
Брэд Петерс (Brad Peters), председатель Совета директоров и директор по продукции компании Birst:
«С моей точки зрения, «большие данные» - это данные, для обработки которых необходимы новые методы. Как правило, для обработки больших данных требуется использование параллельных операций того или иного рода (операций управления хранением и/или вычислительных), с тем, чтобы справиться с объемами и разнообразием данных.»
Грегори Пятецки-Шапиро (Gregory Piatetsky-Shapiro), президент и редактор сайта KDnuggets.com :
«Лучшим определением из тех, что я видел, было следующее: «Данные являются большими, тогда,  когда их объёмы становятся частью проблемы» - но оно  учитывало только объём данных. В настоящее время модный термин «большие данные» относится к новой, ориентированной на данные парадигме деловой деятельности, науки и техники, в рамках которой огромный объем данных и широта охватываемых ими вопросов способствуют появлению новых и более качественных услуг, продуктов и платформ.

Вокруг «больших данных» возникает много шумихи и, вероятно, впоследствии этот термин будет заменен новым модным словцом, типа «Интернет вещей» (Internet of Things), - однако компании, оказывающие услуги на основе «больших данных», такие, как Google, Facebook, Amazon; сервисы определения местоположения, персонализированная/прецизионная медицина и многое другое останутся и будут процветать.»
Джейк Порвей (Jake Porway), основатель и исполнительный директор компании DataKind:
«По мере того, как наша жизнь перемещается из физического в электронный мир, повседневно используемые нами инструменты, такие как смартфоны и вездесущий Интернет, создают огромные объемы данных. Одной из лучших интерпретаций прилагательного «большой» в термине «большие данные» является привязка его к нарастающим объёмам: являетесь ли вы крупной компанией из списка Fortune 500, которая только что выпустила приложение, создающее поток пользовательских данных о каждом клике и действии каждого пользователя; или же некоммерческой организацией, начавшей распространять помогающее найти ближайший приют для бездомных приложение для смартфонов, выдающее сведения о каждом поиске и каждом клике, - у всех у нас есть данные. Работа с этими так называемыми «большими данными» требует основательных изменений в технологиях хранения, обработки и управления данными - но она же открывает огромные возможности для социального сектора в плане более быстрого сбора и анализа информации, что позволит решить некоторые из наиболее острых проблем нашего мира.»
Кайл Раш (Kyle Rush), руководитель отдела оптимизации компании Optimizely:
«Существует, безусловно, пестрое разнообразие определений термина «большие данные». Для меня это понятие означает работу с данными в больших масштабах и с большими скоростями.»
Анна-Ли Саксеньян (AnnaLee Saxenian), декан факультета информатики университета Калифорнии в Беркли:
«Я не в восторге от выражения «большие данные», поскольку оно фокусирует внимание на объеме данных, отодвигая в тень далеко идущие изменения, которые в современном мире делают данные жизненно необходимыми для отдельных лиц и для организаций. Но если бы мне потребовалось определить это понятие, то я бы сказала, что «большие данные» - это данные, которые не могут быть обработаны с использованием стандартных баз данных, потому что они слишком объёмные, слишком динамичные или слишком сложные для традиционных инструментов обработки данных.»
Джош Шварц (Josh Schwartz), главный специалист по данным компании Chartbeat:
«Всё большая доступность платформ для хранения и анализа больших объемов данных (и падение цен за эти услуги в расчете на один терабайт) дала возможность  широкому кругу организаций хранить почти все данные, находящиеся под их контролем – каждую запись журналов аудита, сведения о каждом взаимодействии с клиентом и о каждом событии – не группируя их, и в течение длительного периода времени. Соответствующий принцип «сохранять все сейчас, а вопросы задавать потом», как мне кажется, лучше всего характеризует то, как мир вычислительных систем выглядит с точки зрения современных систем «больших данных».»
(Окончание следует, см. http://rusrim.blogspot.ru/2014/09/4.html )

Дженна Датчер (Jenna Dutcher)

Источник: блог факультета информатики  университета Калифорнии и Беркли
http://datascience.berkeley.edu/what-is-big-data/

1 комментарий: