четверг, 25 сентября 2014 г.

Сорок мнений о том, что такое «большие данные», часть 4


Окончание подготовленной Дженной Датчер (Jenna Dutcher – на фото) подборки мнений американских специалистов о том, что же такое «большие данные». Предыдущую часть см. http://rusrim.blogspot.ru/2014/09/3.html

Петер Скоморох (Peter Skomoroch), предприниматель, бывший главный специалист по данным компании LinkedIn:
«Первоначально термин «большие данные» описывал практику обслуживающей массового потребителя интернет-индустрии по алгоритмической обработке всё увеличивающихся  объёмов разнородных данных с целью найти решения проблем, для которых на основе меньших по объёму наборов данных можно получить не самые оптимальные ответы. Многие свойства и сигналы (например, взаимосвязи в масштабах всей социальной сети) можно выявить лишь тогда, когда удастся собрать большие объемы данных, и их не обнаружить при использовании меньших выборок. Подобная обработка огромных объемов данных часто была трудна, требовала много времени и была чревата ошибкам – пока не появились такие технологии, как MapReduce и Hadoop, с которые началась волна появления взаимосвязанных инструментов и приложений, которые теперь коллективно называются технологией «больших данных».»
Анна Смит (Anna Smith), инженер-аналитик компании Rent the Runway:
«Большие данные - это когда объёмы данных увеличиваются до такой степени, что поддерживающая работу с данными технология должна измениться. Это понятие также охватывает ряд различных вопросов, связанных с тем, как комбинировать  разнородные данные, извлекать из них знания и/или перерабатывать их в «умные продукты».
Райан Свенстрём (Ryan Swanstrom), блоггер по тематике обработки данных, пишущий на блоге «Data Science 101»:
«Раньше термин «большие данные» использовался для обозначения данных, с обработкой которых не в состоянии справиться отдельный компьютер. Теперь «большие данные» стали модным словом, обозначающим всё, что связано с анализом или визуализацией данных.»
Шаши Упадхьяй (Shashi Upadhyay), генеральный директор и основатель компании Lattice Engines:
«Большие данные – это «зонтичный» термин, означающий много различных вещей, однако для меня он означает возможность делать необыкновенные вещи, используя современные методы машинного обучения применительно к цифровым данным. Будь то прогнозирование болезней, погоды, распространения инфекционных заболеваний или Ваших следующих покупок, «большие данные» предлагают целый мир возможностей для улучшения жизни людей.»
Марк ван Рийменам (Mark van Rijmenam), генеральный директор и основатель компании BigData-Startups:
«Понятие «большие данные» говорит не только об объеме, оно в большей степени отражает комбинирование различных наборов данных и их анализ в реальном времени с целью получения для Вашей организации знаний и понимания. Поэтому на деле вместо «больших данных» правильнее было бы говорить о «смешанных данных».
Хал Вэриан (Hal Varian), главный экономист компании Google:
«Большие данные - это данные, которые не способны легко вписаться в стандартную реляционную базу данных.»
Тимоти Вивер (Timothy Weaver), ИТ-директор компании Del Monte Foods:
«Я с удовольствием повторю слышанное мною определение, которое, думаю, адекватно описывает предмет. Это определение консультационной фирмы Форрестер (Forrester), включающее объем, скорость, разнообразие и изменчивость (Volume, Velocity, Variety, and Variability). Это когда с большой скоростью поступает множество различных данных разной структуры.»
Стивен Вебер (Steven Weber), профессор факультета информатики университета Калифорнии в Беркли:
«Для меня «технологические» определения (типа «слишком объемные, чтобы поместиться в таблицу Excel» или «слишком большие, чтобы храниться в памяти») важны, но на самом деле они не схватывают главное. Большие данные для меня - это данные такого объёма и охвата, что фундаментальным образом меняется диапазон решений (не просто сдвигаются границы), которые имеет смысл рассматривать тогда, когда люди и организации сталкиваются со сложной проблемой. Это различные решения, а не просто «чем более, тем лучше».»
Джон Майлз Уайт (John Myles White):
«Термин «большие данные» на деле полезен лишь в том случае, если он описывает объём данных, который настолько велик, что традиционные методы анализа данных обречены на провал. Это может означать, что Вы пытаетесь провести сложный анализ данных, объём которых настолько велик, что они не умещаются в памяти; или же что Вы имеете дело с системой хранения данных, которая не имеет полного набора функциональных возможностей стандартной реляционной базы данных. Ключевым здесь является то, что Ваш старый способ действий более не применим, и его уже невозможно «просто промасштабировать».»
Брайан Вилт (Brian Wilt), старший научный сотрудник по работе с данными компании Jawbone:
«Есть такая шутка, что «большие данные» - это данные, которые ломают Excel, но мы стараемся не быть снобами в отношении того, какой меркой Вы меряете свои данные – мегабайтами или петабайтами. Понятие «большие данные» в большей степени отражает особенности вашей команды и результаты, которые она может получить.»
Д-р Реймонд Йи (Raymond Yee), архитектор данных и консультант, со-основатель и директор по технологиям компании Gluejar:
«Большие данные зачаровывают нас обещанием нового понимания и знаний. Давайте, однако, не забывать о знаниях, что сокрытые в малых данных, находящихся прямо перед нами.»
Дженна Датчер (Jenna Dutcher)

Источник: блог факультета информатики  университета Калифорнии и Беркли
http://datascience.berkeley.edu/what-is-big-data/

1 комментарий: