пятница, 19 сентября 2014 г.

Сорок мнений о том, что такое «большие данные», часть 2


Продолжение подготовленной Дженной Датчер (Jenna Dutcher – на фото) подборки мнений американских специалистов о том, что же такое «большие данные». Начало см. http://rusrim.blogspot.ru/2014/09/1_18.html

Рохан Дюскар (Rohan Deuskar), генеральный директор и со-основатель компании Stylitics:
«Под «большими данными» понимается метод работы с данными по принципу «собрать сейчас, разобраться позже» ... Он означает непрерывный захват и сохранение данных об очень большом объеме разнообразных действий и транзакций для того, чтобы позднее разобраться в них. Низкая стоимость хранения и более совершенные методы анализа позволяют в общем случае вообще не задумываться о конкретном назначении данных до проведения их сбора.»
Эмми Эскобар (Amy Escobar), специалист по данным из компании 2U:
«[Большие данные] открывают возможности для более комплексного понимания взаимосвязей между различными факторами и для выявления ранее незамеченных закономерностей в данных за счет использования достижений в сфере технологий сбора, хранения и извлечения данных, а также инновационных идей и методов манипулирования данными и их анализа.».
Джон Фергюсон (Josh Ferguson), директор по технологиям компании Mode Analytics:
««Большие данные» - это широкое понятие, охватывающее проблемы и возможности, которые появляются по мере того, как становятся доступными данные о каждом аспекте нашей жизни. Это понятие касается не только данных, оно также включает в себя людей, процессы и анализ, преобразующий данные в знания.»
Джон Формен (John Foreman), главный специалист по данным компании MailChimp:
«Я предпочитаю гибкое, но функциональное определение «больших данных». Большие данные – это когда ваш бизнес хочет использовать данные для того, чтобы решить проблему, ответить на вопрос, произвести продукт и т.д., однако стандартные простые методы (такие, как SQL, или, может быть, метод k-средних – работающие, возможно, на одном-единственном сервере с планировщиком заданий) «ломаются» из-за объёма набора данных, и в результате приходится тратить время, усилия, творческие силы и деньги на разработку решения проблемы, способного обрабатывать данные, не прибегая при этом к созданию выборок и к отбрасыванию  записей.

Основное внимание здесь следует уделить сопоставлению затрат на то, чтобы обрабатывать «все данные» при помощи этого сложного (и потенциально нестабильного) решения – с преимуществами использования меньшего по объёму набора данных более дешевым, быстрым и более стабильным способом.»
Дениэл Гиллик (Daniel Gillick), старший научный сотрудник компании Google:
«Исторически большинство решений - политических, военных, деловых и личных – принималось с использованием человеческого мозга, логика которого непредсказуема и который работает, опираясь на субъективный практический опыт. «Большие данные» представляет собой культурный сдвиг, при котором всё больше и больше решений принимаются алгоритмами с прозрачной логикой, работающими на основе защищённой от изменений документированной фактической информации. Я думаю, что слово «большие» скорее отражает всеобъемлющий характер этих изменений, чем какое-либо определённое количество данных.»
Аннет Грейнер (Annette Greiner), преподаватель факультета информатики университета Калифорнии в Беркли:
«Большие данные - это данные, содержащие достаточное количество наблюдений для того, чтобы потребовалась необычная их обработка вследствие их огромных объёмов, - хотя представление о том, что считать «необычным», изменяется с течением времени и варьируется от одной дисциплины к другой. Для сферы научных вычислений привычно расширять границы, постоянно совершенствуя методы, позволяющие справляться с неуклонным ростом объёмов наборов данных; но и многие другие дисциплины сейчас открывают для себя ценность - и, соответственно, проблемы – обработки данных на «неподъёмном» конце шкалы.»
Сет Граймз (Seth Grimes), главный консультант компании Alta Plana Corporation:
«В последние годы «большие данные» подвергались серьёзной критике. В виду им ставилось то, что маркетологи и аналитики всё время то растягивали, то суживали трактовку этого понятия, пытаясь подвести под него множество разрозненных проблем, технологий и продуктов. Тем не менее, ядро «больших данных» остается тем же, чем оно было на протяжении более десяти лет, очерченное в 2001 году «тремя V» Дага Лейни (Doug Laney) -  Volume (объём), Velocity (скорость роста) и Variety (разнообразие), - и указывающее на достаточно серьёзные проблемы с обработкой данных, оправдывающие потребность в необычно мощных вычислительных ресурсах и технологиях обработки.»
Джоэл Гьюрин (Joel Gurin), автор книги «Открытые данные сегодня» (Open Data Now):
«Понятие большие данные» описывает наборы данных, которые настолько велики, сложны или быстро меняются, что выходят за пределы имеющихся у нас возможностей для аналитики. Это субъективное понятие: то, что кажется «большим» сегодня, может показаться весьма скромным через нескольких лет, по мере развития нашего аналитического потенциала. Хотя «большие данные» могут относиться к чему угодно, наиболее важные их виды - и, возможно, единственно стоящие того, чтобы тратить на них силы и средства - это те, что способны оказать большое влияние посредством того, что они говорят нам об обществе, здравоохранении, экономике, научных исследованиях или любых иных масштабных вопросах.»
Квентин Харди (Quentin Hardy), заместитель редактора газеты «Нью-Йорк таймс»:
«В «больших данных» слово «большой» не обязательно относится к размеру баз данных. Это может быть большое количество имеющихся источников данных, с учетом того, как по всему миру распространяются цифровые датчики и инструменты отслеживания поведения. Сопоставляя информацию различными способами, мы сможем обнаружить ранее неизвестные закономерности в природе и обществе – а ведь новые концепции и представления являются источником нового в искусстве, науке и коммерции.»
Харлан Харрис (Harlan Harris), директор по анализу данных «Консультационного совета по образованию» (Education Advisory Board):
«Для меня «большие данные» означают ситуацию, в которой организация может сказать (имея на то основания), что располагает всем необходимым для реконструкции, понимания и моделирования той части мира, которая представляет для неё интерес. Тогда, используя свои «большие данные», организация сможет (попытаться) предсказать будущее этой части мира, оптимизировать свои процессы и в целом действовать более эффективно и рационально.»
Джессика Киркпатрик (Jessica Kirkpatrick), директор по анализу данных компании InstaEDU:
«Большие данные означают использование сложных наборов данных для фокусирования усилий, выбора направления и для принятия решений внутри компании или организации. Это делается посредством получения в процессе анализа данных организации знаний и понимания, на основе которых могут выполняться действия.»
Дэвид Леонхардт (David Leonhardt), редактор раздела «Итоги» (Upshot) газеты «Нью-Йорк таймс»:
«Большие данные - это не более чем инструмент для «захвата» реальности, такой же, как газетные репортажи, фотографии и журналистика больших форм. Но это захватывающий инструмент, поскольку у него есть потенциал для фиксирования реальности более ясно и точно в сравнении с тем, что мы могли сделать в прошлом.»
Хилари Мейсон (Hilary Mason), основатель компании Fast Forward Labs:
«Большие данные - это просто способность собирать информацию и выполнять запросы к ней таким образом, чтобы получать такое знание о мире, которые ранее было для нас недоступно.»
Дейдра Миллиген (Deirdre Mulligan), декан факультета информатики университета Калиформии в Беркли:
 «Большие данные: Бесконечные возможности либо кандалы от колыбели до могилы, в зависимости от политического, этического и правового выбора, который мы делаем.»
(Продолжение следует, см. http://rusrim.blogspot.ru/2014/09/3.html)

Дженна Датчер (Jenna Dutcher)

Источник: блог факультета информатики  университета Калифорнии и Беркли
http://datascience.berkeley.edu/what-is-big-data/

3 комментария:

  1. John Foreman говорит об SQL в верном ключе. Реляционные базы останутся для небольших приложений.
    Oracle Pushes SQL and NoSQL на сайте http://www.dataversity.net/oracle-pushes-sql-nosql-2/
    NoSQL Now! Conference & Expo на сайте http://nosql2014.dataversity.net/index.cfm
    Ключевая новость 19 сентября 2014 года.
    Ларри Эллисон покинул пост главы корпорации Oracle, ранее ключевые посты покинули
    Джаспер Андерсен - ключевой руководитель направления разработки бизнес-приложений Oracle
    вслед за Джоном Вуки из компании уходит.
    imho для Oracle ниша останется ещё надолго, но насущной потребностью завтрашнего дня
    являются нереляционные базы данных (NOSQL).
    О NOSQL неплохая статья http://habrahabr.ru/post/152477/
    27 сентября 2012 в 12:16
    NoSQL базы данных: понимаем суть
    Вообщем всё, что я указал здесь как раз и имеет практическое приложение
    к проблеме больших данных. Хотя этим и не исчерпывается. Я упомянул об этом,
    поскольку в Вашей статье я не увидел ничего о NOSQL.
    Да, ксати некоторые решения IDOL от IBM (приведу слова - Что такое Jazz от IBM - утопия или будущее?)
    Впрочем как и по IDOL в целом нет единого мнения. Можно сказать так, что Big Data обросла также и мифами и легендами
    http://habrahabr.ru/company/beeline/blog/218669/,
    оставаясь очень серъёзной и грозной проблемой.
    Я думаю, что каждый врач уже сейчас ежедневно сталкивается с проблемой больших данных, даже не подозревая
    об этом.
    С уважением.

    ОтветитьУдалить
  2. 19 сентября, кстати, была Конференция
    http://bigdatarussia.ru/
    Левенчук в ЖЖ оставил свои комментарии
    http://ailev.livejournal.com/1137728.html

    ОтветитьУдалить