четверг, 28 мая 2015 г.

ИСО: Предварительный отчет о «больших данных»


Совместный технический комитет ISO/IEC JTC1 «Информационные технологии» Международной организации по стандартизации (ИСО) и Международной электротехнической комиссии (МЭК) регулярно выпускает отчеты по новым направлениям стандартизации.

В этом году на сайте технического комитета был выложен «Предварительный отчет о больших данных 2014 года» (Big data Preliminary Report 2014) объёмом 36 страниц, который доступен по адресу http://www.iso.org/iso/big_data_report-jtc1.pdf .

Оформление документа, в точности такое же как у стандартов ИСО, наводит на мысль о том, что это по сути дела заготовка для будущих стандартов и технических отчетов.

Отчет содержит:
  • Список терминов и определений;

  • Главу, в которой дается общее представление о «больших данных», предлагается определение этого понятия, а также обсуждаются характерные особенности «больших данных». Здесь же описаны функциональные роли сторон, действующих в сфере «больших данных»; отмечены риски, которые использование технологий больших данных создает в плане безопасности и защиты персональных данных;

  • Главу, описывающую текущие усилия по стандартизации, связанные с «большими данными»;

  • Оценку рынка стандартизации по тематике «больших данных», анализ потенциальных пробелов в стандартизации и перспективные, с точки зрения технического комитета, направления деятельности;

  • Библиографию (20 наименований).
По словам авторов отчета (п.3.2), «Хотя «большие данные» определяются множеством способов, в сердце парадигмы «больших данных» лежит то, что эти данные слишком объёмные (volume), поступают слишком быстро (velocity), слишком быстрый изменяются (variability), содержит слишком много шума (veracity) и слишком разнообразны (variety) для того, чтобы обрабатывать их в рамках локальной вычислительной структуры с использованием традиционных подходов и методов.»

Мой комментарий: С разнообразными определениями «больших данных» можно познакомиться здесь: http://rusrim.blogspot.ru/2014/09/1_18.html .

В итоге предложено следующее рабочее (на мой взгляд, неплохое) определение:
Большие данные – набор (наборы) данных, свойства которых (такие, например, как объем, скорость, разнообразие, изменчивость, точность и т.д.), не позволяют в конкретной проблемной области и в конкретный момент времени эффективно обрабатывать их для получения отдачи с использованием текущих / существующих / отработанных / традиционных методов и технологий (3.2).
В отчете даны ещё несколько новых определений:
2.2.4 Парадигма «больших данных» (Big Data Paradigm) - распределение систем данных (data systems) по горизонтально-взаимосвязанным независимых ресурсам с целью достижения масштабируемости, необходимой для эффективной обработки объёмных наборов данных

2.2.1 Аналитика «больших данных» (Big Data Analytics) - аналитические функции, поддерживающие интеграцию результатов, полученных при параллельной обработке распределенных фрагментов одного или нескольких источников данных. Это быстро развивающаяся область как в плане функциональных возможностей, так и лежащей в её основе модели программирования.

2.2.2 Инженерия больших данных (Big Data Engineering) – технологии хранения и манипулирования данными, использующие возможности набора горизонтально-взаимосвязанных ресурсов для достижения почти линейной масштабируемости производительности.

2.2.3 Модели больших данных (Big Data Models) - логические модели данных (как реляционные, так и нереляционные) и модели обработки / вычислений (пакетная, потоковая и транзакционная) для хранения и манипулирования данными в рамках горизонтально-масштабируемых ресурсов.
Источник: сайт ИСО
http://www.iso.org/iso/jtc1_home.html
http://www.iso.org/iso/big_data_report-jtc1.pdf 

Комментариев нет:

Отправить комментарий