среда, 14 февраля 2018 г.

Как Международная организация по стандартизации трактует понятие «большие данные»


В настоящее время эксперты Международной организации по стандартизации (ИСО) завершают работу над стандартом ISO/IEC DIS 20546 «Информационные технологии – Большие данные – Обзор и словарь» (Information technology - Big data - Overview and vocabulary), см. https://www.iso.org/standard/68305.html и https://www.iso.org/obp/ui/#iso:std:iso-iec:20546:dis:ed-1:v1:en .

Среди прочего, стандарт дает определение понятия «большие данные», которое сформулировано следующим образом:
3.2.14 Большие данные – обширные наборы данных, отличающиеся главным образом такими характеристиками, как объём данных, их разнообразие, темпы поступления и/или вариативность, для эффективного хранения, обработки, управления и анализа которых требуется масштабируемая технология.

Примечание: Термин «большие данные» используется во многих различных значениях, например, в качестве названия масштабируемой технологии, используемой для обработки обширных баз данных.
На языке оригинала определение выглядит следующим образом:
3.2.14 big data - extensive datasets — primarily in the data characteristics of volume, variety, velocity, and/or variability — that require a scalable technology for efficient storage, manipulation, management, and analysis

Note 1 to entry: Big data is commonly used in many different ways, for example as the name of the scalable technology used to handle big data extensive datasets
Далее по тексту в разделе 4.1 даются дополнительные пояснения:
«Термин «большие данные» подразумевает обширные по объему, темпам поступления, разнообразию и/или изменчивости наборы данных. Этот термин, однако, не означает данные, которые просто больше, чем раньше, поскольку подобное уже происходило на регулярной основе в течение десятилетий. Конкретные обстоятельства, которое привели к широкому использованию термина «большие данные», заключаются в том, что в середине 2000-х годов обширные наборы данных стало невозможным обрабатывать с использованием существующих систем для работы с данными. В этот период методы больших данных представляли собой переход на использование распределенного управления данными и на их обработку посредством горизонтального масштабирования, с целью достижения требуемой эффективности работы по доступной цене.

... Революция в технологиях, известная под именем «большие данные», произошла потому, что реляционная модель более не могла эффективно удовлетворять всем потребностям при анализе больших и часто неструктурированных наборов данных. Дело не только в том, что данные «больше», чем раньше, поскольку объёмы данных неуклонно возрастали в течение десятилетий. Большая революция данных является одномоментным фундаментальным сдвигом в архитектуре к параллелизации, так же, как в своё время переход к реляционной модели тоже был одномоментным сдвигом.»
Возможно, я не права, но мне кажется, что разработчики стандарта вообще ничего не поняли в том, что такое «большие данные» и для чего они нужны. Поясню это на примере: я могу снимать показания температуры в комнате с датчика. При желании, я могу снимать эти показания очень-очень часто, с неимоверной точностью, используя разные единицы измерения и форматы записи показаний – тут у меня будут и объёмы, и темпы, и вариативность, только вот «больших данных», с моей точки зрения не будет, а будет куча невостребованного цифрового мусора ;)

Тот же Европарламент (см. https://rusrim.blogspot.ru/2017/04/blog-post_6.html ) куда более здраво смотрит на этот вопрос!

Для меня технология «больших данных» - это в первую очередь инструментарий выявления неочевидных зависимостей путем сложной обработки разнородных данных (часто одновременно обрабатываются целые группы наборов данных) с использованием нетрадиционных алгоритмов и, как правило, максимально возможных на текущий момент вычислительных ресурсов, без которых об этих алгоритмах не имело бы смысла говорить.

Стоит отметить, что технологии, практически не отличающиеся от технологий «больших данных», активно использовались в деятельности разведслужб уже во второй половине 20-го века.

«Большие данные», с моей точки зрения, это ещё один термин-«времянка», противопоставляющий инновационные алгоритмы и методы обработки данных традиционным. Как и другие термины такого рода, он или уйдёт в небытие, когда эти инновационные методы станут общедоступными; или же со временем начнёт (как, например, «искусственный интеллект») применяться для обозначения уже новой волны инновационных методов и алгоритмов ;)

Источник: сайт ИСО
https://www.iso.org/standard/68305.html
https://www.iso.org/obp/ui/#iso:std:iso-iec:20546:dis:ed-1:v1:en

Комментариев нет:

Отправить комментарий