понедельник, 15 сентября 2025 г.

Неструктурированные данные: Происхождение, эволюция и управление ими, часть 1

Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 11 июля 2025 года в социальной сети Substack.

В широком смысле под неструктурированными данными понимают информацию, для которой не имеется предопределенной модели или схемы. В отличие от структурированных данных (например, строк в базе данных), неструктурированные данные охватывают широкий спектр типов контента, включая контент с высоким содержанием текста (такой, как документы, электронные письма и сообщения в социальных сетях) и нетекстовый контент (например, изображения, аудио- и видеоматериалы, и измерения датчиков) (IBM, 2023; Barney, Hanna, & Stedman, 2025). На практике неструктурированные данные часто называют «прямым продуктом человеческого общения» - это информация, созданная людьми без использования формального кодирования, делающего её удобной для обработки машинами (Barney et al., 2025). Опросы показывают, что примерно 70–90% корпоративных данных являются неструктурированными (Machado, 2024; Forbes Tech Council, 2022).

В качестве примеров неструктурированных данных можно привести электронные письма, отчеты, сообщения в социальных сетях, расшифровки звонков и переговоров, фотографии, видеозаписи и журналы аудита Интернета вещей. Большая часть этих данных существует «в своем первоначальном формате» и не имеет табличной организации (IBM, 2023).


Исторические корни и эволюция

Исторические корни понятия «неструктурированные данные» уходят в ранние периоды вычислительной техники. Ещё в 1958 году исследователь из компании IBM Х.П.Лун (H. P. Luhn) описал автоматическую классификацию текста (Luhn, 1958). Однако распространённым термин «неструктурированные данные» стал в 1980-х годах, когда персональные компьютеры дали возможность ведущим деловую деятельность пользователям генерировать данные вне централизованных баз данных. Джон Филлипс (John Phillips, 2011) вспоминал, как ИТ-подразделения говорили: «Мы отвечаем за структурированные данные, а всё остальные данные просто неструктурированные».

К 1990-м и 2000-м годам объёмы электронных писем, документов Word, PDF-файлов и веб-контента резко выросли. По оценкам аналитиков, 80% и более корпоративных данных находились вне структурированных систем (Machado, 2024). Во время бума «больших данных» прогнозировалось, что к 2025 году в глобальном масштабе объёмы данных достигнут 175 зеттабайт, и что большинство этих данных будут неструктурированными (Forbes Tech Council, 2022). Благодаря достижениям в области обработки естественного языка (natural language processing, NLP) и поиска, эти ранее труднообрабатываемые данные стали более доступными для анализа (Sathi, 2012).

Интерпретации и терминология

Термин «неструктурированные данные» не вполне точен. Барни и др. (2025) определяют его как контент, который не соответствует какой-либо фиксированной модели данных, обычно созданной человеком. Другие авторы отмечают, что большинство «неструктурированных» файлов, таких как Word- или HTML-файлы, обладают внутренней структурой, просто эта структура не является табличной или реляционной (Phillips, 2011).

Некоторые специалисты предпочитают использовать более широкие понятия, такие как «электронный контент», или же выделяют «полуструктурированные данные», такие как XML-файлы или сообщения электронной почты с заголовками (IBM, 2023). Для этих форматом имеются частичные схемы. Местоположение границы между понятиями зависит от обстоятельств: специалистов по управлению документами может больше интересовать назначение документа, чем его синтаксис; специалисты по данным могут смотреть на наличие поддающейся анализу схемы.

Несмотря на научные споры (Барни и др., 2025), практическое определение следующее: неструктурированные данные – это данные в нереляционной форме, часто созданные людьми и требующие интерпретации, прежде чем они станут пригодными для использования.

Мой комментарий: Автор честно признаёт, что содержание понятия «(не)структурированные данные» нередко «в глазах смотрящего», и во многих случаях определяется не какими-то формальными признаками, а целями и способами обработки данных. Это очень важный момент: с моей точки зрения, не бывает структурированных или неструктурированных данных «вообще»; и в зависимости от обстоятельств одни и те же данные можно будет отнести как к одной, так и к другой категории.

Замечу, что о «данных в реляционной форме» можно было говорить в данном контексте лет 30 тому назад, когда это были или числа, или текстовые поля ограниченной длины. Сегодня в ячейках базы данных могут храниться объекты огромного объёма и произвольного формата; и вряд ли использование реляционной СУБД в качестве «сундука» для их хранения автоматически сделает эти данные структурированными …


(Окончание следует, см. http://rusrim.blogspot.com/2025/09/2_01580311638.html )

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/unstructured-data 

Комментариев нет:

Отправить комментарий