Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 17 февраля 2023 года на блоге компании Formtek.
Неструктурированные данные долгое время были ахиллесовой пятой управления данными. Это информация, хранящаяся в текстовых документах, видео и аудиоматериалах, в социальных сетях и протоколах. В отличие от структуры и удобств поиска, обеспечиваемых для данных, хранящихся в базах данных, неструктурированные данные не следуют какому-то определенному шаблону или образцу, что затрудняет их интерпретацию.
Мой комментарий: Что касается последнего утверждения, то, на мой взгляд, реальная ситуация совершенно иная. Неструктурированные документы, как правило, излагают законченную «историю», рассчитанную на понимание человеком – что делает их интерпретацию достаточно однозначной. Напротив, в случае структурированных данных семантика данных отделена от самих данных, интерпретация данных фиксируется отдельно от данных и довольно легко может быть изменена или оспорена.
По приблизительным оценкам, от 80 до 90 процентов всех данных в организации являются неструктурированными (см. http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule/ ). Тот факт, что эти данные недоступны для поиска, ограничивает их возможности их использования в организации.
Мой комментарий: Последнее утверждение довольно-таки странное. Сейчас существует масса способов индексации и поиска по неструктурированным данным, причём не только для документов с чётко выделенным текстом, но и для графических образов, аудио и видеоматериалов. Иными словами, «недоступность для поиска» неструктурированных данных - несерьёзный миф.
Искусственный интеллект, особенно средства обработки естественного языка (Natural Language Processing, NLP), обеспечивает основу для создания инструментов, которые способных использовать неструктурированные данные для извлечения информации.
Майки Шульман (Mikey Shulman, https://mitsloan.mit.edu/faculty/directory/michael-shulman ), руководитель отдела машинного обучения в компании Kensho, считает, что «поскольку со структурированными данными легче работать, компании уже смогли многое с ними сделать. Однако поскольку большая часть мировых данных, в том числе большая часть данных, поступающих в режиме реального времени, неструктурированы, способность анализировать их и предпринимать действия на их основе открывает большие возможности» ( https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data ).
Мой комментарий: Самое забавное в данном высказывании – это наивная убеждённость г-на Шульмана в том, что неструктурированные данные не поддаются анализу (в т.ч. машинному) и собираются не для того, чтобы действовать на их основе, в том числе в реальном времени (а для чего же тогда их собирают? :)) … На мой взгляд, это типичное проявление неуважения представителя инновационного направления ко всему, что было до него :)
Главный специалист по технологиям компании expert.ai Марко Вароне (Marco Varone, https://www.expert.ai/team/marco-varone/ ) говорит, что «количество потенциальной отдачи, скрывающейся в неструктурированной, текстовой информации, настолько велико, что каждому предприятию необходимо определить стратегию преобразования информации на естественном языке в данные последовательным и масштабируемым способом. Это непросто, и для достижения этого требуются время, усилия и инвестиции, но откладывать данное решение уже невозможно, поскольку риск отстать в цифровом мире с каждым днем становится все больше» ( https://www.techrepublic.com/article/get-started-unlocking-data-value-with-natural-language-processing/ ).
Директор по данным в «Центре компетенции электронного правительства в Абу-Даби» (Abu Dhabi Digital Authority) Алтея Дэвис (Althea Davis, https://www.linkedin.com/in/althea-davis-1005357/?originalSubdomain=ae ) отмечает, что «интеграция [неструктурированных] данных выходит за рамки тактических задач. [Она позволяет превращать] данные в стратегическую информацию» ( https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data ).
Дик Вейсингер (Dick Weisinger)
Источник: блог компании Formtek
https://formtek.com/blog/artificial-intelligence-turning-unstructured-data-into-strategic-information/
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий