пятница, 27 февраля 2015 г.

Как решить проблему метаданных


Заметка вице-президента по маркетингу фирмы Concept Searching («Концептуальный поиск») Карлы Малли (Carla Mulley) была опубликована на сайте компании 9 февраля 2015 года.

Проблема метаданных – это проблема конечного пользователя или организации? Ручное присвоение метаданных обречено на неудачу даже при использовании такого инструмента, как раскрывающиеся списки (составленные на основе контролируемых словарей – Н.Х.). Поскольку мы живые люди, метаданные будут несогласованными (мы часто называем одни и те же вещи по-разному – как говорится в песне, “You say potato, I say potahto”), субъективными, и их подготовка будет затратной. Исследования показывают, что конечные пользователи при назначении метаданных сплошь и рядом используют первое значение из раскрывающегося списка. Конечный пользователь не чувствует отдачи от усилий, затраченных на правильное назначение метаданных, и подобное поведение - не обязательно проявление недобросовестности: сотрудник может спешить, может быть перегружен работой, или же, по какой-либо причине, ему просто может быть всё это безразлично.

Используя дополнительные инструменты, можно создавать метаданные на основе семантического (смыслового) анализа текстов, но подобные функциональные возможности, за редким исключением, в поисковых системах отсутствуют. Такие инструменты способны обучаться на массиве документов, работая всё более и более точно. Метаданные затем используются как для автоматической классификации документов, так и для анализа текстов. В зависимости от развитости инструментов, можно частично или полностью отказаться от ручного назначения метаданных конечными пользователями.

Согласно данным консультационной фирмы IDC, менее половины всего контента правильно индексируется, снабжается метатегами и/или пригодно для эффективного поиска. Подумайте о преимуществах стратегии работы с документами, не зависящей от того, выполнит ли каждый сотрудник организации небольшую дополнительную работу по классификации документов, в ходе которой вероятность ошибки высока, а средние затраты составляют 4 - 7 долларов за один документ. Подумайте о стратегии, которая работает даже в тех случаях, когда документ сохранён в «неправильном» месте и, когда он понадобился, его трудно найти.

Формирование метаданных на основе семантического анализа и автоклассификация документов гарантируют категоризацию и защиту всего вашего контента таким образом, что запросы на электронное раскрытие информации (например, в ходе судебных разбирательств или расследований – Н.Х.) могут быть выполнены за считанные дни. Это позволяет организации избежать нарушения законодательно-нормативных требований и соответствующих высоких штрафов, а защита на уровне контента может использоваться для предотвращения утечек данных. Так что речь идёт не просто о продвинутом поиске.

Карла Малли (Carla Mulley)

Источник: сайт фирмы Concept Searching
http://www.conceptsearching.com/wp/you-say-potato-i-say-potahto-eliminating-the-metadata-predicament/ 

Комментариев нет:

Отправить комментарий