Стандарт разработан техническим подкомитетом ISO/TC37/SC3 «Менеджмент терминологических ресурсов» (Management of terminology resources).
Во вводной части документа отмечается:
«В последние десятилетия выявление и выделение (извлечение) из массивов текста (корпуса текста) соответствующих наименований и обозначений, в основном терминов (т.е. лингвистических обозначений), стало всё более важной задачей, решаемой в самых разных областях. Выявлением терминологии, которое выходит за рамки простого извлечения терминов, занимаются представители ряда специальностей, включая лингвистов в целом и специалистов по терминологии в частности, а также разработчиков онтологий и специалистов в области информатики и обработки и анализа данных. Выявление терминологии также служит нескольким целям, которые выходят за рамки составления глоссариев или наполнения терминологических баз данных и включают выявление понятий и связей между ними в интересах построения онтологий.
Широкое использование инструментов выявление терминологии в сфере управления терминологией, а также в других областях, таких как поиск и извлечение информации, резко контрастирует с малочисленностью документов, содержащих соответствующие определения, требования или описания передовой практики.
Инструменты выявления терминологии экономят время, деньги и усилия в сфере управлении терминологией, однако получаемые с их помощью результаты становится ещё более актуальными в том случае, когда они оцениваются и проверяются с использованием как качественных, так и количественных методов и критериев отбора таких сущностей, таких как релевантные термины, определения и взаимосвязи между понятиями. Эти выявленные и затем проверенные терминологические данные поддерживают создание высококачественных терминологических ресурсов и, таким образом, управление терминологией в целом.
В настоящем документе рассматриваются следующие аспекты, представляющие собой ядро методов и практик выявления и выделения терминологии:
- Формирование массивов текстов (общие принципы и типы корпуса текстов);
- Методы и критерии, используемые популярными инструментами выявления терминологии (статистическими, лингвистическими, гибридными и нейронными);
- Критерии отбора терминов (фильтрация списков терминов-кандидатов и оценка пригодности терминов);
- Характеристики инструментов.
Объективно специфицируя эти аспекты, данный документ предлагает эталонную концептуальную структуру для повышения производительности инструментов выявления и выделения терминологии и для оптимизации использования их результатов.
… В этом документе специфицируются методы выявления терминов-кандидатов на основе массивов текстов (корпуса текстов) и даются рекомендации по отбору соответствующих наименований и обозначений, определений, взаимосвязей понятий и иной информации, связанной с терминологией.»
Содержание документа следующее:
Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Принципы и методы
5. Реализация выявления и выделения терминологии
Библиография
Источник: сайт ИСО
https://www.iso.org/standard/81917.html
https://www.iso.org/obp/ui/en/#!iso:std:81917:en
Комментариев нет:
Отправить комментарий