Итоги 2025 года и худшая ошибка десятилетия, связанная с документами
«Мусорные данные на входе, мусорный ИИ — на выходе» - запоминающаяся фраза, не правда ли? Её легко понять и легко запомнить.
Это высказывание легко может уничтожить нас. Наша одержимость одной этой фразой разрушила больше карьер, чем DOGE, проблемы экономики и COVID вместе взятые.
Мой комментарий: Здесь упомянут Департамент эффективности правительства (Department of Government Efficiency, DOGE) - временный федеральный орган, созданный в рамках Службы DOGE (ранее известной как Служба цифровых технологий США), и подчинявшийся Исполнительному офису президента США (Executive Office of the President, EOP). Действовал с января по ноябрь 2025 года.
С данной фразой связаны три проблемы.
Во-первых, она некорректна.
Чат-бот ChatGPT был создан на основе данных интернета (по сути, мусорных данных). Хуже того, вообще все данные - мусорные. Вся работа специалиста по ИИ заключается в том, чтобы сотворить чудо и магическим образом сделать мусорные данные пригодными для использования и надёжными. Есть люди, что всю свою карьеру посвящают поиску обходных путей при решении этой проблемы. Если Вы хотите убедиться, насколько ложна фраза «Мусорные данные на входе, мусорный ИИ — на выходе», прочитайте вот эту статью: https://www.linkedin.com/pulse/6-biggest-lies-records-management-part-2-kaan-volkan-jbwfe/ .
Мой комментарий: Экспериментировать с моделями ИИ можно с использованием каких угодно данных. Однако модель, обученная на некачественных данных, будет выдавать некачественные результаты. И, конечно же, в каждом конкретном случае понятие качества данных может трактоваться по-своему! Не случайно ИИ-сообщество разрабатывает стандарты качества данных, используемых для обучения моделей ИИ :)
Во-вторых, мы совершенно некомпетентны в плане определения того, что такое «хорошие» данные, особенно для ИИ.
Хорошие данные - это не просто «данные из источника истины». Существует множество метрик для оценки их качества. Как они влияют на собственные множители и собственные векторы? Что они делают с числами с плавающей запятой? Как они изменяют узлы нейронной сети? Как они изменяют веса матрицы и векторов, особенно на 2-м, 3-м, 4-м... n-м этапе операций? Каково соотношение точности и вычислительной эффективности?
Мой комментарий: Эти слова автора – с моей точки зрения, просто «замыливание» довольно простого вопроса. Как сказано в стандартах ИСО, качественные данные – это данные, соответствующие деловым требованиям и потребностям в конкретной ситуации. Всё остальное – от лукавого :) Деловые требования могут быть очень разными – в некоторых ситуациях, например, могут быть нужны неполные и неточные данные.
ИИ - это математика. Хорошие данные - это математика. Эти термины идут из математики. Люди, работающие над ИИ, это прикладные математики (старый термин для информатики). Мы к их числу не относимся.
Мой комментарий: С моей точки зрения, чтобы оценить, является ли «хорошим» автомобиль или стиральная машина, не нужно быть ни инженером, ни слесарем-сборщиком, ни пилотом «Формулы 1». Достаточно быть домохозяйкой с минимальным опытом :) Точно так же, чтобы оценить качество данных, достаточно взглянуть, можно ли с использованием этих данных решить поставленные деловые задачи или нет.
В-третьих, это выглядит по-детски.
Для простоты рассуждений, давайте представим себе преувеличенно смешной сценарий.
Подросток стучит в дверь Вашего офиса. Он говорит вам, что документ - это «любые данные, созданные или полученные, и затем сохраняемые в ходе повседневной деловой деятельности, которые фиксируют «действие, состояние или событие»; которые служат доказательством транзакций, подтверждением исполнения законодательно-нормативных требований и свидетельством операций; часто используются в качестве надежных доказательств при решении юридических вопросов, поскольку они имеют ключевое значение для принятия повседневных решений и обеспечения прозрачности».
Затем он спрашивает: «Теперь Вы видите, что я знаю, что такое «документ». За смешную цену в 2 миллиона долларов в год я буду управлять Вашими указаниями по срокам хранения документов и Вашими документальными фондами. Не волнуйтесь, я занимаюсь программированием уже 16 лет».
Доверили бы Вы свои документы такому человеку?
В этот момент Вы задаётесь вопросом, сколько времени потребовалось этому подростку, чтобы зазубрить первое, что следует знать о документах – две минуты? Он выглядит слегка заторможенным – значит, скорее, 5 минут.
Знает ли он что-нибудь кроме определения понятия «документ»?
Именно такое неуважение мы проявляем к нашим коллегам из ИИ, когда говорим им: «Мусорные данные на входе, мусорный ИИ — на выходе. Я управляю документами, источником достоверной информации, уже 16 лет, так что Вы должны меня слушать».
Мой комментарий: По-детски звучит как раз подобная аргументация. Специалист в области ИИ может ничего не понимать в той деловой деятельности (и связанных с нею данных), где разработанный ИИ предполагается применять – особенно если речь идёт об универсальных моделях. Человек может умело собирать компьютеры, но при этом быть полным профаном в вопросах их эффективного использования в конкретной деловой деятельности – и это нормально. Правильный подход – взаимное уважение и сотрудничество специалистов различных профессий.
Однако не всё так плохо. Мы можем во многом помочь ИИ-специалистам, а именно, в вопросах интероперабельности и объяснимости. За этими замысловатыми терминами скрываются довольно простые вещи:
Как это выяснить? Вы развертываете ИИ, а затем проводите аудит.
Объяснимость: Каким образом ИИ пришёл к такому решению?
Вы проводите ещё один аудит.
Угадайте, кто является профессионалом в проведении таких аудитов? Мы [специалисты по управлению документами – Н.Х.].
Мой комментарий: Автор, мягко говоря, не совсем прав – проведением подобного тестирования (его не совсем правильно называть аудитом) занимаются чаще всего, специалисты по соответствующему направлению деловой деятельности совместно с ИТ-специалистами, а специалистов по управлению документами к этой работе могут вообще не привлекать.
Так что давайте сосредоточим внимание на тех вещах, где мы можем оказать наибольшее воздействие, вместо того чтобы раздражать наших друзей из ИИ.
(Продолжение следует)
Каан Волькан (Kaan Volkan)
Источник: сайт LinkedIn
https://www.linkedin.com/pulse/2025-records-recap-kaan-volkan-g2fec/




%20sin%20dolor.png)
