четверг, 27 июня 2024 г.

Искусственный интеллект: Является ли методология «Состав экспертов» (CoE) прорывом в больших языковых моделях?

Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 16 мая 2024 года на блоге компании Formtek.

В динамичной сфере искусственного интеллекта народилась новая методология под названием «Состав экспертов» (Composition of Experts, CoE), которая потенциально может изменить ландшафт больших языковых моделей (Large Language Models, LLM). Методология CoE отходит от традиционной монолитной модели, предлагая модульную и экономически эффективную альтернативу.

Методология CoE работает путем объединения существующих экспертных моделей в согласованное целое. Это достигается посредством выполнения двух важных шагов: выявления экспертов и создания маршрутизатора. Каждый эксперт отлично справляется с определёнными конкретными задачами, а маршрутизатор динамически выбирает наиболее подходящего эксперта для данного запроса. Это похоже на оркестр, где каждый инструмент создает уникальное звучание, из которых затем формируется гармоничная композиция. В методологии CoE аналогичным образом формируется ансамбль моделей, в результате чего получается мощная, но адаптируемая LLM-модель.

Основным исследователем методологии CoE является компания SambaNova ( https://www.nextplatform.com/2023/09/20/sambanova-tackles-generative-ai-with-new-chip-and-new-approach/ ), известная своими инновациями в оборудовании. Их недавний прорыв — решение Samba-CoE-v0.1 — демонстрирует потенциал этого подхода. Объединив пять экспертных моделей, от математики до рассуждений на основе здравого смысла, решение Samba-CoE-v0.1 сумело превзойти показатели ряда других известных решений. Примечательно, что решение SambaNova превосходит при выполнении ряда задач решения Mixtral 8x7B, Gemma-7B, Llama2-70B, Qwen-72B и Falcon-180B. Более того, это достигается за счет затрат, эквивалентных всего двум вызовам LLM-моделей с 7 миллиардами параметров.

Помимо повышения производительности, CoE обеспечивает гибкость (agility). Его модульная конструкция даёт организациям возможность точно настраивать отдельные компоненты без переобучения всей модели. Ожидается, что по мере развития технологии в будущем будут улучшаться следующие аспекты:

  • Масштабируемость. Масштабирование CoE до еще более крупных моделей может открыть беспрецедентные возможности.

  • Надежная маршрутизация. Расширение возможностей маршрутизатора по обработке разнообразных запросов и диалогов с большим числом вариантов.

  • Более широкое внедрение: Внедрение CoE в продуктах не только SambaNova, но и других поставщиков, поскольку другие игроки изучают эту методологию.

Хотя компания SambaNova возглавляет усилия по развитию CoE, другие компании, вероятно, также последуют этому примеру. Отрасль остаётся открытой для инноваций, что способствует здоровой конкуренции.

Для широкого внедрения моделей на основе CoE потребуется время. По мере совершенствования оборудования и развития исследований, можно ожидать, что подход CoE станет более распространенным в течение следующих нескольких лет. Могут ли возникнуть гибридные модели, сочетающие CoE с другими методами? Возможно, CoE вдохновит на создание новых архитектур, сочетающих в себе экспертные модели и комплексное обучение.

Обучение моделей с триллионом параметров может сейчас стоить более 100 миллионов долларов. CoE кардинально изменяет ситуацию, позволяя достичь сопоставимой производительности примерно за 1/10 стоимости. Теперь организации смогут изучать возможности передовых методов искусственного интеллекта, не доводя себя до банкротства.

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
https://formtek.com/blog/artificial-intelligence-composition-of-experts-coe-a-breakthrough-in-large-language-models/  

Комментариев нет:

Отправить комментарий