суббота, 12 ноября 2022 г.

Искусственный интеллект: Гонка по созданию гигантских моделей естественного языка

Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 10 октября 2022 года на блоге компании Formtek.

Компания OpenAI (американская компания, занимающаяся разработкой и лицензированием технологий на основе машинного обучения, см. https://openai.com/ - Н.Х.) поразила ИИ-сообщество выпуском языковой модели GPT-3 (от Generative Pre-trained Transformer 3 – «Авторегрессионная генерирующая языковая модель на архитектуре трансформер 3-го поколения», см. https://en.wikipedia.org/wiki/GPT-3 - Н.Х.), которая использовала 175 миллиардов параметров для настройки при написании коротких эссе, компьютерного кода и диалогов. 175 миллиардов - это очень большая величина, и в тот момент данное достижение казалось труднодостижимым для других исследователей. Но теперь забудьте об этом - другие исследователи сравниваются с достижениями GPT-3 и оставляют их позади.

В декабре 2021 года компания DeepMind представила языковую модель под названием Gopher (см. https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher ), которая использует 280 миллиардов параметров. Затем в том же месяце компания Google представила языковую ИИ-модель, построенную на 1,6 триллионах параметров, тем самым значительно превзойдя размер модели, используемой GPT-3. Более крупные модели доказывают, что, как правило, «чем больше, тем лучше» с точки зрения диапазона и возможностей модели. Однако для достижения таких результатов также требуются дорогостоящее оборудование, длительное время обучения и огромные объёмы данных. Есть всего лишь несколько организаций, - в основном это крупные технологические компании, - которые способны принять участие в этой гонке.


Рост со временем масштабов NLP-моделей для обработки естественного языка НЛП, данные компании NVIDIA, см. https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ (по вертикальной оси отложено количество параметров в миллиардах – Н.Х.)

Менеджер по продуктам в компании NVIDIA Пареш Харья (Paresh Kharya, https://www.linkedin.com/in/pareshkharya/ ), и руководитель программ в Microsoft Али Алви (Ali Alvi) написали в блоге NVIDIA, что «мы живем во времена, когда достижения в области искусственного интеллекта намного опережают закон Мура. Мы по-прежнему наблюдаем увеличение вычислительной мощности благодаря новым поколениям графических процессоров, взаимодействующих между собой с молниеносной скоростью. В то же время мы по-прежнему видим, что гипермасштабирование ИИ-моделей приводит к повышению их эффективности, и, похоже, конца этому не видно» ( https://www.linkedin.com/in/juliensimon/?originalSubdomain=fr ).

Главный евангелист компании HuggingFace Жюльен Саймон (Julien Simon) пишет, что «размер крупномасштабных языковых моделей увеличивался в 10 раз каждый год в течение последних нескольких лет. Это начинает походить на ещё один закон Мура». При этом, однако, Саймон поставил под сомнение полезность таких огромных моделей, говоря, что «вместо того, чтобы гоняться за моделями с триллионами параметров (делайте Ваши ставки), не лучше ли было бы для всех нас создать практичные и эффективные решения, которые все разработчики могли бы использовать для решения проблем реального мира?».

Зив Гидрон (Ziv Gidron, https://www.linkedin.com/in/ziv-gidron/?originalSubdomain=il ) отмечает, что «хотя более наличие более триллиона параметров может создать впечатление о том, что эта языковая модель была обучена на всех доступных онлайн данных, эта модель не может автоматически обновлять себя - это означает, что новая модель Google лишь настолько хороша, насколько были хороши данные, которые были её «скормлены» (какими бы обильными они ни были). Одна переменная, один новый продукт, обновление сервиса или изменение контента могут обрушить весь карточный домик и ввести в заблуждение либо дать неверные рекомендации пользователю, стремящемуся выполнить задачу. Кроме того, эти модели недружественны к мелким итерациям, и, судя по модели ценообразования GPT-3, любые такие корректировки будут сопряжены со значительными затратами».

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
https://formtek.com/blog/artificial-intelligence-the-race-to-build-mamouth-natural-language-models/

Комментариев нет:

Отправить комментарий