banner

Блог

Nov 09, 2023

Решение машины

Изображения для загрузки на веб-сайте офиса новостей MIT предоставляются некоммерческим организациям, прессе и широкой публике в соответствии с некоммерческой лицензией Creative Commons «С указанием авторства». Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если оно не указано ниже, укажите авторство изображений в «MIT».

Предыдущее изображение Следующее изображение

Большие языковые модели, такие как GPT-3 от OpenAI, представляют собой массивные нейронные сети, способные генерировать текст, похожий на человеческий, от поэзии до программного кода. Эти модели машинного обучения, обученные с использованием большого количества интернет-данных, берут небольшой фрагмент входного текста, а затем прогнозируют текст, который, скорее всего, будет следующим.

Но это еще не все, на что способны эти модели. Исследователи изучают любопытный феномен, известный как контекстное обучение, при котором большая языковая модель учится выполнять задачу, просмотрев всего несколько примеров — несмотря на то, что она не была обучена для этой задачи. Например, кто-то может передать модели несколько примеров предложений и их настроения (положительные или отрицательные), а затем подсказать новое предложение, и модель сможет дать правильное мнение.

Обычно такую ​​модель машинного обучения, как GPT-3, необходимо переобучить с использованием новых данных для этой новой задачи. В ходе процесса обучения модель обновляет свои параметры по мере обработки новой информации для изучения задачи. Но при контекстном обучении параметры модели не обновляются, поэтому создается впечатление, что модель изучает новую задачу, вообще ничего не изучая.

Ученые из Массачусетского технологического института, Google Research и Стэнфордского университета стремятся разгадать эту тайну. Они изучали модели, очень похожие на модели больших языков, чтобы увидеть, как они могут обучаться без обновления параметров.

Теоретические результаты исследователей показывают, что эти массивные модели нейронных сетей способны содержать в себе более мелкие и простые линейные модели. Затем большая модель может реализовать простой алгоритм обучения для обучения этой меньшей линейной модели выполнению новой задачи, используя только информацию, уже содержащуюся в более крупной модели. Его параметры остаются фиксированными.

«Являясь важным шагом на пути к пониманию механизмов контекстного обучения, это исследование открывает двери для дальнейшего изучения алгоритмов обучения, которые могут реализовать эти большие модели», — говорит Экин Акюрек, аспирант компьютерных наук и ведущий автор статьи, исследующей это явление. Благодаря лучшему пониманию контекстного обучения исследователи смогут позволить моделям выполнять новые задачи без необходимости дорогостоящего переобучения.

«Обычно, если вы хотите точно настроить эти модели, вам нужно собрать данные, специфичные для предметной области, и выполнить некоторые сложные инженерные работы. Но теперь мы можем просто ввести в него пять примеров, и он выполнит то, что мы хотим. Итак, в -Контекстное обучение — это неоправданно эффективный феномен обучения, который необходимо понять», — говорит Акюрек.

В работе над статьей к Акюреку присоединяются Дейл Шурманс, научный сотрудник Google Brain и профессор компьютерных наук в Университете Альберты; а также старшие авторы Джейкоб Андреас, доцент X-консорциума факультета электротехники и информатики Массачусетского технологического института и член Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL); Тенгю Ма, доцент кафедры информатики и статистики в Стэнфорде; и Дэнни Чжоу, главный научный сотрудник и директор по исследованиям Google Brain. Исследование будет представлено на Международной конференции по обучению представлений.

Модель внутри модели

По словам Акюрека, в исследовательском сообществе машинного обучения многие учёные пришли к выводу, что большие языковые модели могут выполнять контекстное обучение благодаря тому, как они обучаются.

Например, GPT-3 имеет сотни миллиардов параметров и был обучен путем чтения огромных объемов текста в Интернете, от статей в Википедии до сообщений на Reddit. Таким образом, когда кто-то показывает примеры моделей новой задачи, он, вероятно, уже видел что-то очень похожее, поскольку его набор обучающих данных включал текст с миллиардов веб-сайтов. Он повторяет шаблоны, которые видел во время обучения, вместо того, чтобы учиться выполнять новые задачи.

ДЕЛИТЬСЯ