Учимся выращивать машину

Изображения для загрузки на веб-сайте офиса новостей MIT предоставляются некоммерческим организациям, прессе и широкой публике в соответствии с некоммерческой лицензией Creative Commons «С указанием авторства». Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если оно не указано ниже, укажите авторство изображений в «MIT».

Предыдущее изображение Следующее изображение

Ни для кого не секрет, что ChatGPT от OpenAI обладает невероятными возможностями — например, чат-бот может писать стихи, напоминающие сонеты Шекспира, или отлаживать код компьютерной программы. Эти возможности стали возможными благодаря масштабной модели машинного обучения, на которой построен ChatGPT. Исследователи обнаружили, что когда модели такого типа становятся достаточно большими, открываются исключительные возможности.

Но для обучения более крупных моделей требуется больше времени и денег. Процесс обучения включает в себя показ модели сотен миллиардов примеров. Сбор такого большого количества данных сам по себе является сложным процессом. Затем идут денежные и экологические затраты, связанные с использованием множества мощных компьютеров в течение нескольких дней или недель для обучения модели, которая может иметь миллиарды параметров.

«Подсчитано, что обучение моделей в масштабе, на котором, как предполагается, будет работать ChatGPT, может потребовать миллионы долларов только за один обучающий прогон. Можем ли мы повысить эффективность этих методов обучения, чтобы мы могли получать хорошие модели за меньшие деньги? время и за меньшие деньги? Мы предлагаем сделать это, используя более мелкие языковые модели, которые были предварительно обучены», — говорит Юн Ким, доцент кафедры электротехники и информатики Массачусетского технологического института и член Лаборатории компьютерных наук и искусственного интеллекта. (КСАИЛ).

Вместо того чтобы отказываться от предыдущей версии модели, Ким и его коллеги используют ее в качестве строительных блоков для новой модели. Используя машинное обучение, их метод учится «выращивать» большую модель из меньшей модели таким образом, чтобы кодировать знания, которые уже получила меньшая модель. Это позволяет ускорить обучение более крупной модели.

Их метод экономит около 50 процентов вычислительных затрат, необходимых для обучения большой модели, по сравнению с методами, которые обучают новую модель с нуля. Кроме того, модели, обученные с использованием метода MIT, работали так же или лучше, чем модели, обученные с помощью других методов, которые также используют модели меньшего размера, чтобы обеспечить более быстрое обучение более крупных моделей.

Сокращение времени, необходимого для обучения огромных моделей, может помочь исследователям добиться прогресса быстрее с меньшими затратами, а также сократить выбросы углекислого газа, образующиеся в процессе обучения. Это также может позволить небольшим исследовательским группам работать с этими массивными моделями, потенциально открывая двери для многих новых достижений.

«Поскольку мы стремимся к демократизации этих типов технологий, повышение скорости и удешевления обучения станет более важным», — говорит Ким, старший автор статьи по этому методу.

Ким и его аспирант Лукас Торроба Хенниген написали статью вместе с ведущим автором Пейхао Вангом, аспирантом Техасского университета в Остине, а также другими сотрудниками Лаборатории искусственного интеллекта Watson MIT-IBM и Колумбийского университета. Исследование будет представлено на Международной конференции по обучению представлений.

Больше лучше

Большие языковые модели, такие как GPT-3, лежащие в основе ChatGPT, строятся с использованием архитектуры нейронной сети, называемой преобразователем. Нейронная сеть, основанная на человеческом мозге, состоит из слоев взаимосвязанных узлов или «нейронов». Каждый нейрон содержит параметры — переменные, полученные в процессе обучения, которые нейрон использует для обработки данных.

Трансформаторные архитектуры уникальны, поскольку по мере того, как эти типы моделей нейронных сетей становятся больше, они достигают гораздо лучших результатов.

Новости