Производительность графического процессора NVIDIA H100 превосходит стандарты машинного обучения для обучения моделей

NVIDIA

Графический процессор NVIDIA Hopper H100 с тензорными ядрами впервые появился в тестировании ранее в этом году в MLPerf Inference 2.1. Никого не удивило, что H100 и его предшественник A100 доминировали во всех задачах вывода. H100 установил мировые рекорды во всех из них, и NVIDIA — единственная компания, которая выполнила каждую рабочую нагрузку в каждом раунде MLPerf.

Несколько недель назад был опубликован новый набор результатов обучения MLCommons, на этот раз для обучения MLPerf 2.1, в котором также доминировали NVIDIA H100 и A100.

К сожалению, доминирование NVIDIA в пакетах тестов MLPerf для вывода и обучения отклонило представления и отчеты многих важных компаний, занимающихся искусственным интеллектом.

Отрасль выиграет от участия большего числа организаций, как мы видели в других секторах, таких как процессоры, это стимулирует конкуренцию и инновации. Широкое участие в пакетах сравнительного анализа имеет большое значение, поскольку машинное обучение растет в геометрической прогрессии. Почти каждый сегмент отрасли использует машинное обучение для широкого спектра приложений. По мере увеличения использования увеличивается и размер модели. С 2018 года MLCommons проводит раунды тестирования, которые чередуются между раундами тестирования MLPerf Training и MLPerf Inference.

За четыре года между первым тестом MLPerf в 2018 году и результатами этого года размер модели машинного обучения увеличился на пять порядков. Благодаря увеличенному размеру модели и большим наборам данных стандартизированные инструменты, такие как MLPerf Training и MLPerf Inference, становятся более важными, чем когда-либо. Производительность модели машинного обучения должна быть измерена, прежде чем ее можно будет улучшить.

MLPerf 2.1 Тесты обучения

Сводка тестов, используемых в MLPerf Training v2.1 ... [+]

Обучение MLPerf и вывод MLPerf используют одни и те же восемь рабочих нагрузок, показанных на рисунке выше. Mini Go является исключением, поскольку он используется только для оценки обучения с подкреплением. Каждый эталонный тест определяется своим собственным конкретным набором данных и целевым показателем качества. Ключ – это время, необходимое для обучения модели с использованием указанного набора данных с указанным целевым качеством.

MLPerf жизненно важен для искусственного интеллекта и машинного обучения, поскольку это стандартный эталонный тест с результатами экспертной оценки, который обеспечивает достоверное сравнение для обучения моделей и вывода. Его поддерживают Amazon, Arm, Baidu, Google, Гарвардский университет, Intel, Meta, Microsoft, Стэнфордский университет и Университет Торонто.

Несколько отдельных моделей обеспечивают высокую производительность, несколько моделей

Реальные приложения искусственного интеллекта используют несколько моделей

Обычно несколько моделей ИИ объединяются в цепочку для удовлетворения одного входного сигнала. Примером мультимодальных сетей является устный запрос на рисунке выше. Для ответа на этот вопрос требуется десять моделей машинного обучения. Несколько моделей должны не только работать последовательно, но и предоставлять решения в режиме реального времени.

Некоторые облачные сервисы также используют несколько сетей для предоставления услуг, ускоренных графическими процессорами NVIDIA. Все сети и платформы приложений NVIDIA доступны в репозитории MLPerf, в NGC (онлайн-репозиторий контейнеров NVIDIA) и в репозитории GitHub.

Тестирование производительности A100 и H100

MLPerf Training v2.1 Производительность

Как показано на диаграмме производительности MLPerf Training 2.1, H100 обеспечил производительность в 6,7 раз выше в тесте BERT по сравнению с тем, как A100 показал свою первую заявку MLPerf в 2019 году.

A100 по-прежнему демонстрирует рекордные результаты и высокую производительность с повышением производительности до 2,5 раз. Этот выигрыш является результатом оптимизации программного обеспечения. Вероятно, это будет предложение NVIDIA в течение некоторого времени.

Превосходные характеристики H100 на модели BERT NLP обусловлены ее трансформаторным двигателем. У А100 нет учебного двигателя. Новый движок в сочетании с тензорными ядрами NVIDIA Hopper FP8 обеспечивает до 9 раз более быстрое обучение ИИ и в 30 раз более быстрое ускорение вывода ИИ на больших языковых моделях, чем A100. H100 основан на архитектуре Hopper и использует тензорные ядра четвертого поколения.

Блог

Производительность графического процессора NVIDIA H100 превосходит стандарты машинного обучения для обучения моделей