banner

Новости

Aug 16, 2023

Cloudera прокладывает путь к ответственному искусственному интеллекту в масштабе

Как аналитик, я наблюдаю за Cloudera несколько лет и высказал подробное мнение. Cloudera решает проблемы управления данными в общедоступных и частных облаках, позволяя клиентам управлять данными и получать от них выгоду. Cloudera уже более десяти лет является лидером в области больших данных: под управлением находится 25 экзабайт данных, которые используются девятью из десяти крупнейших мировых компаний в любой отрасли.

Cloudera развивалась с годами: Cloudera 1.0 была сосредоточена на создании корпоративной платформы данных с открытым исходным кодом, Cloudera 2.0 объединила Hortonworks и Cloudera для ускорения перехода к гибридному облаку, а Cloudera 3.0 создала первую настоящую гибридную мультиоблачную платформу данных. . В этой статье я объясню, почему платформа данных Cloudera (CDP) хорошо подходит для нового мира корпоративного искусственного интеллекта.

Что может пойти не так?

Генеративный ИИ использует алгоритмы, называемые большими языковыми моделями (LLM), для создания нового контента в форме текста, изображений, аудио или кода с использованием инструкций на естественном языке.

Генеративные инструменты искусственного интеллекта, такие как привлекающий внимание заголовков ChatGPT, обучают большим объемам данных из Интернета с сомнительным качеством данных, содержанием, правами собственности и конфиденциальностью. Как многие из вас испытали, в том числе недавно неудачливый юрист, ChatGPT убедительно представляет правдивые данные наряду с полной дезинформацией, предоставляя пользователю возможность отличать факты от вымысла.

Очевидно, что в условиях предприятия это неприемлемо. Для предприятий успех генеративного искусственного интеллекта и связанных с ним LLM зависит от качества и достоверности обучающих данных.

Гибридное облако: все данные готовы к работе с корпоративным искусственным интеллектом

В CDP Cloudera реализовала гибридную концепцию с единой плоскостью управления, которая управляет общей структурой безопасности и управления на платформе и всех службах обработки данных. Платформа CDP может перемещать рабочие нагрузки, данные и связанные метаданные в двух направлениях между публичными и частными облаками.

CDP Open Data Lakehouse предоставляет «основные данные» с безопасностью, управлением и корпоративным контекстом для развертывания с помощью базовых моделей локально или в облаке.

Доверие к ИИ начинается с доверия к данным

Чтобы корпоративный ИИ преуспел, необходимо доверие к результатам. Уверенность — это доверие базовым данным, используемым для обучения моделей. Как часть архитектуры CDP, Shared Data Experience (SDX) обеспечивает общую безопасность, происхождение и управление для всей аналитики, а также публичных и частных облаков.

SDX использует два проекта с открытым исходным кодом: Apache Ranger для определения, администрирования и управления политиками безопасности и Apache Atlas для управления и управления метаданными для создания, классификации и управления каталогом активов.

SDX включает каталог данных для администрирования и обнаружения всех активов данных. Данные профилируются и дополняются богатыми метаданными, включая операционный, социальный и бизнес-контекст, что создает надежные и повторно используемые активы данных и делает их доступными для обнаружения.

CDP обладает функциональностью, обеспечивающей комплексную безопасность, управление и соответствие требованиям на протяжении всего жизненного цикла данных, включая модели машинного обучения в производственных средах.

Ключевым моментом здесь является способность объяснить создание модели, данные, используемые для обучения модели, и источники данных — точный и полный источник данных для происхождения производственной среды.

BYO-версия GPT и модели фундамента

Многие клиенты уже используют возможности машинного обучения как часть CDP. Служба машинного обучения Cloudera хорошо зарекомендовала себя и охватывает весь жизненный цикл машинного обучения, от экспериментальной обработки данных до обучения и развертывания моделей. Cloudera предоставляет библиотеку комплексных прототипов прикладного машинного обучения (AMP), которые помогают клиентам начать разработку приложений.

На недавнем мероприятии для аналитиков Six Five Summit компания Cloudera анонсировала чат-бота LLM, дополненного корпоративными данными, в качестве образца для генеративного ИИ больших языковых моделей в ответ на желание клиентов создать версию GPT и базовых моделей собственными силами, а не обучать данные на общедоступные плагины API.

ДЕЛИТЬСЯ