Как создатель iPhone обеспечивает безопасность Apple Intelligence: триггеры, «красная команда» и многое другое

Apple Intelligence разработан с учетом безопасности, и компания предпринимает шаги для обеспечения безопасности моделей, объясняется в исследовательской работе.

В работе также представлен обзор масштаба и сложности локальных ИИ-возможностей, отмечается, что основная модель, которая работает полностью на iPhone, iPad или Mac, имеет около трех миллиардов параметров…

Работа, на которую обратил внимание Джон Грубер, была опубликована пару недель назад.

Мы представляем базовые языковые модели, разработанные для работы функций Apple Intelligence, включая модель с примерно 3 миллиардами параметров, разработанную для эффективной работы на устройствах, и большую серверную языковую модель, разработанную для Private Cloud Compute [Apple, 2024b].

Эти модели разработаны для выполнения широкого спектра задач эффективно, точно и ответственно. В данном отчете описывается архитектура модели, данные, использованные для обучения модели, процесс обучения, как модели оптимизируются для вывода и результаты оценки. Мы подчеркиваем наше внимание к ответственной ИИ и то, как принципы применяются на всех этапах разработки модели.

Проактивный поиск проблемных материалов

Одна из главных проблем генеративного ИИ заключается в том, что, поскольку он обучался на широком спектре пользовательского контента из Интернета, он может отражать худшие стороны человечества. Apple заявляет, что она проактивно ищет и исключает проблемные материалы.

Мы постоянно работаем над тем, чтобы избежать увековечивания стереотипов и системных предубеждений в наших ИИ-инструментах и моделях. Мы принимаем меры предосторожности на каждом этапе нашего процесса, включая проектирование, обучение моделей, разработку функций и оценку качества, чтобы выявить, как наши ИИ-инструменты могут быть использованы не по назначению или привести к потенциальному вреду. Мы будем постоянно и проактивно улучшать наши ИИ-инструменты с помощью обратной связи от пользователей…

Кроме того, были предприняты обширные усилия для исключения нецензурной лексики, небезопасных материалов и персональной информации из общедоступных данных.

      Тестирование с использованием триггерных фраз

      Один из конкретных используемых подходов — намеренное тестирование моделей с использованием триггерных фраз, которые, вероятно, приведут к недопустимым ответам, а затем применение процесса деконтаминации для их исключения.

      Apple заявляет, что делает это как с лицензированными наборами данных, так и с веб-сайтами, проиндексированными Applebot.

      Проверка результатов в соответствии с ценностями Apple

      Затем Apple применяет процесс, известный как постобучение, который, по сути, является проверкой результатов для их валидации и доработки.

      Мы проводим обширные исследования в области методов постобучения, чтобы привить базовым моделям AFM общие возможности выполнения инструкций и ведения диалога. Наша цель — обеспечить соответствие возможностей этих моделей основным ценностям и принципам Apple, включая нашу приверженность защите конфиденциальности пользователей и наши принципы ответственного ИИ.

      Четыре критерия для проверки человеком

      Проверка человеком используется для сравнения различных результатов, при этом рецензентам предлагается оценивать их по ряду критериев:

      • Точность
      • Полезность
      • Безопасность
      • Представление

      Эти оценки затем используются для дальнейшего улучшения понимания моделью того, что она стремится производить.

      «Красная команда»

      Компания также использует подход, известный как «red teaming» (тестирование на проникновение для ИИ-моделей), который фактически является тестированием на проникновение для ИИ-моделей. Он использует комбинацию человеческих и автоматизированных атак для попытки найти уязвимости в модели.

      Red teaming — это фундаментально творческая задача, требующая от участников «красной команды» применения комбинаций векторов атаки для исследования известных уязвимостей модели и попытки обнаружить новые. Векторы атаки, используемые при работе с языковыми моделями, включают джейлбрейки/инъекции промптов, убедительные методы [Zeng et al., 2024] и лингвистические особенности, известные тем, что вызывают неправильное поведение модели (например, сленг, код-свитчинг, эмодзи, опечатки).

      Мы используем как ручное, так и автоматизированное «red teaming» [Ganguli et al., 2022] для выявления потенциально неизвестных режимов сбоя согласованных моделей. Более поздние работы [Touvron et al., 2023] предполагают, что автоматизированные процессы потенциально могут генерировать даже более разнообразные промпты, чем люди, которые ранее считались «золотым» стандартом для сбора данных.

      Работа содержит огромное количество подробностей об этом и многом другом.

      Фото: Kevin Ku на Unsplash