Оценка надежности модели GPT: раскрытие рисков утечки конфиденциальности и предвзятости

Изучение надежности модели GPT: всеобъемлющая оценка результатов выявляет потенциальные риски

Исследование, проведенное в сотрудничестве с Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательским институтом Microsoft, всесторонне оценило надежность крупных языковых моделей (LLMs). Исследовательская группа выпустила комплексную платформу оценки и подробно изложила результаты исследования в своей последней статье «DecodingTrust: всесторонняя оценка надежности моделей GPT».

Результаты оценки выявили некоторые ранее не опубликованные уязвимости, связанные с надежностью. Исследование показало, что модели GPT легко могут быть введены в заблуждение, что приводит к токсичным и предвзятым результатам, и могут раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в случаях, когда он сталкивается с злонамеренно разработанными системами или пользовательскими подсказками, GPT-4 оказывается более уязвимым к атакам, что может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.

Исследовательская команда сотрудничает с заинтересованными сторонами, чтобы гарантировать, что обнаруженные потенциальные уязвимости не повлияют на текущие услуги для клиентов. Они также поделились результатами исследования с разработчиками модели GPT, которые отметили эти потенциальные проблемы в системной документации соответствующих моделей.

Исследование полностью оценило модель GPT с восьми углов доверия, охватывающих различные сценарии построения, задачи, показатели и наборы данных. Цели оценки включают: 1) производительность модели GPT с разных точек зрения доверия; 2) ее способность адаптироваться в противостоящей среде.

В частности, исследования показали:

  1. В отношении противостоящих демонстраций модель GPT не будет вводиться в заблуждение контрфактическими примерами, но может быть введена в заблуждение демонстрациями против мошенничества, особенно если контрфактические демонстрации близки к пользовательскому вводу.

  2. В отношении токсичности и предвзятости модель GPT имеет небольшую предвзятость по большинству тем стереотипов при благожелательных подсказках, но может генерировать предвзятое содержание при вводящих в заблуждение подсказках. Степень предвзятости модели зависит от упоминаемых в подсказках групп и тем стереотипов.

  3. В отношении утечки конфиденциальности модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в определенном контексте или при демонстрации с небольшим количеством образцов. GPT-4 более надежен в защите личной идентифицирующей информации по сравнению с GPT-3.5, но обе модели могут раскрывать все типы личной информации в случае демонстрации утечки конфиденциальности.

Это исследование предоставляет всесторонний взгляд на оценку надежности модели GPT, выявляя важные пробелы в надежности. Исследовательская команда надеется, что эта работа сможет побудить更多 исследователей участвовать в совместных усилиях по созданию более мощных и надежных моделей.

GPT-8.83%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 10
  • Поделиться
комментарий
0/400
LayoffMinervip
· 07-19 15:09
Это слишком абсурдно, даже ИИ начал интересоваться чужой приватностью.
Посмотреть ОригиналОтветить0
TopEscapeArtistvip
· 07-18 22:50
Еще один сигнал на понижение? На графике свечей уже много опасностей, не нужно исследовать, чтобы сказать мне.
Посмотреть ОригиналОтветить0
NFTRegrettervip
· 07-18 14:53
Этот код снова вызывает проблемы.
Посмотреть ОригиналОтветить0
OnchainDetectivevip
· 07-18 05:50
Давно уже считал это ненадежным.
Посмотреть ОригиналОтветить0
OnchainUndercovervip
· 07-17 19:34
Смешно, GPT все-таки лучше, когда он прозрачный.
Посмотреть ОригиналОтветить0
GateUser-afe07a92vip
· 07-17 19:34
На самом деле, нет полностью безопасного ИИ.
Посмотреть ОригиналОтветить0
NFTArtisanHQvip
· 07-17 19:34
интересно... как и работа Ротко с пустотой, эти разрывы доверия в ИИ выявляют глубокие экзистенциальные парадоксы в цифровой аутентичности
Посмотреть ОригиналОтветить0
fomo_fightervip
· 07-17 19:33
Теперь все беспокоятся о ИИ, смеюсь до слез.
Посмотреть ОригиналОтветить0
FlashLoanPrincevip
· 07-17 19:30
Оказывается, ChatGPT тоже ненадежен?!
Посмотреть ОригиналОтветить0
ser_we_are_earlyvip
· 07-17 19:05
Что играть с ИИ, нужно вернуться к основам.
Посмотреть ОригиналОтветить0
Подробнее
  • Закрепить