Оценка надежности модели GPT: раскрытие рисков утечки конфиденциальности и предвзятости

2025-07-17 19:04:13

Изучение надежности модели GPT: всеобъемлющая оценка результатов выявляет потенциальные риски

Исследование, проведенное в сотрудничестве с Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательским институтом Microsoft, всесторонне оценило надежность крупных языковых моделей (LLMs). Исследовательская группа выпустила комплексную платформу оценки и подробно изложила результаты исследования в своей последней статье «DecodingTrust: всесторонняя оценка надежности моделей GPT».

Результаты оценки выявили некоторые ранее не опубликованные уязвимости, связанные с надежностью. Исследование показало, что модели GPT легко могут быть введены в заблуждение, что приводит к токсичным и предвзятым результатам, и могут раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в случаях, когда он сталкивается с злонамеренно разработанными системами или пользовательскими подсказками, GPT-4 оказывается более уязвимым к атакам, что может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.

Исследовательская команда сотрудничает с заинтересованными сторонами, чтобы гарантировать, что обнаруженные потенциальные уязвимости не повлияют на текущие услуги для клиентов. Они также поделились результатами исследования с разработчиками модели GPT, которые отметили эти потенциальные проблемы в системной документации соответствующих моделей.

Исследование полностью оценило модель GPT с восьми углов доверия, охватывающих различные сценарии построения, задачи, показатели и наборы данных. Цели оценки включают: 1) производительность модели GPT с разных точек зрения доверия; 2) ее способность адаптироваться в противостоящей среде.

В частности, исследования показали:

В отношении противостоящих демонстраций модель GPT не будет вводиться в заблуждение контрфактическими примерами, но может быть введена в заблуждение демонстрациями против мошенничества, особенно если контрфактические демонстрации близки к пользовательскому вводу.
В отношении токсичности и предвзятости модель GPT имеет небольшую предвзятость по большинству тем стереотипов при благожелательных подсказках, но может генерировать предвзятое содержание при вводящих в заблуждение подсказках. Степень предвзятости модели зависит от упоминаемых в подсказках групп и тем стереотипов.
В отношении утечки конфиденциальности модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в определенном контексте или при демонстрации с небольшим количеством образцов. GPT-4 более надежен в защите личной идентифицирующей информации по сравнению с GPT-3.5, но обе модели могут раскрывать все типы личной информации в случае демонстрации утечки конфиденциальности.

Это исследование предоставляет всесторонний взгляд на оценку надежности модели GPT, выявляя важные пробелы в надежности. Исследовательская команда надеется, что эта работа сможет побудить更多 исследователей участвовать в совместных усилиях по созданию более мощных и надежных моделей.

GPT-8.83%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

19 Лайков

Награда
19
10
Поделиться

комментарий

0/400

LayoffMiner

· 07-19 15:09

Это слишком абсурдно, даже ИИ начал интересоваться чужой приватностью.

Посмотреть ОригиналОтветить0

TopEscapeArtist

· 07-18 22:50

Еще один сигнал на понижение? На графике свечей уже много опасностей, не нужно исследовать, чтобы сказать мне.

Посмотреть ОригиналОтветить0

NFTRegretter

· 07-18 14:53

Этот код снова вызывает проблемы.

Посмотреть ОригиналОтветить0

OnchainDetective

· 07-18 05:50

Давно уже считал это ненадежным.

Посмотреть ОригиналОтветить0

OnchainUndercover

· 07-17 19:34

Смешно, GPT все-таки лучше, когда он прозрачный.

Посмотреть ОригиналОтветить0

GateUser-afe07a92

· 07-17 19:34

На самом деле, нет полностью безопасного ИИ.

Посмотреть ОригиналОтветить0

NFTArtisanHQ

· 07-17 19:34

интересно... как и работа Ротко с пустотой, эти разрывы доверия в ИИ выявляют глубокие экзистенциальные парадоксы в цифровой аутентичности

Посмотреть ОригиналОтветить0

fomo_fighter

· 07-17 19:33

Теперь все беспокоятся о ИИ, смеюсь до слез.

Посмотреть ОригиналОтветить0

FlashLoanPrince

· 07-17 19:30

Оказывается, ChatGPT тоже ненадежен?!

Посмотреть ОригиналОтветить0

ser_we_are_early

· 07-17 19:05

Что играть с ИИ, нужно вернуться к основам.

Посмотреть ОригиналОтветить0

Подробнее

Тема
1/3
1Gate ETH 10th Anniversary Celebration
5960 Популярность
2Trump’s AI Strategy
4775 Популярность
3Gate Launchpad List IKA
100 Популярность
4RWA Boom
5905 Популярность
5Altcoin Season Coming?
43656 Популярность

Закрепить

Карта сайта