#ClaudeCode500KCodeLeak



Вчора світ штучного інтелекту тихо вибухнув. Хтось помітив, що npm-пакет Anthropic's Claude Code був поставлений з неправильно налаштованим файлом .npmignore, і всередині цього пакету був вихідний мап — файл .map — який містив приблизно 512 000 рядків сирого коду TypeScript, що охоплював майже 1900 файлів. Вся оркестрова частина одного з найскладніших агентів кодування на базі штучного інтелекту на ринку, просто лежала там, доступна для завантаження, індексована, публічна. Не ваги моделі. Не навчальні дані. Щось, можливо, ще цікавіше: повна оболонка, каркас, підключення, що змушує Claude Code справді поводитися так, як він робить, коли сидить у вашому терміналі і пише ваш код.

Спільнота діяла швидко. Дзеркала з’явилися за кілька годин. Дослідники почали подавати код назад у сам Claude і просили його пояснити, що він читає. Відповіді на самодіагностику, що поверталися, були, залежно від вашої перспективи, або глибоко вражаючими, або тихо тривожними — ймовірно, і тим, і іншим.

Ось що насправді відкриває викрадений код і чому це має значення далеко за межами мемів.

Архітектура системного підказки не є єдиним цілісним документом. Це клаптиковий набір з понад сотні умовних фрагментів, кожен з яких динамічно вставляється залежно від активного інструменту, режиму користувача, виявленого контексту. Компонент моніторингу безпеки сам по собі важить понад 5600 токенів — приблизно 22 000 слів умовних інструкцій, присвячених лише спостереженню за ворожими входами. Це не функція безпеки, прикручена ззовні. Це паралєльний когнітивний шар, що працює поруч із усім іншим, завжди читає ті самі файли та фрагменти коду, що їх читає Claude, і шукає ознаки інжекції підказки, перш ніж будь-який виклик інструменту буде дозволений.

Режим Плану, функція, активована Shift+Tab, — це не просто пауза «подумай, перш ніж діяти». Він запускає трьох паралельних агентів. Один картографує кодову базу. Інший проводить те, що код описує як процес інтерв’ю. Саме виконання відбувається всередині ізольованого git-робочого дерева, ізольованого від живого робочого каталогу. Логіка координації між цими агентами є явно структурованою і досить складною для інструменту розробника.

Пам’ять розташована у шарах, які більшість користувачів, ймовірно, навіть не усвідомлює. Є пам’ять на рівні сесії, як і очікується. Є спільна пам’ять команди. І є щось, що кодова база називає autoDream — фоновий процес консолідації, що працює асинхронно, обрізаючи зайві записи та зливаючи пов’язані спогади. Назва досить образна, щоб викликати власну лінію реакцій, коли її знайшли, але механізм сам по собі простий: це процес обслуговування, створений для того, щоб зберігати корисність пам’яті на довгих часових горизонтах, а не дозволяти їй роздуватися у шум.

Верефікатор ворожих дій заслуговує окремого абзацу. Після генерації коду запускається окремий агент із однією метою: спробувати його зламати. Знайти крайній випадок. Виявити логічну помилку. Повернути PASS або FAIL до того, як вихід буде доставлений користувачу. Це не постфактум перевірка на стиль. Це ворожий субагент, інтегрований у конвеєр доставки. Код також вказує, що цей верефікатор можна налаштовувати, що означає, що Anthropic розглядає його як регулятор, а не перемикач — ви можете налаштувати, наскільки він намагається зламати.

Нерелізовані функції, знайдені у кодовій базі, — це місце, де все стає справді спекулятивним, оскільки жодна з них не поставляється. BUDDY, здається, — це постійний AI-компаньйон із станом, що відстежує щось подібне до емоційних або залучених метрик — порівняння з Tamagotchi, яке циркулювало в X, є редуктивним, але не зовсім неправильним. KAIROS — це проактивна система сповіщень, тобто агент, що звертається до користувача, а не чекає виклику. ULTRAPLAN вказує на хмарний режим планування з використанням моделей класу Opus, що означає, що найпотужніший рівень планування вивантажується, а не працює локально. Чи будуть ці функції випущені, коли і в якій формі — цілком невідомо, але їх існування у цій стадії розробки говорить про амбіції дорожньої карти продукту.

Анти-дистиляційний захист — найфілософськіше цікаве у витоку. Код містить логіку, спрямовану на створення фальшивих виходів інструментів для тих, хто намагається зняти поведінку моделі через автоматизоване дослідження. Мета — отруїти сигнал навчання для тих, хто намагається скопіювати поведінку Claude, спостерігаючи за його роботою. Іронія в тому, що цей захисний механізм — під назвою Undercover Mode — був сам витеклий у тому ж пакеті. Це щось таке, що виглядало б штучно, якби ти читав це у романі.

Явища якості коду заслуговують згадки, бо вони розповідають іншу історію, ніж архітектура. Серед елегантно спроектованих багатомодульних конвеєрів і ретельно структурованих систем пам’яті є функції, що перевищують 3000 рядків. Є те, що будь-який досвідчений інженер назвав би спагетті в деяких місцях. Це не критика — це нагадування, що навіть найскладніша інфраструктура штучного інтелекту створена людьми під тиском випуску, і різниця між елегантною зовнішньою поведінкою і хаотичною внутрішньою реалізацією — універсальна константа у програмному забезпеченні. Це також означає, що викрадений код — не ідеальна зразкова реалізація. Це робочий код із усіма шрамами, що з цим пов’язані.

Що це означає для ширшого ландшафту AI — варто задуматися. Оркестровий шар — оболонка, каркас, логіка агентної координації — історично вважалися комерційною таємницею, що відрізняє ці інструменти. Ваги моделі здебільшого недоступні. Навчальні дані охороняються. Але поведінковий шар, той, що визначає, як модель справді діє, коли інтегрована у продукт, тепер повністю відкритий для однієї з провідних агентів кодування. Інші команди прочитають це. Академічні дослідники прочитають це. Конкуренти прочитають це. Техніки паралельного запуску агентів, ворожої перевірки, багаторівневої консолідації пам’яті та виявлення інжекції підказки, над якими Anthropic витратив багато інженерного часу, тепер фактично публічні знання.

Anthropic поки що не зробила публічної заяви на момент написання. Ймовірно, npm-пакет був виправлений. Дзеркала вже настільки поширені, що їх важко стримати. Дискурс знову зосередиться за кілька днів, як це зазвичай буває. Але сам артефакт — 512 000 рядків, що описують, як справді думає і координує агент передової AI — буде ретельно вивчатися людьми, що створюють ці системи довго.

Головний висновок не в тому, що Anthropic зробила помилку. Це в тому, що різниця між «чорною скринькою AI» і «повністю зрозумілою системою AI» набагато менша, ніж зазвичай вважає ця галузь. Магія реальна, але вона також у TypeScript.
Переглянути оригінал
post-image
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
HighAmbitionvip
· 6год тому
Добре 👍👍
Переглянути оригіналвідповісти на0
  • Закріпити