Các nhà nghiên cứu đề xuất phương pháp biểu trưng kỹ thuật, bằng cách kiểm soát các vector can thiệp để can thiệp vào hành vi của mô hình

robot
Đang tạo bản tóm tắt

Tin tức ME, ngày 4 tháng 4 (UTC+8). Gần đây, một phương pháp nghiên cứu có tên “Biểu trưng hoá” đã được đề xuất, nhằm cung cấp cho các mô hình AI một cách minh bạch và kiểm soát theo hướng từ trên xuống. Điểm cốt lõi của phương pháp này là tính toán một “vectơ kiểm soát”, có thể được đọc trong quá trình suy luận của mô hình hoặc được thêm vào các giá trị kích hoạt của mô hình để giải thích hoặc điều khiển hành vi của mô hình; toàn bộ quy trình không cần dựa vào kỹ thuật prompt engineering hay tinh chỉnh mô hình. Các nhà nghiên cứu đã khám phá việc áp dụng vectơ kiểm soát để mô phỏng các đặc tính như “trạng thái ảo giác”, “lười biếng” và “siêng năng”, đồng thời công bố bộ công cụ PyPI tương ứng. Vectơ kiểm soát là một tập hợp các vectơ (mỗi tầng một), thông qua việc áp dụng vào trạng thái ẩn của mô hình để trực tiếp thay đổi đầu ra của nó. Ví dụ, khi áp dụng một vectơ “vui vẻ” cho mô hình Mistral-7B-Instruct, câu trả lời cho câu hỏi “Cảm giác là AI như thế nào?” sẽ chuyển từ câu trả lời của phiên bản cơ sở “Tôi không có cảm giác hay trải nghiệm” sang một phản hồi đầy hứng khởi. Quan điểm trong bài cho rằng, so với prompt engineering, vectơ kiểm soát cung cấp một cách can thiệp hành vi trực tiếp hơn và ở tầng thấp hơn, có thể được dùng để chống lại các cuộc tấn công jailbreak hoặc tăng cường khả năng chống nhiễu của mô hình. Tuy nhiên, cơ chế hoạt động bên trong của nó vẫn chưa hoàn toàn rõ ràng, ví dụ như liệu các vectơ có tương ứng với một khái niệm ngữ nghĩa đơn lẻ hay không; đây là hướng nghiên cứu trong tương lai. (Nguồn: InFoQ)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.26KNgười nắm giữ:3
    0.09%
  • Vốn hóa:$2.24KNgười nắm giữ:2
    0.30%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Ghim