Nguồn mở và có sẵn trên thị trường, chi phí của mô hình lớn MPT-30B tham số 30 tỷ chỉ bằng một phần nhỏ của GPT-3

Công ty phát triển mô hình lớn AI MosaicML gần đây đã phát hành mô hình ngôn ngữ lớn mã nguồn mở MPT-30B thương mại mới, với 30 tỷ tham số, mạnh hơn đáng kể so với mô hình ngôn ngữ MPT-7B thế hệ trước (7 tỷ tham số) và hiệu suất của nó là tốt hơn GPT-3.

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Ngoài ra, họ đã phát hành hai mẫu tinh chỉnh: MPT-30B-Instruct và MPT-30B-Chat, được xây dựng trên MPT-30B và tương ứng tốt trong việc theo dõi hướng dẫn một lượt và đối thoại nhiều lượt.

Các tính năng của mẫu MPT-30B:

  • Cửa sổ bối cảnh mã thông báo 8k trong quá trình đào tạo
  • Hỗ trợ ngữ cảnh dài hơn qua ALiBi
  • Đạt được hiệu suất suy luận + đào tạo hiệu quả thông qua FlashAttention
  • Dòng MPT-30B cũng có khả năng mã hóa mạnh nhờ hỗn hợp dữ liệu được đào tạo trước.

Mô hình đã được mở rộng sang cửa sổ ngữ cảnh mã thông báo 8k trên NVIDIA H100, khiến nó trở thành LLM đầu tiên được đào tạo trên H100.

MPT-30B mạnh hơn GPT-3?

MPT-30B là mô hình cơ sở nguồn mở được cấp phép Apache 2.0 thương mại mạnh hơn GPT-3 ban đầu và cạnh tranh với các mô hình nguồn mở khác như LLaMa-30B và Falcon-40B.

(Trên cùng) Độ chính xác của MPT-30B so với GPT-3 trong chín tác vụ học theo ngữ cảnh (ICL). MPT-30B vượt trội so với GPT-3 ở sáu trong số chín chỉ số.

MosaicML đã đào tạo MPT-30B trong 2 tháng, sử dụng cụm GPU H100 của Nvidia để đào tạo.

Như thể hiện trong hình bên dưới, dữ liệu huấn luyện của MPT-30B:

MPT-30B được đào tạo trước bằng cách trộn dữ liệu và mã thông báo dữ liệu đào tạo trước 1T được thu thập từ 10 kho văn bản nguồn mở khác nhau và văn bản được phân đoạn bằng cách sử dụng mã thông báo EleutherAI GPT-NeoX-20B và được lấy mẫu theo tỷ lệ trên .

So sánh MPT-7B và MPT-30B

Chi phí đào tạo MPT-30B

Naveen Rao, Giám đốc điều hành và đồng sáng lập của MosaicML, cho biết chi phí đào tạo MPT-30B là 700.000 đô la Mỹ (khoảng 5,0244 triệu nhân dân tệ), thấp hơn nhiều so với hàng chục triệu đô la cần thiết cho các sản phẩm tương tự như GPT- 3. .

Sẽ mất bao nhiêu thời gian và tiền bạc để đào tạo một mẫu MPT-30B tùy chỉnh? Hãy bắt đầu với mô hình cơ bản.

Hình trên cho thấy thời gian và chi phí đào tạo trước MPT-30B từ đầu bằng cách sử dụng GPU A100 hoặc H100. Với cơ sở hạ tầng MosaicML, bạn có thể đào tạo MPT-30B tùy chỉnh của riêng mình từ đầu bằng mã thông báo 1T sau 2 tuần.

Điều gì sẽ xảy ra nếu bạn không muốn đào tạo từ đầu mà chỉ tinh chỉnh một mô hình hiện có?

Hình bên dưới trình bày chi tiết thời gian và chi phí tinh chỉnh MPT-30B cho mỗi mã thông báo 1B. Với cơ sở hạ tầng MosaicML, bạn hoàn toàn có thể tinh chỉnh mô hình MPT-30B của mình mà không phải lo lắng về các giới hạn bộ nhớ hệ thống và chỉ với vài trăm đô la!

MosaicML cho biết việc mở rộng mô hình lên 30 tỷ tham số chỉ là bước đầu tiên, sau đó họ sẽ tung ra một mô hình lớn hơn và chất lượng cao hơn với tiền đề giảm chi phí.

Người giới thiệu:

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)