Google DeepMind オープンソースの Gemma 4 多モーダルモデルファミリー

robot
概要作成中

ME News ニュース、2023年4月3日(UTC+8)、Google DeepMindは最近、Gemma 4多模態モデルファミリーをオープンソース化しました。このシリーズのモデルはテキストと画像入力をサポートし(小型モデルは音声も対応)、テキスト出力を生成します。プリトレーニングと指令調整のバリアントを含み、コンテキストウィンドウは最大256Kトークンに達し、140以上の言語をサポートします。モデルは密集(Dense)と混合エキスパート(MoE)の2つのアーキテクチャを採用し、E2B、E4B、26B A4B、31Bの4つのサイズがあります。主要な能力には高性能推論、マルチモーダル処理の拡張、デバイス側最適化、コンテキストウィンドウの拡大、エンコーディングとエージェント能力の強化、ネイティブシステムプロンプトのサポートが含まれます。技術的な詳細では、モデルは混合アテンションメカニズムを採用し、グローバル層では統一されたキーと値のペアおよび比率RoPE(p-RoPE)を使用しています。その中で、E2BとE4Bモデルは逐層埋め込み(PLE)技術を採用し、有効なパラメータは総パラメータより少なくなっています。一方、26B A4B MoEモデルは推論時に3.8Bのパラメータのみをアクティブにし、動作速度は4Bパラメータモデルに近いです。(出典:InFoQ)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン