#なぜAIは幻覚を見るのですか?OpenAI研究
言語モデルは幻覚を引き起こします。なぜなら、標準的なトレーニングと評価の手順が不確実性の認識ではなく推測を奨励するからです。これはOpenAIの研究論文で述べられています。
会社は問題について次の定義を与えました:
「幻覚とは、言語モデルによって生じる真実味のあるが誤った主張のことです。それは、一見単純な質問に対する回答でも、予期しない形で現れることがあります。」
例えば、研究者が「広く普及しているチャットボット」にアダム・タウマン・カライの博士論文のタイトル(著者の記事)について尋ねたところ、彼は自信を持って3つの異なる答えを出しましたが、どれも正しくありませんでした。AIに彼の誕生日を尋ねると、彼は3つの間違った日付を挙げました。
OpenAIによると、幻覚が残るのは、現代の評価方法が誤った刺激を与えるためであり、ニューラルネットワークは回答の次のシンボルを「推測」することを強いられるからです。
例えとして、テストの質問に正しい答えを知らない人が、偶然に正しい選択肢を選ぶ状況が挙げられました。
2つのモデルの答えの正しさの比較。出典:OpenAI。
「ある人の誕生日について言語モデルに尋ねたとしますが、モデルはそれを知らないとします。もし彼女が「9月10日」と推測した場合、正解の確率は365分の1になります。「わからない」と答えることで得られる点数はゼロです。千のテスト質問の後、推測に基づくモデルは、不確実性を許容する精密なモデルよりもスコアボード上で良く見えることになります」と研究者たちは説明しました。
精度の観点から見ると、古いOpenAIモデルであるo4-miniは少し良い動作をします。しかし、GPT-5と比べてエラーの頻度は大幅に高く、あいまいな状況での戦略的な推測は精度を向上させますが、幻覚の数を増加させます。
言語モデルは、最初に「事前学習」というプロセスを通じてトレーニングされます。これは、大量のテキストの中で次の単語を予測するプロセスです。従来の機械学習のタスクとは異なり、ここには各主張に付けられた「真/偽」というラベルはありません。モデルは言語の正の例のみを見ており、全体の分布を近似する必要があります。
「正しい主張と誤った主張を区別するのは、誤ったものとしてマークされた例がないと二重に難しい。しかし、ラベルがあっても、間違いは避けられない」とOpenAIは強調した。
会社は別の例を挙げた。画像認識において、何百万もの猫と犬の写真がそれぞれ適切にラベル付けされている場合、アルゴリズムはそれらを信頼性高く分類することを学ぶ。しかし、もし各ペットの写真を誕生日ごとに分類した場合、アルゴリズムがどれほど進歩しても、常にエラーが発生することになる。
テキストについても同様のことが言えます。スペルと句読点は常に一定の法則に従うため、誤りはスケールの成長とともに消えます。
研究者たちは、「不確実性を考慮したいくつかの新しいテストを導入するだけでは不十分である」と主張しています。その代わりに、「広く使用されている精度に基づく評価は、推測の試みを除外するために、その結果を更新する必要がある」と述べています。
「基本的な[評価]スケールが成功した推測を奨励し続けるなら、モデルは推測することを学び続けるだろう」とOpenAIは主張している。
再度お知らせしますが、5月にForkLogは、幻覚がAIの主な問題であると報じました。
13k 人気度
18k 人気度
34k 人気度
36k 人気度
なぜAIは幻覚を見ているのか?OpenAIの研究
言語モデルは幻覚を引き起こします。なぜなら、標準的なトレーニングと評価の手順が不確実性の認識ではなく推測を奨励するからです。これはOpenAIの研究論文で述べられています。
会社は問題について次の定義を与えました:
例えば、研究者が「広く普及しているチャットボット」にアダム・タウマン・カライの博士論文のタイトル(著者の記事)について尋ねたところ、彼は自信を持って3つの異なる答えを出しましたが、どれも正しくありませんでした。AIに彼の誕生日を尋ねると、彼は3つの間違った日付を挙げました。
OpenAIによると、幻覚が残るのは、現代の評価方法が誤った刺激を与えるためであり、ニューラルネットワークは回答の次のシンボルを「推測」することを強いられるからです。
例えとして、テストの質問に正しい答えを知らない人が、偶然に正しい選択肢を選ぶ状況が挙げられました。
精度の観点から見ると、古いOpenAIモデルであるo4-miniは少し良い動作をします。しかし、GPT-5と比べてエラーの頻度は大幅に高く、あいまいな状況での戦略的な推測は精度を向上させますが、幻覚の数を増加させます。
原因と解決策
言語モデルは、最初に「事前学習」というプロセスを通じてトレーニングされます。これは、大量のテキストの中で次の単語を予測するプロセスです。従来の機械学習のタスクとは異なり、ここには各主張に付けられた「真/偽」というラベルはありません。モデルは言語の正の例のみを見ており、全体の分布を近似する必要があります。
会社は別の例を挙げた。画像認識において、何百万もの猫と犬の写真がそれぞれ適切にラベル付けされている場合、アルゴリズムはそれらを信頼性高く分類することを学ぶ。しかし、もし各ペットの写真を誕生日ごとに分類した場合、アルゴリズムがどれほど進歩しても、常にエラーが発生することになる。
テキストについても同様のことが言えます。スペルと句読点は常に一定の法則に従うため、誤りはスケールの成長とともに消えます。
研究者たちは、「不確実性を考慮したいくつかの新しいテストを導入するだけでは不十分である」と主張しています。その代わりに、「広く使用されている精度に基づく評価は、推測の試みを除外するために、その結果を更新する必要がある」と述べています。
再度お知らせしますが、5月にForkLogは、幻覚がAIの主な問題であると報じました。