Cottage by the Caledonian Canal at Dochgarroch
© Copyright David Dixon and licensed for reuse under this Creative Commons Licence.
ここしばらく、生成AIの得意な分野の1つである「創作」に関する技量を比較するため、OpenAIのChatGPT、MicrosoftのCopilot、GoogleのGemini 1.5、AnthropicのClaude3、CohereのCoralにエッセイを作ってもらいました。
どれも、生成AIが作ったと言わなければ、どこかで聞いたような・・・と感じることはあっても、内容に関して違和感を覚えるようなことはなく、改めて、生成AIでここまでできるのかーと感心しました。
とはいえ、自分としては、これまでの「Google検索に代わるツール」として、生成AIに期待するところが大きく、生成AIのハルシネーション(もっともらしいウソ)が気になるところです。
そこで、今回は、「生成AIのハルシネーション対策ーその1」として、「生成AIで問題視されているハルシネーション対策を強化している」とのうわさの高い、Cohere社のCoral(OpenAIのChatGPTに相当する、Cohere社の生成AIであるCommand R+のチャットボット)を使って、生成AIのハルシネーションについて尋ねてみました。
私#1: 生成AIにとって、ハルシネーションというのは不可避なものでしょうか? Coral#1: AIや機械学習の分野では、「ハルシネーション(幻覚)」という用語は通常、モデルが実際の入力データに存在しないパターンや物体を検出したり認識したりするときに使用されます。これは、AIが不完全なデータやノイズが多いデータから学習したり、過剰適合したりした結果、発生する可能性があります。 現在のAIシステムでは、ハルシネーションはまれな現象ではありません。これは、AIモデル、特に深層ニューラルネットワークが、膨大な量のデータと複雑なタスクを処理しようとするために発生します。これらのモデルは、データ内のパターンや相関関係を識別するように設計されていますが、時にはそれらの関係が現実には存在しない場合でも、それらの関係を「見る」ことがあります。 ハルシネーションは、AIシステムが不確実性や曖昧さに直面したときに発生する可能性があります。たとえば、画像認識モデルがぼやけた画像やノイズが多い画像を処理する場合、そこに実際には存在しないオブジェクトや特徴を検出することがあります。同様に、言語モデルは、文脈上不適切な単語や文を生成することがあります。これは、モデルが学習データ内のパターンを過度に一般化したり、文脈を正しく理解できなかったりした結果である可能性があります。 しかし、ハルシネーションはAIシステムの設計やトレーニング方法によって軽減または回避できる問題でもあります。研究者は、より強力なアルゴリズム、より大規模なデータセット、より良いデータ正規化技術を開発することで、この問題に取り組んできました。また、AIモデルに不確実性についての不確実性を測定および伝達する方法を教える「ベイジアンネットワーク」や「不確実性推定」などの技術も開発されています。 要約すると、現在のAIシステムではハルシネーションは一般的な問題ですが、不可避なものではありません。AI分野の研究と進歩により、より正確で信頼性の高いAIシステムの開発が可能になり、ハルシネーションの発生を軽減または回避できるようになります。
私#2: ハルシネーションの発生する原因がいくつか挙げられていますが、ハルシネーションの内容をカテゴリ分けして、そのカテゴリごとに生成AIのどこが課題なのかを説明してもらえますか? Coral#2: もちろんです。ハルシネーションは、生成AIが実際の入力データに存在しないコンテンツを生成したり認識したりするときに発生する現象です。これらの幻覚はいくつかの異なるカテゴリに分類でき、各カテゴリは生成AIの特定の課題を示しています。ここでは、ハルシネーションのカテゴリと、それらがAIのどの分野に課題をもたらすかを示します。 1.視覚的ハルシネーション:
2.言語的ハルシネーション:
3.社会的・文化的ハルシネーション:
4.論理的矛盾:
5.データ依存性:
これらのカテゴリは、生成AIのハルシネーション現象を理解し、その根本的な課題を特定するのに役立ちます。研究者や開発者は、これらのカテゴリを使用して、より正確で信頼性の高いAIシステムを開発し、これらの幻覚を軽減または回避するためのアルゴリズム、トレーニング手法、データ処理技術を設計できます。
私#3: これらのハルシネーション対策として、生成AI側ではどのような対策が取られているのでしょうか? Coral#3: 生成AIシステムは、ハルシネーションの課題に対処するためにさまざまな戦略と技術を採用しています。 1.視覚的ハルシネーションに対する対策:
※用語「注意メカニズム」は、自然言語処理とAIコミュニティで一般的に使用されるより広範な概念を指しますが、ここではトランスフォーマーベースのモデルで広く採用されているAttentionのこと
2.言語的ハルシネーションに対する対策:
3.社会的・文化的ハルシネーションに対する対策:
4.論理的矛盾に対する対策:
5.データ依存性に対する対策:
これらの対策は、生成AIシステムがハルシネーションの課題を軽減し、より正確で信頼性の高い応答を提供するのに役立ちます。
私#4: 今列挙してくれた対策の大部分は、すでにほとんどの生成AIで実施されているものだと認識していますが、それにもかかわらず、ハルシネーションが起きるのはなぜでしょうか? Coral#4: 生成AIシステムはハルシネーションを完全に排除することは困難です。ハルシネーションは、AIモデルが実際の入力データに存在しないコンテンツを生成または認識するときに発生する複雑な現象です。これらの幻覚は、モデルのトレーニング方法、データセットの制限、さらにはAIの現在の限界に起因する場合があります。 生成AIシステムでハルシネーションが発生する可能性があるいくつかの理由を次に示します。
これらの要因により、生成AIシステムでハルシネーションが発生する可能性が高くなります。ハルシネーションを完全に排除するのは困難ですが、AIコミュニティは、より正確で信頼性の高い応答を提供するために、トレーニング手法、データセットの改善、AIアルゴリズムの強化に継続的に取り組んでいます。
私#5:RAGは、ハルシネーション対策ではないでしょうか? Coral#5: いいえ、RAG(取得強化生成)は、生成された応答の正確性と関連性を高めることを目的とした技術であり、ハルシネーション対策として明示的に設計されているわけではありません。ただし、RAG は、関連する取得された情報を組み込むことで、生成プロセスを強化し、より多くのコンテキストと裏付けとなる事実を提供することで、ハルシネーションの軽減に間接的につながる可能性があります。
私#6: CoralのGrounding機能は、RAGの1種と考えて良いですか? Coral#6: Coral の Grounding は、RAG システムの重要なコンポーネントですが、RAG の一種とは見なされません。 Grounding は、生成された応答の関連性と正確性を高めるために、外部ソースから関連情報を検索して取得するプロセスです。一方、RAG は、生成プロセス全体を強化するために取得された情報を組み込むより広範なアプローチです。 Coral の Grounding は、RAG システムのコアコンポーネントとして機能し、生成された応答を強化および裏付けるために必要な関連情報を取得します。
私#7: Cohereの最新生成AIモデルであるRerank 3もハルシネーション対策ではないのですか? Coral#7: いいえ、Rerank 3 がハルシネーションを直接軽減または排除するために特別に設計されているという明示的な言及はありません。ただし、Rerank 3 は検索結果の関連性を高めることを目的としており、これにより、関連するドキュメントを選択して関連性の高い応答を生成する際に生成AIシステムを間接的に支援し、ハルシネーションを軽減するのに役立ちます。
私#8: 最初に生成AIの生み出すハルシネーションを分類してもらった際、5番目として「データ依存性」があげられましたが、CohereのRerank 3/Groundingは、生成AIが、より正しい情報に基づいて推論することを促す意味で、ハルシネーション対策になっていると思います。 Coral#8: はい、その認識は正しいです。 Rerank 3/Grounding は、生成AIシステムがより正確な情報に基づいて推論し、ハルシネーションのリスクを軽減するのに役立ちます。 Rerank 3 は検索結果の関連性を高めるように設計されているため、間接的にハルシネーション対策に貢献すると考えるのは妥当です。 Grounding は、RAGのプロセスを拡張し、生成された応答を強化および正当化するために、関連する外部ソースから関連情報を検索して取得します。 これらの技術により、生成AIシステムは、より広範なデータソースから関連する事実とコンテキストにアクセスできるようになり、その結果、推論が強化され、ハルシネーションのリスクが軽減されます。 |
長くなってきましたので、本日はここまでとします。
Coral(Command R+)は、当初の設計目標がハルシネーション対策ではなかったということにこだわっていますが、Cohereプラットフォームが提供するRerank 3モデルとGrounding機能は、ハルシ―ネーション軽減に関して、現在出回っている生成AIの中でトップクラスではないかと思います。
おわり
- 投稿タグ
- cohere, Command R+, Grounding, Rerank 3, ハルシネーション