Tyler’s at Loose
© Copyright Marathon and licensed for reuse under this Creative Commons Licence.

 

 

 

「積ん読」状態だったO’Reillyの『生成Deep Learning』第2版にやっと目を通すことができました。

スポーツの日の連休なのに、家に籠っての読書というのはどうかとも思ったのですが、本業が忙しくてここ数カ月サボっていた生成AIの新機能の情報のキャッチアップで情報の洪水に溺れる前に、基本に戻って、腰を落ち着けてChatGPTのベースとなった生成AIであるトランスフォーマーが出現するまでのAIの変遷を辿ることにしたのです。トランスフォーマーの仕組みを含め、第2版の説明を読んで、AIの変遷に関して腹落ちした気がします。

  • これまで、機械学習やディープラーニングを従来の統計手法やデータ分析とは別物として捉えていましたが、「機械学習は統計学やパターン認識の延長線上にあり、データから有用な情報を抽出するという目的は共通している」ということで、実はそれらは連続した発展の中に位置づけられることが確認できました。
  • 機械学習の黎明期には、線形回帰や決定木などの手法を用いてデータからパターンを見つけ出すことが主流で、主に「識別モデル」として入力データから特定のラベルやクラスを予測することに焦点が当てられていたが、計算能力の飛躍的な向上とビッグデータの出現により、ディープラーニングが登場。多層のニューラルネットワークを活用したディープラーニングは、画像認識や音声認識などで革命的な成果を上げ、AIの可能性を大きく広げた。
  • しかし、当時主流だったリカレントニューラルネットワーク(RNN)や長短期記憶(LSTM)といったモデルは、長いシーケンスの処理に限界があり、計算コストも高いという課題があった。
  • そこで登場したのが、自己注意機構(アテンション)を活用したトランスフォーマー。このモデルでは、並列処理が可能になり、長い文章や複雑な文脈も効率的に処理できるため、大規模なデータセットでも高速に学習でき、その革新性により、自然言語処理の性能が飛躍的に向上し、大規模言語モデル(LLM)として今に至っている。
  • 一方、トランスフォーマーとは別に、敵対的生成ネットワーク(GAN)や変分オートエンコーダー(VAE)などの生成モデルも大きく進化し、リアルな顔画像の生成、写真を絵画風に変換するスタイルトランスファー、データ拡張によるモデル性能の向上など、さまざまな応用が実現。これらのモデルは、特定のモーダルに特化し、トランスフォーマーとは異なるアプローチで発展してきた。
  • ただ、トランスフォーマーモデルはもともと自然言語処理(NLP)のために開発され、テキストデータを主な対象としていたが、現在では音声データや動画データにも応用が広がってきている。トランスフォーマーは自己注意機構を活用して異なるデータモーダルを統合的に処理できるため、マルチモーダルなタスクにおいても非常に有効なことが確認され、音声認識や音声生成、さらには動画の解析や生成といった分野でも、トランスフォーマーの効率的な処理能力が活かされている。

 

テレビ番組を観るにあたって、撮影データが電波に乗って各家庭のテレビまで届いて、画面に映し出されるまでの原理を理解していなくてもテレビ番組の内容を楽しめるように、生成AIについても、動作原理などにかまわず、最新の生成AIの便利な機能を駆使できればそれで充分という考え方もあると思います。

ですが、どんなふうに生成AIが成長してきて、どのようなことが起きて今日に至っているかか少し気になる方には、第二版を読んでみることをお勧めします。

 

さて、しばらくウォッチできていなかった、この7月以降、ChatGPTがどれだけ進化しているか、Feloに説明してもらいましょう。

※Feloは、つい最近知った、Perplexity、Gensparkに並ぶ日本発の新しいAI情報検索エンジンで、以下の特徴があります(Perplexityの情報です)

主な特徴

  • 世界中の情報を母国語で簡単に入手可能
  • リリースから1カ月で15万人以上のユーザーを獲得する急成長
  • 従来の検索エンジンの課題を解決する新しいアプローチ

 

主要機能

  • マインドマップ自動生成機能
  • 資料作成機能(パワーポイントやPDF形式)
  • 複数のAIモデル選択機能(OpenAI o1 previewやClaude 3.5 sonnetなど)
  • フォーカス機能(特定のプラットフォームやソースに絞った検索)

 

従来の検索エンジンとの違い

  • 単なるリンク集ではなく、情報の要点をまとめた結果を提供
  • 言語の障壁を解消し、英語の資料も母国語で理解可能
  • 専門的な情報も網羅的に検索可能

 

ビジネスでの活用

  • 会議の議題のまとめや、マーケティングトレンドの迅速な把握
  • プレゼンテーション資料の効率的な作成
  • アイデア出しやプロジェクト管理への活用

 

Feloは、特に日本語対応が充実しており、日本のユーザーにとって使いやすいツールとなっています。無料プランでも多くの機能が利用可能で、中小企業にとっても導入しやすいAIツールとして注目されています。

 

以下は、Feloによる、2024年7月以降OpenAIが公開した生成AIに関する新機能情報です。

2024年7月

GPT-4o miniの発表(7月18日)

OpenAIは、GPT-3.5の代替モデルとしてGPT-4o miniをリリースしました。このモデルは、低コストでありながら高精度な性能を提供し、特に業務効率化に寄与することが期待されています。

SearchGPTの発表(7月25日)

OpenAIは、ユーザーが質問を入力すると、AIが関連するウェブ情報を検索し、回答を生成し、回答には出典リンクが含まれ、情報の信頼性を高める工夫がされているSearchGPTを発表。7月30日からプロトタイプが少数のユーザーに公開される。

 

2024年8月

GPT-4oの発表(8月27日)

OpenAIは、GPT-4oを発表しました。このモデルは、テキスト、音声、画像、映像をシームレスに扱う能力を持ち、リアルタイムでの音声会話が可能です。特に、視覚と音声の理解力が向上し、多言語対応や複雑な対話を理解する能力が強化されています。

 

2024年9月

o1-previewとo1-miniの発表(9月12日)

OpenAIは新しい「o1」モデルファミリーを発表しました。o1-previewは複雑なタスクを解決する能力が強化されており、特にプログラミングや数学、科学的推論において優れた性能を発揮します。o1-miniは、より小型でコスト効率の良いモデルとして設計されています。

 

2024年10月

GPT-4o with canvasの発表(10月3日)

OpenAIは、ChatGPTに新しいインターフェース「canvas」を追加しました。この機能は、ユーザーが生成したコードやテキストをサイドパネルで確認しながら、リアルタイムで共同作業を行うことを可能にします。これにより、よりクリエイティブな作業が促進されることが期待されています。

 

これらの新機能は、OpenAIの生成AI技術の進化を示しており、特に複雑なタスクに対する対応力やユーザーエクスペリエンスの向上に寄与しています。

 

SearchGPTに関しては、プロトタイプ試用のためのOpenAIのウェイトリストに登録していたのですが、いまだに使えていません。というか、8月17日にOpenAIから「Update on the SearchGPT waitlist」というタイトルのメールが届き、「申し込み多数のためプロトタイプ使用者枠がいっぱいになった」と、事実上の「落選通知」が届いていました。

トレーニングデータにないような最新情報検索でのChatGPTの情報は、情報源が不確かで今一つ信頼がおけなかったのですが、SearchGPTには今でも期待しています。

「SearchGPTはPerplexity、Genspark、Feloよりもも良いAI検索エンジンだった!」というような記事が早く出ないかと楽しみにしていたのですが、「SearchGPTの活用事例まとめ!新時代の生成AI検索術を徹底解説」など、紹介記事は出ているものの、いまだに本家からその後の発表はないようです。

 

新機能を評価するという観点ではありませんが、とりあえずGPT-4oとGPT o1-previewは使ってみたものの、飛躍的に改善したというほどの印象は受けませんでした。

※孫さんは、『o1-previewはGPTではない、次の段階のAIモデルだ』とSoftbank World 2024で言っていたそうですが、ChatGPTのモデル選択オプションを見ると「ChatGPT o1-preview」となっているので、やはりトランスフォーマーモデルではないのでしょうか?

あと、Gemini Advancedを使い始めました。以下、Gemini Advancedとの対話内容のご紹介で本日のブログを終わります。

私#1

Gemini 1.5ProはLLMのカテゴリに入ると思いますが、モデルとしてはトランスフォーマーモデルではないと聞いています。

Gemini Advanced#1

それは興味深い情報ですね!Gemini 1.5 Proは、Googleが開発した大規模言語モデル(LLM)であり、Transformerモデルをベースに構築されています。ただし、Transformerモデルをそのまま使っているのではなく、**Mixture-of-Experts (MoE)**と呼ばれるアーキテクチャを採用することで、さらに進化したモデルとなっています。

MoEは、複数のエキスパートモデルを組み合わせることで、より複雑なタスクに対応できるようにする技術です。Gemini 1.5 Proでは、このMoEを採用することで、従来のTransformerモデルよりも高い精度と効率性を実現しています。

つまり、Gemini 1.5 ProはTransformerモデルをベースに、MoEなどの新しい技術を導入することで進化したLLMと言えるでしょう。

より詳しく知りたい場合は、以下の資料も参考になるかと思います。

Google AI Blog: [無効な URL を削除しました]

Gemini 1.5 Proの発表記事: https://japan.googleblog.com/2024/02/gemini-15.html

何か他に質問があれば、お気軽にどうぞ。

 

私#2

それほど詳しくなくてもよいのですが、MoEアーキテクチャと、トランスフォーマーモデル以外に何を使っているのかを教えてください

Gemini Advanced#2

MoEアーキテクチャについて、簡単に説明しますね!

専門家集団で問題解決!

MoEは、複数の「エキスパート」と呼ばれる小さなモデルをたくさん用意し、それらを組み合わせて大きなタスクを処理するアーキテクチャです。

  • 例: 翻訳なら、英語→日本語のエキスパート、中国語→日本語のエキスパートなど、色々な専門家を用意しておきます。
  • 実際に翻訳する時は、入力された文章を見て、どのエキスパートが得意そうか判断し、そのエキスパートに処理を任せます。

このように、MoEはタスクを小さな部分に分割し、それぞれの専門家に処理させることで、効率的に高精度な結果を得ることができます。

Gemini 1.5 Pro は、MoE以外にも様々な技術を駆使しています!

例えば、以下のようなものがあります。

  • 強化学習: AIに「良い結果」と「悪い結果」を教え、試行錯誤を通して学習させる方法。より自然で人間らしい文章生成に役立ちます。
  • 大規模データセット: 膨大なテキストデータやコードなどを学習に利用することで、多様なタスクに対応できる能力を獲得しています。
  • Google検索との連携: 最新の情報にアクセスし、より正確で信頼性の高い回答を生成できます。

これらの技術を組み合わせることで、Gemini 1.5 Proは、従来の言語モデルを超える高い性能を実現しています。

もし、特定の技術についてもっと詳しく知りたい場合は、お気軽にご質問ください!

 

私#3

テキスト処理に関してはわかりましたが、マルチモーダルな入力に対して、テキスト部分はこれ、画像部分はこれ、動画の場合はこれといった形のエキスパートは用意していないのですか

Gemini Advanced#3

素晴らしい質問ですね!まさに、Gemini 1.5 Pro はマルチモーダルAIなので、テキスト、画像、動画など、様々な種類のデータを処理できます。そして、その処理には、それぞれのデータタイプに特化したエキスパートが関わっています。

例えば、

  • テキストのエキスパート: 文章の理解、翻訳、要約などを行います。
  • 画像のエキスパート: 画像認識、物体検出、画像生成などを行います。
  • 動画のエキスパート: 動画の内容理解、シーンの分類、アクションの認識などを行います。

これらのエキスパートは、それぞれ独立して動作するだけでなく、互いに連携して情報を統合し、より高度な処理を実現します。

例えば、動画を分析する際には、

1.      動画のエキスパートが、動画をシーンに分割し、各シーンの特徴を抽出します。

2.      画像のエキスパートが、各シーンに映っている物体を認識します。

3.      テキストのエキスパートが、動画の音声からテキストを生成し、その内容を理解します。

そして、これらの情報が統合され、動画の内容を総合的に理解した結果が出力されます。

このように、Gemini 1.5 Pro は、様々な種類のエキスパートを組み合わせることで、マルチモーダルな入力を効率的に処理し、人間のように情報を理解することができるのです。

さらに、Gemini 1.5 Pro は、これらのエキスパートを動的に選択・組み合わせることで、様々なタスクに柔軟に対応できます。まさに、人間の脳のように、状況に応じて適切な処理を行うことができるのです。

もし、具体的な処理の流れやエキスパートの役割についてもっと詳しく知りたい場合は、お気軽にご質問ください!

 

私#4

画像や動画のエキスパートとしてトランスフォーマー以外のモデルを採用しているということはないのでしょうか

Gemini Advanced#4

鋭い指摘ですね!実は、画像や動画のエキスパートとして、Transformer以外のモデルもGemini 1.5 Proでは活用されています。

Transformerは自然言語処理で大きな成功を収めましたが、画像や動画認識においても優れた性能を発揮するモデルとして、近年注目を集めています。しかし、画像や動画データはテキストデータとは性質が異なるため、Transformerをそのまま適用するのではなく、様々な工夫が凝らされています。

例えば、画像認識では、

  • CNN (畳み込みニューラルネットワーク): 画像の特徴を抽出するのに優れた能力を持つCNNとTransformerを組み合わせることで、より高精度な画像認識を実現しています。
  • ViT (Vision Transformer): 画像をパッチに分割し、各パッチをTransformerの入力として処理することで、画像全体の関係性を捉えることができます。

 

動画認識では、

  • 3D CNN: 時間方向の情報を捉えることができる3D CNNとTransformerを組み合わせることで、動画内の動きや変化をより効果的に認識できます。
  • 時系列モデル: LSTM (Long Short-Term Memory) やGRU (Gated Recurrent Unit) などの時系列モデルとTransformerを組み合わせることで、動画の時間的な変化を捉え、より正確な認識を行います。

このように、Gemini 1.5 Proでは、Transformerを中核に据えつつ、画像や動画認識に特化した様々なモデルを組み合わせることで、マルチモーダルな入力を効果的に処理しています。

具体的にどのモデルがどのように使われているか、公開情報からは詳細までは分かりません。しかし、Googleは常に最新の技術を研究開発しており、Gemini 1.5 Proには最先端の技術が投入されていると考えられます。

もし、特定のモデルや技術についてもっと詳しく知りたい場合は、可能な範囲で情報を提供しますので、お気軽にご質問ください!

 

本日は以上です。

 

終わり