2023年に発展したLLMを振り返る

1. Llama2：Llama2は、 Meta AIによって開発され、70億から650億のパラメータを持つLLMファミリーに属する。

2. Mistral 7B：Mistral 7Bは、パリを拠点とする新興企業Mistral AIの製品である。Mistral 7Bは、73億のパラメータを持つ先駆的なLLMである。驚くべきことに、Llama2 13Bのようなモデルと比べてサイズが小さいにもかかわらず、様々なタスクでそれらを凌駕している。

3. Mixtral 8x7B ：Mixtral 8x7Bは、AI の能力を大きく進歩させた最先端のLLMである。このモデルは、タスクの異なる側面を処理するために複数の専門化されたサブモデルを利用し、独自のMoE（Mixture of Experts）アーキテクチャによって際立っている。このアプローチの信憑性は確かではないが、2023年の中頃にリークされたGPT-4とアプローチと同様である。

4. PaLM 2：PaLM 2は、Googleが開発したLLMである。前身となるPaLMから改良されたモデルである。PaLMは、高速な応答時間と複雑な推論問題を処理する効率性で知られる大規模な言語モデルだ。PaLM 2は、コーディングタスクや問題解決においても素晴らしい能力を発揮する。

5. LLaVA： LLaVAは、マイクロソフトと米国の2つの大学によって開発されたマルチモーダルモデルである。視覚エンコーダーとLLaMA大規模言語モデルを組み合わせ、画像と音声の処理を可能にしている。このモデルは、これまでに見たことのない画像をテキスト形式で記述し、画像に基づく質問に答えることができる。LLaVAの開発は、視覚とテキストのデータ処理を融合させたマルチモーダル・コミュニケーションの大きな進歩を意味した。

6. Gemini：Google DeepMindによって開発されたGeminiは、テキスト、画像、その他の形式のデータを処理・生成するマルチモーダル生成AIモデルである。この能力により、よりニュアンスに富んだ全体的な理解と相互作用が可能になる。

LLM以外

LLM以外で注目すべき技術はRWKV（Receptance Weighted Key Value）である。これは新しいAIモデルのアーキテクチャで、RNNの効率的な推論とTransformerの並列計算能力を組み合わせている。現在のLLMは、2017年に導入された自己注意機構を特徴とするTransformerアーキテクチャを利用している。これはデータの重要な部分に焦点を当て、長い距離の依存関係を捉える。しかし、RWKVはTransformerと異なり、線形の注意機構を採用し、長い系列でもメモリ効率が良い。RWKVはTransformerの強みとRNNの利点を融合している。

「2023年の生成AIはどのように投資を促したのか」も読む

井上顧基（いのうえ・こうき）

東京大学・松尾研発スタートアップ株式会社Elithのファウンダー兼CTO。。北陸先端科学技術大学院大学で量子コンピュータの材料探索を研究し、修士号を取得。その後、東北大学医学系研究科で医学物理と医療AIに関する博士後期課程に進学。現在は、医学物理分野における大規模言語モデル（LLM）を用いた研究を進めている。
キャリアは多岐に渡り、新卒で日系大手メーカーのシミュレーション研究職を経験後、スタートアップでバックエンドエンジニア、日系大手医療機器メーカーで内視鏡画像分析などの技術開発に従事。前職では、機械学習スペシャリストとして姿勢推定、動画追跡、分類、点群データ処理など、画像ドメインでの多様なプロジェクトをリードした。
著書に「実務レベルでわかる/使いこなせるようになるGit入門コマンドライン演習80」（秀和システム・2022年）がある。