Transformers

TRANSFORMERS
読み: トランスフォーマー

読み: トランスフォーマー

トランスフォーマーズとはAI基盤技術

Transformersは、2017年にGoogleの研究チームが発表した「Attention Is All You Need」論文で提案されたニューラルネットワークアーキテクチャである。GPT、BERT、Claudeをはじめとする現代の大規模言語モデルは、すべてこのTransformerアーキテクチャの上に構築されている。また、Hugging Face社が提供する同名のPythonライブラリも広く普及しており、文脈によって指すものが異なる。

かんたんに言うと

今のAIが言葉を理解できるのは、Transformerという仕組みのおかげ。文章の中のどの単語とどの単語が関連しているかを一度に把握できる技術で、GPTもClaudeもこの仕組みの上で動いている。

文章を先頭から順に読む時代を終わらせたAttention機構

Transformer以前の言語モデルは、文章を先頭から順番に読んでいた。RNNLSTMと呼ばれるアーキテクチャがその代表で、長い文章になると先頭の情報を忘れてしまう弱点を抱えていた。
Transformerの核心はSelf-Attention機構にある。文中の全単語同士の関連度を一括で計算する。「彼女は銀行に行った。川沿いの道を通って」という文を処理するとき、「銀行」と「川」の距離を瞬時に測り、ここでの「銀行」が金融機関を指すのか川岸を指すのかを判断する材料にする。
順番に読む必要がなくなったことで、GPUによる並列処理が劇的に効くようになった。これが大規模化への道を開いた。

GPT系とBERT系に分かれた進化の経路

Transformerアーキテクチャはエンコーダとデコーダの2つのパートで構成されている。ここから2つの系譜が生まれた。
GoogleのBERTはエンコーダだけを使う。文章全体を双方向に読み、穴埋め問題を解くことで言語を理解する。検索エンジンの検索意図の解釈や、文書分類に強い。
OpenAIのGPTシリーズはデコーダだけを使う。左から右へ次の単語を予測し続ける。文章生成に特化しており、ChatGPTの基盤技術はここにある。AnthropicのClaudeも同じデコーダ系統に属する。
どちらが優れているという話ではない。タスクの性質によって向き不向きがある。

Hugging Faceライブラリとしてのもうひとつの顔

「Transformers」という言葉は、アーキテクチャだけでなくHugging Face社が提供するPythonライブラリも指す。現場のエンジニアが「Transformers使ってる?」と聞くとき、たいていこちらの意味である。
このライブラリには数十万の事前学習済みモデルが登録されており、数行のコードでダウンロードして推論に使える。テキスト生成翻訳要約、画像分類まで対応範囲は広い。
研究者が論文と一緒にモデルを公開する場所としても定着しており、ディープラーニングのエコシステムにおける事実上のハブになっている。

ビジネス実務で押さえておくべきポイント

自社でAIを導入するとき、「Transformerベースのモデルを使っています」と言われたら、それは現時点で最も標準的なアーキテクチャを採用しているという意味になる。特別なことではない。
注意すべきは、Transformerモデルは入力できるテキスト量に上限があること。これをコンテキストウィンドウと呼ぶ。GPT-4oで128Kトークン、Claudeで200Kトークン。長い社内文書を丸ごと読ませたいなら、この上限がボトルネックになる場面がある。
RAGという手法で外部データベースと組み合わせるのは、この制約を回避する実用的なアプローチのひとつである。

Transformerの先にあるもの

2017年の登場から8年が経ち、Transformerアーキテクチャの限界も見えてきている。計算コストが入力長の二乗に比例して増大する点、長文処理で精度が落ちる点が研究コミュニティでは課題として認識されている。
MambaやRWKVといったState Space Modelと呼ばれる新しいアーキテクチャが注目を集めており、「Transformerの次」を巡る競争は始まっている。
ただし現時点で実用レベルのLLMはほぼ全てTransformerベースであり、この状況が来年も続くかは分からないが、今すぐ代替される気配はない。

当社の見解

当社はツール選定において実用性を第一方針にしている。カタログスペックやベンチマークスコアではなく、実務で1週間使い倒して初めて判断する。フレームワークを増やすほど管理コストが増える経験もした。フックを増やしすぎてAIが情報過多でパニックになったこともある。足し算だけでなく、引き算の判断が選定の質を決める。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する