Gemini
読み: ジェミニ
GeminiとはGoogle製AIの実力
GeminiはGoogleが開発したマルチモーダル大規模言語モデルである。テキスト、画像、音声、動画、コードを統合的に処理できる点が特徴で、Google検索やGmail、Google Workspaceとの深い連携を武器にビジネス用途での存在感を高めている。OpenAIのGPTシリーズ、AnthropicのClaudeと並ぶ主要LLMの一角を占める。
かんたんに言うと
テキスト、画像、音声、動画を同時に理解できる、五感を持ったAI。Google検索とYouTubeのデータを飲み込んで育っており、Gmailやドライブとの連携が最初から組み込まれている。
Bardの失敗から生まれたGeminiブランドの成立経緯
Googleは2023年3月にチャットAI「Bard」を公開したが、GPT-4の後塵を拝し、評判は芳しくなかった。同年12月、Googleは新モデル「Gemini」を発表し、2024年2月にBardをGeminiに改称した。
名前を変えただけではない。Geminiはテキスト処理に特化していたBardとは異なり、画像や音声の入力を前提に設計されている。Googleが長年蓄積してきたDeepMindの研究成果を結集したモデルで、AlphaGoやAlphaFoldを生んだチームが開発に携わっている。
2024年12月にはGemini 2.0が発表され、AIエージェント機能を強化した。ブラウザ操作やコード実行をAI自身が判断して行う「Project Astra」の基盤技術として位置付けられている。
Ultra、Pro、Flashの3モデル構成
Geminiは用途に応じた3つのサイズで提供されている。
Gemini Ultraは最大モデルで、複雑な推論やマルチモーダルタスクに強い。学術ベンチマークMMLUで人間の専門家を上回るスコアを記録したと発表されたが、実務での体感性能は用途によってまちまちである。
Gemini Proは汎用モデルで、API経由での利用が中心となる。Google AI StudioやVertex AIから呼び出せる。コストと性能のバランスが取れており、企業の業務アプリケーションに組み込む用途で採用が進んでいる。
Gemini Flashは軽量・高速モデルで、レイテンシが低い。大量のリクエストをさばく必要があるチャットボットや、モバイルアプリのバックエンドに適している。API料金もProの数分の一に設定されている。
GPT-4やClaudeとの違い
OpenAIのGPTシリーズは先行者として圧倒的なシェアを持ち、エコシステムが充実している。プラグインやGPTs、Assistants APIなど開発者向けの機能が豊富で、サードパーティのツール連携が最も進んでいる。
AnthropicのClaudeは、長文の処理能力と安全性への配慮に定評がある。20万トークンを超えるコンテキストウィンドウで、契約書や論文の全文を一度に読み込める。
Geminiの強みは、Googleの既存サービスとの統合にある。Gmail内のメールを検索して要約する、Googleドライブの資料を横断的に参照する、Google Mapsの情報を回答に組み込むといった連携が、追加開発なしで利用できる。Google Workspaceを導入済みの企業にとっては、この統合力が最大の差別化要因になる。
ベンチマークの数値で優劣をつけるのは難しい。タスクの種類、入力データの形式、コスト、既存システムとの相性を総合的に判断する必要がある。
Google Cloudとの連携とVertex AI
企業がGeminiを業務に組み込む際のメインルートは、Google Cloud上のVertex AI経由である。Vertex AIはGoogleのクラウドMLプラットフォームで、モデルの呼び出し、ファインチューニング、デプロイ、モニタリングを一元管理できる。
Gemini APIを直接叩くことも可能だが、企業利用ではデータの所在地制限、アクセス制御、監査ログの取得が求められる。Vertex AI経由ならこれらをGoogle Cloudのセキュリティ基盤で賄える。
Ground withGoogle Searchという機能も注目に値する。Geminiの回答にGoogle検索の最新結果を根拠として付与する仕組みで、RAGをGoogle側が代行してくれるようなものである。自社で検索基盤を構築しなくても、最新情報を踏まえた回答が得られる。
とはいえ、Google Cloudにロックインされるリスクは考慮すべきである。マルチクラウド戦略を取っている企業にとっては、特定ベンダーへの依存度が上がる点が懸念材料になる。
当社の見解
当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
