Gemmaとは

GEMMA

読み: ジェマ

公開日 2026.03.26 最終更新 2026.04.03

Gemmaとは、Googleが開発したオープンモデルのLLMである

読み: ジェマ

最上位モデルであるGeminiの技術基盤を継承しつつ、企業が自社のオンプレミス環境やローカルPCで動かせるよう軽量化されている。商用利用も可能であり、外部にデータを出せない機密性の高い業務での活用が想定されている。

かんたんに言うと

プロの厨房にある業務用オーブンの家庭用モデルに近い。業務用ほどの火力はないが、自宅のキッチンに収まるサイズで、好みに合わせて温度も時間も自由に調整できる。Googleが培った技術を、手元で使える形にしたのがGemmaである。

外部にデータを出せない業務で活きるGemmaの立ち位置

Gemmaは単なるGeminiの縮小版ではない。Googleが自社の最先端モデルと同じアーキテクチャを用いて、外部の開発者が自由に扱えるように切り出したオープンモデル。
パラメータ数はGemma 2Bや7Bといったサイズが用意されている。
2Bなら最近のノートPCでも動く。
クラウドAPI経由でしか触れないGeminiと違い、自社のサーバーに直接デプロイできるのが最大の利点である。法務部門が扱う未公開のM&A;契約書や、人事部門が抱える従業員のメンタルヘルス記録など、絶対に外部APIへ投げられないデータがあるだろう。そうした閉鎖環境でのテキスト処理を自前で構築する際、Gemmaは有力な選択肢になる。ただ、軽量ゆえに複雑な推論を求めると途端に破綻する。どこまで任せるかは判断が分かれるところである。

Transformerの恩恵とローカル動作の現実

Gemmaの根底にあるのはTransformerアーキテクチャである。Google自身が提唱したこの技術を極限まで最適化し、少ないパラメータ数でも高い言語理解力を発揮するよう設計されている。
だが、現場の感覚から言わせてもらうと、7Bモデルを実業務で安定稼働させるのはそれなりに骨が折れる。
VRAMが24GB程度のGPUを積んだローカルサーバーを用意すれば動くには動く。しかし、複数ユーザーからの同時リクエストを捌くとなると話は別である。レスポンスタイムが急激に悪化する。経理部門の経費精算チェックシステムに組み込んだ際、月末のピーク時に処理が詰まって使い物にならなかったことがある。軽量モデルとはいえ、本番環境のインフラ設計を甘く見ると痛い目を見る。

Vertex AIやHugging Faceでの展開と実務への組み込み

Gemmaを試す環境は豊富に用意されている。Kaggleでノートブックを開けばすぐに触れるし、Hugging Faceからモデルの重みをダウンロードしてローカルで動かすのも容易である。
Google CloudのVertex AIを使えば、フルマネージドな環境でAPIとして呼び出すこともできる。
製造業の生産技術部門で、過去の不良品レポートから特定の不具合パターンを抽出するシステムを作った。この時、Hugging FaceのTransformersライブラリを使ってGemmaを自社データでファインチューニングした。特定の専門用語に対する理解度は劇的に向上したが、学習データのクレンジングに膨大な時間を溶かした。オープンモデルのカスタマイズは自由度が高い反面、泥臭いデータ整備の労力を自社で被ることになる。これを許容できるかは悩ましい。

自社運用におけるコストと精度のトレードオフ

オンプレミスでGemmaを運用すれば、APIの従量課金からは解放される。ランニングコストは電気代とハードウェアの減価償却費だけである。
しかし、精度面での限界は常に付きまとう。
物流部門の配車計画アシスタントとしてGemma 7Bをテストした際、複雑な制約条件をプロンプトで与えると、平気で物理法則を無視したルートを提案してきた。軽量モデルに高度な論理推論を期待してはいけない。Gemmaが得意なのは、与えられたテキストの要約や、決まったフォーマットへの情報抽出といった単一のタスクである。用途を絞り込めば強力な武器になるが、汎用的なチャットボットとして全社展開しようとすると、ユーザーからの不満が殺到して運用担当者が疲弊するだけである。

商用利用の壁とResponsible Generative AI Toolkit

Gemmaは商用ライセンスが明記されており、企業が自社サービスに組み込んで販売することも可能である。
ただ、オープンモデルをそのまま顧客向けサービスに露出させるのはリスクが高すぎる。
GoogleはGemmaと同時にResponsible Generative AI Toolkitを公開している。これを使えば、不適切な出力のフィルタリングや安全性の評価がある程度システム化できる。営業部門が顧客に送るメールの文面生成ツールにGemmaを組み込んだ際、このツールキットを使って攻撃的な表現を弾くよう設定した。それでも、予期せぬ単語の組み合わせで不適切なニュアンスが生まれるケースを完全にゼロにはできなかった。AIの出力をどこまでコントロールできるか。最終的な責任はモデルの提供者ではなく、システムを組んだ我々が負うことになる。

当社の見解

当社はOpenAI APIを完全廃止し、EmbeddingもLLMも全てローカルで稼働させている（2026年4月時点）。これにより月額のAPI費用がゼロになっただけでなく、機密情報や顧客データを外部に送信せずにAI処理できるようになった。クライアントのログデータをマスキングなしでそのまま分析に回せるのは、ローカルLLMだからこそ実現できる。2026年4月にはOllama常駐実行（CPU 25%、GPU 30%を常時占有）を廃止し、FastEmbed（ONNX Runtime）による非常駐型推論に移行。処理が必要な瞬間だけプロセスを起動し、完了後に即座に終了する設計で、アイドル時のリソース消費をゼロにした。あえて一般的なデスクトップPC環境で複数のローカルLLMを実機検証した経験から言えることは、ベンチマークスコアと実務での使い勝手、そして常駐時のリソース消費は全て別の指標だということだ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する