オープンソース

OPEN SOURCE
読み: オープンソース

読み: オープンソース

オープンソースとはAI活用の鍵

オープンソースとは、ソースコードを公開し、誰でも自由に利用、改変、再配布できるソフトウェアの開発手法である。AI分野ではMetaのLlama、GoogleのGemmaMistralのMixtralなど大規模言語モデルのオープンソース公開が相次ぎ、企業のAI導入戦略に直接影響を与えている。

かんたんに言うと

レシピを全公開している料理店のようなもので、誰でもそのレシピで料理を作れるし、自分好みにアレンジもできる。ただし「レシピが無料」と「料理が無料」は別の話である。

商用利用時に押さえるべきソースコード公開の仕組みとライセンス

オープンソースの定義はOpen Source Initiativeが策定したOSD(Open Source Definition)に基づく。ソースコードの公開、自由な再配布、派生物の許可、差別の禁止など10項目の要件を満たすライセンスがオープンソースと認められる。
代表的なライセンスにはMIT、Apache 2.0、GPLがある。MITとApache 2.0は「好きに使ってよいが著作権表示は残せ」という緩い条件で、企業が商用利用しやすい。GPLは派生物にも同じライセンスの適用を求めるため、自社製品に組み込む際には法務の確認が必要になる。
AI分野で厄介なのは、モデルの重みファイルをソースコードと見なすかどうかの議論がまだ定まっていないことにある。Metaが公開するLlamaは「オープンソース」と銘打っているが、利用規約には商用利用の制限条件がつく。厳密にはOSDを満たさないという指摘もある。

AI分野でオープンソースが広がった経緯

転機は2023年だった。MetaがLlama 2の重みを公開し、それまでOpenAIとGoogleが独占していた大規模モデルの構図が崩れた。
背景にはMetaの戦略がある。自社でクラウドサービスを持たないMetaにとって、モデルを囲い込む利点が薄い。むしろコミュニティに改良してもらい、そのフィードバックを自社のサービスに反映するほうが合理的だった。
Mistral AIはフランスのスタートアップながら、Mixtral 8x7Bで商用モデルに匹敵する性能を示した。Googleも対抗してGemmaを公開し、2024年以降はオープンソースモデルの性能がプロプライエタリモデルとの差を急速に縮めている。

企業がオープンソースモデルを選ぶ判断基準

コストだけでオープンソースを選ぶと痛い目を見る。
API経由で商用モデルを使う場合、初期コストはほぼゼロで従量課金が発生する。一方、オープンソースモデルを自社でホストする場合、GPUサーバーの調達、推論環境の構築、モデルのアップデート対応が全て自前になる。運用コストは決して安くない。
オープンソースが本領を発揮するのは、データを外部に出せない業種である。金融、医療、防衛など、データガバナンスの要件が厳しい領域では、モデルを自社環境に閉じて運用できる点が最大の利点になる。
もう1つの判断基準はカスタマイズ性にある。ファインチューニングで自社の業務用語や判断基準を学習させたい場合、モデルの重みに直接アクセスできるオープンソースが前提条件になる。

「オープン」の程度と注意点

オープンソースと一口に言っても、公開範囲には濃淡がある。
フルオープンは、モデルの重み、学習コード、学習データセット、評価手法の全てを公開するもので、EleutherAIのGPT-NeoXがこれに近い。部分オープンは重みだけ公開して学習データは非公開にするもので、LlamaやMistralがこの類型に入る。
企業の法務担当が確認すべきは、ライセンスの条文だけではない。利用規約に「月間アクティブユーザー7億人以上の場合は別途許諾が必要」といった条件が埋まっていることがある。大企業のサービスに組み込む前に、利用条件の全文を精読する必要がある。

オープンソース活用の実務的なポイント

自社でオープンソースモデルを運用する場合、最初にぶつかるのはGPUの確保である。推論だけなら中程度のGPUで済むが、ファインチューニングまで視野に入れると、A100やH100クラスのGPUが複数枚必要になる。クラウドのGPUインスタンスを時間借りするか、オンプレミスで調達するかは、利用頻度と予算で判断が分かれる。
Hugging Faceが事実上の配布プラットフォームになっており、モデルのダウンロードから推論実行までのツールチェーンが整備されている。vLLMTGIといった推論サーバーを使えば、API形式でモデルを提供する環境は比較的すぐに構築できる。
ただし、モデルのバージョン管理とセキュリティパッチの適用は自己責任になる。商用APIなら提供元が対応してくれる脆弱性の修正も、オープンソースでは自分でコミュニティの動向を追い続ける必要がある。

当社の見解

当社はツール選定において実用性を第一方針にしている。カタログスペックやベンチマークスコアではなく、実務で1週間使い倒して初めて判断する。フレームワークを増やすほど管理コストが増える経験もした。フックを増やしすぎてAIが情報過多でパニックになったこともある。足し算だけでなく、引き算の判断が選定の質を決める。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する