Devin

DEVIN
読み: デビン

読み: デビン

Devinとは自律型AI開発の実力

DevinはCognition AI社が開発した自律型AIソフトウェアエンジニアであり、人間のプロンプトから計画立案、コーディング、テスト、デプロイまでを単独で実行するシステムである。

かんたんに言うと

優秀だが現場経験のない若手プログラマーに専用のPCと開発環境一式を与え、仕様書だけ渡して「あとはよろしく」と丸投げするようなものである。

コード生成AIの限界を超えた自律型ソフトウェアエンジニアDevin

GitHub Copilotは確かに便利である。だが、あれは結局のところ高機能なタイプライターにすぎない。人間がエディタに向かい、コンテキストを与え続けなければ機能しないのである。
Devinのアプローチは根底から異なる。
Cognition AI社はDevinに専用のサンドボックス環境を与えた。シェル、コードエディタ、ブラウザ。人間が開発に使う道具一式である。プロンプトを投げると、Devinは自ら計画を立て、コードを書き、テストを実行する。エラーが出ればブラウザを立ち上げてStack Overflowや公式ドキュメントを読みに行き、修正して再実行する。SWE-benchのスコアがどうこうというマーケティングの数字はどうでもいい。見逃せないのは、この試行錯誤のプロセスをシステム内部で完結させている事実である。

経理システム改修で見えた実務の壁

Upworkの単発案件をこなしたというデモ動画を見て、すぐに自社の開発に組み込めると考えるのは早計である。
実務のコードベースはもっと泥臭い。
例えば、経理部門が使う古い経費精算システムのAPI連携をDevinに任せたとしよう。クリーンな環境なら数分で終わる実装である。しかし、現場のサーバーにはドキュメント化されていない謎の環境変数が転がっている。Devinは仕様通りにコードを書くが、テストで原因不明のエラーに直面する。ブラウザで検索しても答えはない。結果として、的外れなライブラリを次々とインストールし始め、サンドボックス内をカオスにしてしまう。
現場の暗黙知をどうやってAIに注入するのか。

法務リスクとコードレビューのジレンマ

SWE-agentMagicなど、類似のアプローチをとるツールも次々と現れている。開発の初期フェーズや、完全に独立したモジュールの作成には間違いなく使える。
だが、法務部門の視点を通したとき、手放しで喜べるだろうか。
Devinがエラー解決のために、ライセンス条件の厳しいオープンソースコードを勝手にコピペしてきたらどうなるか。GPL汚染のリスクをAIは自己判断できない。結局、人間が一行ずつコードの出処と安全性をレビューする羽目になる。自分で書くより、他人が書いた意図の読めないコードをレビューする方がはるかに疲弊する。
開発スピードは本当に上がるのか。悩ましい。

当社の見解

当社ではClaude Code・Antigravity・Codexの3つのAIエージェントを日常業務で併用している。記憶を共有しているため、別のAIに同じ説明を繰り返す必要がない。ただし、記憶共有だけでは足りなかった。一方のAIが他方の成果物を勝手に修正して壊す事故が起きた。これを受けてファイル所有権制度を導入し、どのAIがどのファイルを所有するかを定義した。AIの自主性に頼らず、仕組みで上書きや巻き戻りを防いでいる。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する