コーパス

CORPUS

読み: コーパス

公開日 2026.03.26 最終更新 2026.04.01

読み: コーパス

コーパスとはAI学習データの基盤

コーパスは、自然言語処理の研究や大規模言語モデルの学習に使用される、体系的に収集・整理された大規模テキストデータの集合体を指す。書籍、ウェブページ、論文、会話ログなど、さまざまなソースから構成される。

かんたんに言うと

AIにとっての教科書の山である。人間が言語を学ぶときに大量の文章を読むように、AIも膨大なテキストを読み込むことで言葉の使い方を覚える。その読み込み対象となるデータの集まりがコーパスにあたる。

研究素材からAIの戦略的資源に変わったコーパスの歴史と現在

コーパスという概念自体は新しいものではない。1960年代にBrown Corpusが構築されたのが先駆けとされており、当時は100万語程度の英語テキストを品詞タグ付きで整理したものだった。言語学者が英語の文法パターンを分析するための研究素材である。
それから半世紀以上が経ち、コーパスの規模は桁違いに膨れ上がった。GPT-3の学習に使われたとされるデータ量は数千億トークンに達し、GPT-4ではさらに増えているとみられるが、OpenAIは学習データの詳細を公式に開示していない。もはや研究素材というよりも、AIの性能を左右する戦略的資源になった。
この規模の変化は、コーパスの意味合いそのものを変えた。丁寧にタグ付けされた小規模データから、ウェブ上のテキストを大量にクロールした雑多なデータへ。質より量の時代に突入したかに見えたが、話はそう単純ではない。

代表的なコーパスとその特徴

LLMの学習に使われる代表的な公開コーパスをいくつか挙げる。
Common Crawlは、ウェブページを定期的にクロールして収集した大規模データセットで、数十ペタバイト規模のテキストを含む。The Pileは、EleutherAIが学術論文、書籍、GitHub、Wikipediaなど22のソースから構成した800GBのデータセットである。日本語では、国立国語研究所の「現代日本語書き言葉均衡コーパス」（BCCWJ）が約1億語規模の整備されたデータとして知られている。
商用LLMの学習データは非公開であることが多い。OpenAIもGoogleも、具体的にどのデータを使ったかの全容は明かしていない。コーパスの中身がブラックボックスであること自体が、後述するバイアスや著作権の問題を複雑にしている。

データの質がモデルの質を決める

「Garbage in, garbage out」という格言は、コーパスにそのまま当てはまる。
Metaの研究チームが2024年に発表したLlama 3の論文で興味深いデータが示された。学習データの品質フィルタリングを強化することで、データ量を減らしてもモデル性能が向上したという結果である。大量のウェブテキストをそのまま食わせるよりも、ノイズを取り除いた高品質なテキストで学習させるほうが効果的だった。
品質管理の手法も進化している。重複テキストの除去、低品質コンテンツのフィルタリング、有害コンテンツの排除といった前処理が、モデルの性能を実質的に左右する。地味な作業だが、ここに手を抜くとモデルが差別的な表現を生成したり、事実と異なる情報を自信満々に語ったりする。

バイアスと著作権という避けられない論点

コーパスに含まれるバイアスは、モデルの出力にそのまま反映される。インターネット上のテキストは英語が圧倒的に多く、文化的にも英語圏の価値観に偏っている。日本語のデータ量は英語の10分の1以下とされており、日本語LLMの性能が英語モデルに追いつかない一因にもなっている。
著作権の問題はさらに厄介である。New York Timesがopenaiを訴えた裁判は象徴的な事例だが、コーパスに含まれる著作物を学習に使うことが著作権侵害にあたるかどうかは、法的にまだ決着がついていない。各国の法制度によっても判断が分かれる。
日本では2018年の著作権法改正で情報解析目的の著作物利用が広く認められているが、これも条件次第である。学習済みモデルが原文をほぼそのまま出力するケースでは、話が変わってくる。

自社コーパスの構築という選択肢

公開コーパスに頼るだけでなく、自社の業務データからコーパスを構築する動きも出てきている。社内の議事録、マニュアル、メール、チャットログなどを整備し、RAGの検索対象やファインチューニングのデータとして活用するアプローチである。
ただ、社内データをコーパスとして使うには前処理の手間がかかる。個人情報のマスキング、古い情報の除外、フォーマットの統一といった作業を怠ると、AIが退職者の連絡先を回答したり、3年前に廃止された社内規定を正としたりする。
コーパスの構築は、AIプロジェクトの中で最も地味で最も重要な工程のひとつである。ここに投資するかどうかで、半年後のAI活用の質が決まる。

当社の見解

当社はAI長期記憶システムを自社開発・運用している。開発のきっかけは、AIと経営戦略の壁打ちで出した結論がセッション切れで消えたことで絶望を感じた。1日かけて議論してきたことを振り返り、では事業計画書に落とし込むように指示を出したところ、「そのような記録はありません」と言われたことで、強烈な危機感を覚えこれは何としても解決しなければならない問題だと感じた。記憶がないAIは毎朝記憶喪失になる新入社員と同じだ。記憶があるAIは、前提条件を理解した上で本題に入れる。短いプロンプトで済むようになり、「前に言ったように実行して」と曖昧で短いプロンプトでも業務を遂行してくれる。同じことを繰り返し伝える回数も減り、開発業務でも同じミスを繰り返しにくくなり、人間の手戻りが減り、ストレスも減る。AIで本当に業務の質を上げるならば、記憶はマストである。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する