報酬 (Reward)とは

REWARD

読み: ホウシュウ

公開日 2026.03.31 最終更新 2026.04.03

報酬 (Reward)とは、強化学習における報酬（Reward）とは、エージェントが環境から受け取るスカラー値のフィードバックのことである

読み: ホウシュウ

エージェントの行動が良い結果に繋がったか、悪い結果に繋がったかを判断するために用いられる。この報酬を最大化するようにエージェントは学習を進めていく。

かんたんに言うと

報酬とは、agentAIエージェントが良い行動をしたかどうかの評価値のことである。AIはこの評価値をもとに、より良い行動を学習する。

報酬の役割

報酬は、エージェントがどのような行動を取るべきかを導くための重要な指標である。エージェントは、受け取る報酬を最大化するように、試行錯誤を繰り返しながら学習する。報酬設計は、エージェントの学習成果に大きな影響を与えるため、慎重に行う必要がある。不適切な報酬設計は、エージェントが意図しない行動を取る原因となる。

報酬の設計

報酬設計では、エージェントにどのような行動を促したいかを明確にする必要がある。例えば、ロボットに物を運ばせたい場合、物を目的地に運んだ際に正の報酬を与え、物を落としたり、目的地から遠ざかったりした場合に負の報酬を与える。報酬の大きさも重要であり、適切な報酬の大きさを設定することで、効率的な学習が可能となる。

報酬の例

ゲームAIの場合、ゲームのスコアが報酬として用いられることが多い。ロボット制御の場合、目標地点への到達やエネルギー消費量が報酬として用いられる。推薦システムの場合、ユーザーのクリック率や購買履歴が報酬として用いられる。このように、報酬は様々な形で定義され、それぞれのタスクに合わせて適切な報酬を設定する必要がある。

売上の頭打ちを打破して、毎年20%成長を目指す経営者へ

1人の社員が4つのAIエージェントを使いこなせば、
1日8時間 × 4エージェント × 20営業日 = 月間640時間相当の実行余力を生み出せます。

その時間を、営業改善・商品改善・顧客対応・業務効率化に再投資できれば、
毎年20%成長を目指せる組織基盤は現実的に作れます。

初回30分の無料相談で、貴社の業務のどこにAIを入れるべきか、
640時間相当の実行余力を生み出すための導入ステップをご提案します。

無料で相談する

報酬 (Reward)とは

かんたんに言うと

報酬の役割

報酬の設計

報酬の例

関連用語