SARSAとは

SARSA

読み: サルサ

公開日 2026.03.31 最終更新 2026.04.03

SARSAとは、強化学習アルゴリズムの一つである

読み: サルサ

行動方策オン型であり、エージェントが実際に経験した行動に基づいて学習を進める。これにより、行動方策の改善と価値関数の推定を同時に行う。

かんたんに言うと

SARSAは、実際に取った行動から学習する、強化学習のやり方の一つである。

SARSAの仕組み

SARSAは、状態(State)、行動(Action)、報酬(Reward)、次の状態(State)、次の行動(Action)の5つの要素を基に学習を行う。この頭文字を取ってSARSAと名付けられている。エージェントは現在の状態において、ある行動を選択し、環境から報酬を得て、次の状態へと遷移する。そして、次の状態において取るべき行動を決定し、その経験を基に価値関数を更新する。このプロセスを繰り返すことで、最適な行動方策を学習していく。

Q学習との違い

SARSAとQ学習はどちらも強化学習アルゴリズムだが、学習方法に違いがある。SARSAは行動方策オン型であり、実際にエージェントが経験した行動に基づいて価値関数を更新する。一方、Q学習は行動方策オフ型であり、最適な行動を取ったと仮定して価値関数を更新する。そのため、SARSAはより慎重な学習を行う傾向があり、Q学習はより大胆な学習を行う傾向がある。

SARSAの応用例

SARSAは、ロボット制御やゲームAIなど、様々な分野に応用されている。例えば、ロボットが迷路を探索するタスクにおいて、SARSAを用いることで、安全かつ効率的にゴールにたどり着くための行動方策を学習できる。また、ゲームAIにおいては、敵キャラクターの行動パターンを学習し、より賢い敵キャラクターを作成するために利用される。

売上の頭打ちを打破して、毎年20%成長を目指す経営者へ

1人の社員が4つのAIエージェントを使いこなせば、
1日8時間 × 4エージェント × 20営業日 = 月間640時間相当の実行余力を生み出せます。

その時間を、営業改善・商品改善・顧客対応・業務効率化に再投資できれば、
毎年20%成長を目指せる組織基盤は現実的に作れます。

初回30分の無料相談で、貴社の業務のどこにAIを入れるべきか、
640時間相当の実行余力を生み出すための導入ステップをご提案します。

無料で相談する

SARSAとは

かんたんに言うと

SARSAの仕組み

Q学習との違い

SARSAの応用例

関連用語