Sample Policy Optimization

Ai Tool

Sample Policy Optimization (SPO) is a newly proposed reinforcement-learning algorithm designed to stabilize long-horizon, agentic large-language-model training across multi-step tool use and memory. It offers an alternative to PPO and GRPO for researchers and engineers seeking more reliable agent behavior in complex loops.

article 1 story calendar_today First: 2026-03-06 update Last: 2026-03-06 menu_book Wikipedia