When are LLMs Sufficient Policy Optimizers for Sequential RL Tasks? | Signal Canvas | ScienceToStartup

When are LLMs Sufficient Policy Optimizers for Sequential RL Tasks? | Signal Canvas | ScienceToStartup