本文针对深度强化学习(DRL)在部分可观测马尔可夫决策过程(POMDP)中的性能差异问题,系统研究了PPO、TD3和SAC三种主流算法。研究发现,在MDP任务中表现优异的TD3和SAC在POMDP设置下性能显著下降,而PPO却展现出相对优势。通过多步自举(multi-step bootstrapping)等 ...
本文针对深度强化学习(DRL)算法在部分可观测马尔可夫决策过程(POMDP)中性能表现不一致的问题,研究了PPO、TD3和SAC三种主流算法在POMDP环境下的表现。研究发现,在MDP任务中表现优异的TD3和SAC在POMDP任务中性能显著下降,而PPO则表现出更强的鲁棒性。