关于策略梯度概率的描述

![Image](https://github.com/user-attachments/assets/0006c692-1261-4cf4-a8a5-586f05058216)
作者或其他大佬你好，在第二遍浏览这一章节时，因为策略梯度适用于连续动作空间，突然想起如果是连续动作的话，是无法计算某个场景采样某个动作的概率即 pθ(a1|s1) 的，因为连续变量单点概率是0！（所以在策略梯度算法中用的好像是Πθ(a1|s1)，理解为概率密度而不是概率值；在离散动作空间中可以理解为概率值）
不过在上文举出的宇宙飞船的例子中，动作确实是离散的，这样倒是可以计算。但是转念一想，例子中状态不是连续的吗？那么 p(s1) 又是如何得到？（虽然在后文中，经过变换已经不再需要 p(s)了）

作者在文中并没有相应的解释说明，所以总让人感觉有点儿别扭，读完不是很顺畅。不知道我的这个疑问是否有道理，请作者和各位大佬解惑。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于策略梯度概率的描述 #176

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

关于策略梯度概率的描述 #176

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions