Skip to content

关于策略梯度概率的描述 #176

@patrickstar77

Description

@patrickstar77

Image
作者或其他大佬你好,在第二遍浏览这一章节时,因为策略梯度适用于连续动作空间,突然想起如果是连续动作的话,是无法计算某个场景采样某个动作的概率即 pθ(a1|s1) 的,因为连续变量单点概率是0!(所以在策略梯度算法中用的好像是Πθ(a1|s1),理解为概率密度而不是概率值;在离散动作空间中可以理解为概率值)
不过在上文举出的宇宙飞船的例子中,动作确实是离散的,这样倒是可以计算。但是转念一想,例子中状态不是连续的吗?那么 p(s1) 又是如何得到?(虽然在后文中,经过变换已经不再需要 p(s)了)

作者在文中并没有相应的解释说明,所以总让人感觉有点儿别扭,读完不是很顺畅。不知道我的这个疑问是否有道理,请作者和各位大佬解惑。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions