AI百科
强化学习之 score function
回复:0  浏览:571

score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度。

在这里插入图片描述


就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。

3、SF的期望值是0
在这里插入图片描述
这一个性质可以用在有baseline的策略梯度中。