score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度。
就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。
3、SF的期望值是0
这一个性质可以用在有baseline的策略梯度中。
score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度。
就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。
3、SF的期望值是0
这一个性质可以用在有baseline的策略梯度中。