AI技术百科
tianjing2020
2021-11-01 22:37:25
强化学习之 score function
score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度。
就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。
3、SF的期望值是0
这一个性质可以用在有baseline的策略梯度中。