Select Language

AI社区

AI技术百科

贝叶斯概率(Bayesian Probability)

贝叶斯概率概述

  贝叶斯概率是由贝叶斯理论所提供的一种对概率的解释,它采用将概率定义为某人对一个命题信任的程度的概念。贝叶斯理论同时也建议贝叶斯定理可以用作根据新的信息导出或者更新现有的置信度的规则。

贝叶斯概率的历史

  贝叶斯理论和贝叶斯概率以托马斯·贝叶斯(1702-1761)命名,他证明了现在称为贝叶斯定理的一个特例。术语贝叶斯却是在1950年左右开始使用,很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。皮埃尔-西蒙·拉普拉斯证明了贝叶斯定理的一个更普遍的版本,并将之用于解决天体力学、医学统计中的问题,在有些情况下,甚至用于法理学。但是皮埃尔-西蒙·拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。

  Frank P. Ramsey在《数学基础》(1931年)中首次建议将主观置信度作为概率的一种解释。Ramsey视这种解释为概率的频率解释的一个补充,而频率解释在当时更为广泛接受。统计学家Bruno de Finetti于1937年采纳了Ramsey的观点,将之作为概率的频率解释的一种可能的代替。L. J. Savage在《统计学基础》(1954年)中拓展了这个思想。

  有人试图将“置信度”的直观概念进行形式化的定义和应用。最普通的应用是基于打赌:置信度反映在行为主体愿意在命题上下注的意愿上。

  当信任有程度的时候,概率计算的定理测量信任的理性程度,就像一阶逻辑的定理测量信任的理性程度一样。很多人将置信度视为经典的真值(真或假)的一种扩展。

  Harold Jeffreys, Richard T. Cox, Edwin Jaynes和I. J. Good研探了贝叶斯理论。其他著名贝叶斯理论的支持者包括John Maynard Keynes和B.O. Koopman。

贝叶斯概率的变种

  术语:主观概率, 个人概率, 认知概率和逻辑概率描述了通常成为贝叶斯学派的思想中的一些。这些概念互相重叠,但有不同的侧重。这里提到的一些人物不会自称是贝叶斯学派的。

  贝叶斯概率应该测量某一个体对于一个不确定命题的置信程度,因此在这个意义下是主观的。有些自称贝叶斯学派的人并不接受这种主观性。客观主义学派的主要代表是Edwin Thompson Jaynes和Harold Jeffreys。也许现在还在世的主要客观贝叶斯学派人物是杜克大学的James Berger。Jose Bernardo和其他一些人接受一定程度的主观性,但相信在很多实际情况中有使用"先验参照(reference priors)"的需要。

  逻辑(或者说,客观认知)概率的推崇者,例如Harold Jeffreys, 鲁道夫·卡尔纳普(Rudolf Carnap), Richard Threlkeld Cox和Edwin Jaynes, 希望将能够在两个有相同关于某个不确定命题的真实性相关的信息的人计算出同样的概率的技术规律化。这种概率不和个人相关,而只和认知情况相关,因此位于主观和客观之间。但是,他们推荐的方法有争议。批评者对这个声称发起挑战,在关于相关事实的信息缺乏的时候,更偏好某一个置信度是有现实依据的。另一个问题是迄今为止的技术对于处理实际问题还是不够的。


贝叶斯概率和频率概率

  贝叶斯概率和频率概率相对,它从确定的分布中观测到的频率或者在样本空间中的比例来导出概率。

  采用频率概率的统计和概率的理论由R.A. Fisher, Egon Pearson和Jerzy Neyman在20世纪上半叶发展起来。A. N. Kolmogorov也采用频率概率来通过勒贝格积分为测度论中的概率奠定数学基础(《概率论基础》(1933年))。Savage, Koopman, Abraham Wald和其他一些学者自1950年以来发展了贝叶斯概率。

  贝叶斯学派和频率学派在概率解释上的分歧在统计学实践上有重要的结果。例如,在用同样的数据比较两个假设的时候,假设测试理论基于概率的频率解释,它允许基于错误推出数据更支持另外那个模型/假设的概率来否定或接受一个模型/假设(零假设)。出现这种错误的概率称为一类误差,它要求考虑从同样的数据源导出的假想的数据集合要比实际观测到的数据更为极端。这个方法允许论断'或者两个假设不同或者观测到的数据是误导性的集合'。相对应的是,贝叶斯方法基于实际观测到的数据,因此能够对于任何数量的假设直接赋予后验概率。对于代表每个假设的模型的参数必须赋予概率的要求是这种直接方法的代价。

贝叶斯概率的应用

  自1950年代以来,贝叶斯理论和贝叶斯概率通过考克斯定理, Jaynes的最大熵原理以及荷兰书论证得到了广泛的应用。在很多应用中,贝叶斯方法更为普适,也似乎较频率概率能得出更好的结果。贝叶斯因子也和奥卡姆剃刀一起使用。数学应用请参看贝叶斯推论和贝叶斯定理。

  有些人将贝叶斯推论视为科学方法的一种应用,因为通过贝叶斯推论来更新概率要求从对于不同假设的初始信任度出发,采集新的信息(例如通过做试验),然后根据新的信息调整原有的信念。调整原有的信念可以意味着(更加接近)接受或者推翻初始的假设。

  贝叶斯技术最近被应用于垃圾邮件的过滤上。贝叶斯垃圾邮件过滤器采用电子邮件的一个参考集合来定义什么最初被认为是垃圾邮件。定义了参考之后,过滤器使用参考中的特点来将新的邮件判定为垃圾邮件或有效邮件。新电子邮件作为新的信息出现,并且如果用户在垃圾邮件和有效邮件的判定中发现错误,这个新的信息会更新初始参考集合中的信息,以期将来的判定可以更为精确。参看贝叶斯推论和贝叶斯过滤。

概率之概率

  对于贝叶斯概率解释曾有过的一个批评是一个单独的概率赋值不能给出信念的真实性——也即,它有多少科学实证。考虑如下的这些情况:

  1. 你有一个装了白球和黑球的盒子,但是不知道它们的数量

  2. 你有一个盒子,你从中取了n个球,一半黑,一半白

  3. 你有一个盒子,你知道有同样数量的黑球和白球

下一个取出的球是黑球的贝叶斯概率对于所有三种情况都是0.5。Keynes称这为“证据的权重”问题。一个反映这些证据支持的区别的方法是对于这些概率本身赋予概率(所谓的“元概率”)如下:

  • 1. 你有装了白球和黑球的盒子,但是不知道数量情况


    • θ = p代表下一球为黑的概率为p这一命题,一个贝叶斯概率论者会赋予一个Β先验分布:

    • \forall \theta \in [0,1]

    • P(\theta) = \Beta(\alpha_B=1,\alpha_W=1) = \frac{\Gamma(\alpha_B + \alpha_W)}{\Gamma(\alpha_B)\Gamma(\alpha_W)}\theta^{\alpha_B-1}(1-\theta)^{\alpha_W-1} = \frac{\Gamma(2)}{\Gamma(1)\Gamma(1)}\theta^0(1-\theta)^0=1


    • 假设取出的球用二项式分布建模,则后验分布P(θ | m,n),在取出m个黑球和n个白球之后依然是一个Β分布,其参数αB = 1 + m, αW = 1 + n。Β分布的参数的一个直观的解释是两个事件的设想记数。

  • 2. 你有一个盒子,你已经从中取了N个球,黑白各半


    • θ = p 代表下一球为黑的概率为p这一命题,一个贝叶斯概率论者会赋予一个Β先验分布,Β(N / 2 + 1,N / 2 + 1)θ的极大后验概率(MAP估计)是\theta_{MAP}=\frac{N/2+1}{N+2},恰好就是拉普拉斯逐次法则。

  • 3. 你有一个盒子,并且你知道黑球和白球的数量相等

    • 这个情况下,贝叶斯概率论者会定义先验概率为P\lef<em></em>t(\theta\right)=\delta\lef<em></em>t(\theta - \frac{1}{2}\right)

  其它贝叶斯概率论者辩解说概率不一定要是精确的数字。

  因为频率解释中没有元概率的容身之地,频率论者必须用其它方式表达证据支持。Cedric Smith和Arthur Dempster分别发展了上下极限。Glenn Shafer进一步发展了Dempster的理论,现在它被称为Dempster-Shafer理论。

贝叶斯概率案例分析


案例一:贝叶斯方法在房地产风险决策中的应用研究[1]

  一、贝叶斯(Bayes)方法的基本特点

  自从20世纪50~60年代贝叶斯学派形成后,关于贝叶斯分析的研究久盛不衰。20世纪80年代后,贝叶斯网络就成功地应用于专家系统,成为表示不确定性专家知识和推理的一种重要的方法。

  贝叶斯决策属于风险型决策,决策者虽不能控制客观因素的变化,但却可掌握其变化的可能状况及各状况的分布概率,并利用期望值即未来可能出现的平均状况作为决策准则。由于决策者对客观因素变化状况的描述不确定,所以在决策时会给决策者带来风险。

  但是完全确定的情况在现实中几乎不存在,贝叶斯决策不是使决策问题完全无风险,而是通过其他途径增加信息量使决策中的风险减小。由此可以看出,贝叶斯决策是一种比较实际可行的方法。

  利用贝叶斯(Bayes)所提出的概率理论,我们可以考察决策的敏感性。贝叶斯(Bayes)提出了先验概率和后验概率的概念:可以根据新的信息对先验概率加以修改从而得出后验概率。因此,贝叶斯理论被用于将新信息结合到分析当中。

  根据贝叶斯(Bayes)方法,在已知道:

  1)状态先验概率P(w_i),i=1,2,\ldots,c

  2)类条件概率密度P(x|w_i),i=1,2,\ldots,c

  利用贝叶斯公式:P(x|w_i)=\frac{P(x|w_i)P(w_i)}{\sum(x|w_i)p(w_i)}

  得到状态的后验概率P(x | wi)

  用贝叶斯(Bayes)概率理论与决策树方法结合起来,我们及时根据市场信息可以建立一个解决风险型房地产投资决策的模型方法。

  二、贝叶斯(Bayes)方法的应用分析

  例如,某房地产公司打算聘请一个咨询公司来调查市场情况。这项调查的花费为5000元。该公司是否应选择这一方式呢?这样做将导致改变公司对市场情况预测的先验概率。

  该公司查阅了咨询公司的历史业绩记录。其结果如下表1所示。该表显示当市场实际增长时,70%的该咨询公司的报告预见到了这一增长,同时20%的报告预见的是市场将保持稳定,而10%的报告则预测的是市场将衰退。表1中的其它数据的含义与此类似。

  初始预测表

咨询公司的预测
实际市场结果先验概率增长稳定衰退
增长0.60.70.20.1
稳定0.30.20.60.2
衰退0.10.10.20.7

  叶斯(Bayes)定理就是利用这些信息来修正有关的先验概率。假设有r个互斥事件形W_i(i=1,2,\ldots,r),其先验概率为P(Wi)。进一步假设有事件凡,在事件W_i发生的前提下事件凡发生的概率为P(FK / Wi)。那么如果我们知道FK已发生,事件形发生的概率即为:

  P(W_j/F^k)=\frac{P(W_j)\times P(F^k/W_j)}{\sum\left\{P(W_i)\times P(F^k/W_i)\right\}}

  如果有i个互斥事件W_j(i=1,2,\ldots,r),仅当其中一个事件发生后,事件,F才能发生,则在事件F已知时,事件Wj发生的概率为:

  P(W_j/F)=\frac{P(W_j)\times P(F/W_j)}{\sum\left\{P(W_i)\times P(F/W_i)\right\}}

  其中:P(Wi)=事件Wi的先验概率;P(FK / Wj) = Wj发生,事件Fk的条件概率;P(Wj / Fk) = Fk发生,事件Wj的后验概率。

  在我们的例子中,各结果的先验概率为:

  W1——增长→P(W1) = 0.6

  W2——稳定→P(W2) = 0.3

  W3——增长→P(W3) = 0.1

  如果Fr,是指一个调查,该调查表明市场实际增长,从表1中我们可以知道当预测报告预计市场将增长时,其结果为:0.7的可能增长,0.2的可能不变,0.的可能衰退。

  因此:

  P(Fr / W1) = 0.7

  P(Fr / W2) = 0.2

  P(Fr / W3) = 0.7

  利用贝叶斯(Bayes)公式,在预测报告预计市场增长条件下,市场实际出现增长的概率为:

  P(W_j/F^K)=\frac{P(W_j)P(F^r/W_1)}{P(W_1)P(F^r/W_1)+P(W_2)P(F^r/W_2)+P(W_3)P(F^r/W_3)}=\frac{0.6\times0.7}{(0.6\times0.7)+(0.2\times0.3)+(0.1\times0.1)}=0.854

  市场报告改变了各结果的概率,贝叶斯(Bayes)概率如表2所示:

  修正后的预测表

咨询公司的预测
实际市场结果增长稳定衰退
增长0.850.380.32
稳定0.120.560.32
衰退0.020.060.37

  这样就可画出一个新的决策树。对其的求解是从期望收益来推算最初的目标。底层的方案枝是原来的决策树。但是只有在获得预计市场增长、不变或衰退的报告的概率已知后,才可对其求解。

  获得一个预计市场增长的报告的概率就是在各种市场情况下得出市场增长预测报告的概率乘以各种市场情况出现的概率。因此获得一个预测市场增长的报告的概率为:P=(0.7)(0.6)+(0.2)(0.3)+(0.1)(0.1)=0.49。

  相类似,获得一个预测市场不变的报告的概率为0.32,而获得一个预测市场衰退的报告的概率为0.19。现在将这些值代人到决策树中,咨询公司报告的预期收益是:。

  Ep = (0.49)(219.6) + (0.32)(168.0) + (0.19)(141.1) = 1881

  因为获得该报告需花费5000元,故净收益为13817元,这少于没有报告时的收益,因此该公司无法从咨询报告中获得益处。这一点如图1中利用贝叶斯(Bayes)分析所制定的决策树所示。

  (Bayes)分析所制定的决策树所示

根据贝叶斯(Bayes)理论绘制的决策树

  三、贝叶斯(Bayes}决策规则的选择

  应用贝叶斯(Bayes)分析方法,决策者可根据具体情况和决策意愿选择不同的决策规则,例如选择:

  (1)基于最小错误率的贝叶斯决策规则。在决策问题中,人们往往希望尽量减小错误,从这样的要求出发,利用贝叶斯公式,就能得出使错误为最小的分类规则,称之为基于最小错误率的贝叶斯决策。

  (2)基于最小风险的贝叶斯决策规则。在基于最小错误率的贝叶斯分类决策中,使错误率P(e)达到最小是重要的。但实际上有时需要考虑一个比错误率更为重要的广泛的概念一风险。风险和损失是紧密联系的。最小风险贝叶斯决策正是考虑各种错误造成损失不同而提出的一种决策规则。在此决策中利用了决策论的观点进行考虑。在已知先验概率P(wi)及类条件概率密度可P(x|w_i)=i=1,2,\ldots,c的条件下,在考虑错判所造成的损失时,由于引人“损失”的概念,而必须考虑所采取的决策是否使损失最小。

  (3)最小最大的贝叶斯决策规则。从最小错误率和最小风险贝叶斯决策中可以看出其决策都是与先验概率P(Wi)有关的。如果给定的x其P(wi)不变,按照贝叶斯决策规则,可以使错误率和风险最小。但是如果P(wi)是可变的,或事先对先验概率毫不知道的情况下,若再按某个固定的P(wi)条件下的决策进行就往往得不到最小错误率或最小风险。而最小最大决策就是考虑在P(wi)变化的情况下,如何使最大可能的风险为最小,也就是在最差的条件下争取到最好的结果。

  贝叶斯决策属于风险型决策,决策者虽不能控制客观因素的变化,但却可掌握其变化的可能状况及各状况的分布概率,将贝叶斯概率分析与决策树方法相结合,并利用期望值作为决策准则的依据。这为贝叶斯方法在房地产投资风险决策的应用提出了一种可行方法。在此基础上可根据需要选择相关决策规则实现风险决策目标。


我要发帖
百科知识
2021-05-11 23:49:38加入圈子
  • 68

    条内容
提供人工智能的一些知识分享,涉及AI算法、应用、数据、模型等内容