(Test Non English Languages)贝叶斯统计、罕见疾病和抽奖问题

贝叶斯统计的基本思路,罕见疾病检测以及抽奖问题。

概率论的核心的概念应该是概率了。基于我们对于逻辑事件的理解,下面的式子成立,

$$P(A\cup B) = P(A) + P(B) - P(A\cap B),$$

也就是说,A 或者 B 同时发生的概率,等于 A 发生的概率加上 B 发生的概率,再减掉 A 和 B 同时发生的概率,因为前面 A 发生的概率加上 B 发生的概率包含了两个 A 和 B 同时发生的概率。1

我们定义 $P(A,B) = P(A\cap B)$ (joint probability)。这样有两种比较有趣的特殊情况:

  1. 当 $P(A,B)=0$ 也就是说,A 事件和 B 事件没有任何交集的时候,事件 A 或者事件 B 发生的概率就简化成了

    $$P(A\cup B) = P(A) + P(B).$$

    比如说,一件物体在自然光下此时此刻是红色或者绿色的概率,就等于这件物体是红色的概率加上这件物体是绿色的概率,因为这件物体在自然光下不能同时既是红色又是绿色。

  2. 当 $P(A,B)=P(A)P(B)$ 的时候,我们称 A,B 这两件事情是统计上独立的事件,因为这个定义显示,发生 A 的概率和发生 B 的概率他们没有关联。作为一个对照,两件事情相互关联有很多可能性,比如 $P(A,B)=P(A)(1-P(A))$。

Bayes 定理

为什么要考虑事件之间的逻辑关系呢?因为理解 Bayes 定理需要这些逻辑关系。

我们考虑两个组事件 A、B,我们使用符号 $P(A\vert B)$ 来表示发生事件 B 的前提下发生事件 A 的概率,这类似一个对 $P(A)$ 的重新归一化。我们思考这样一个表达式:$P(A\vert B)P(B)$,它的意思是说,发生了事件 B 的前提下发生 A 的概率,乘以发生事件 B 的概率。2 这其实就是发生事件 A 和 B 的概率,

$$P(A\vert B)P(B) = P(A\cap B).$$

同样的道理,

$$P(B\vert A)P(A)=P(A\cap B).$$

这两个式子的右边都相同,也就是说我们有这样一个对称性,

$$P(A\vert B)P(B) = P(B\vert A)P(A).$$

上面这个看似简单直白的关系就是 Bayes 定理。

作为一个小小的推广,我们可以扩展到多个集合的情况,类似于上面的式子,

$$P(B) = \sum_{i=1}^N P(B\vert A_i)P(A_i),$$

$P(A_i)$ 被称作 priori,先验概率。这样我们可以用类似的手法得到 Bayes 定理,

$$P(A_i\vert B) \sum_{k=1}^N P(B\vert A_k)P(A_k) = P(B\vert A_i)P(A_i).$$

下面用两个例子来解释 Bayes 定理。

罕见疾病测试

设想有一种疾病:3

  1. 它在整个人群中的发病率只有 0.001,记作 $P(D)$。
  2. 医生们发明了一种方法来检测这种疾病,对于一个患病者来说,检测出来的准确率高达 99%,这个概率记作 $P(+\vert D)$,即在被检测者是患病者的前提下,检测结果为阳性的概率。
  3. 同时这种方法也有一个很小的概率会把一个不患病的人检测为阳性,这个概率小到了 0.005,记作 $P(+\vert H)$,即健康的人被检测为结果阳性的概率。

有了这些数据,我们可以计算在整个人群中,随便找出一个人,检测结果为阳性的概率:

$$P(+) = P(+\vert D)P(D)+ P(+\vert H)P(H)=0.0060.$$

我们更关系的结果是,如果我们有一个检测结果为阳性,那么这个人是患病的概率。这里我们可以使用上面的结果加上 Bayes 定理来计算。

$$P(D\vert +) = P(+\vert D)P(D)/P(+) = 0.99\times 0.001/0.0060 = 0.165.$$

也就是说明,我们用这种方法做普查,在人群中某个人的检测结果是阳性,但是这个人真的患病的概率只有 16.5%。这样的检测结果为阳性,这个人患病的概率却如此小,说明这种方法没有单独使用的意义。

如果这样还不够显然,我们可以换个角度:人群中一个人的检测结果为阳性,这个人是健康的概率却是 $P(H\vert +)=1-P(D\vert +)=0.835$。也就是说,一千个检测结果为阳性的人,其中大约 835 个人其实是健康的。

箱子里的奖品

很多人都听过这样一个题目:4

有三个箱子,其中只有一个箱子里面有奖品。现在一个抽奖的人选择一个箱子打开。但是主持人并不是立刻打开箱子,而是打开了另外未被选择的两个里面其中没有奖品的一个箱子。 现在主持人问抽奖人:你要不要换一下你的选择?

如果不使用 Bayes 理论,这个问题思考起来错综复杂,容易出错。下面的 Bayes 理论的计算却简单明了。

使用的符号:

  1. $P(Win\vert Switch,WrongBox)$:抽奖人第一次选择了没有奖品的箱子,并且选择切换自己的选择,然后获奖的概率。这个概率总是 1.
  2. $P(Win\vert Switch,RightBox)$:抽奖人第一次选择了有奖品的箱子,并且选择切换自己的选择,然后获奖的概率。这个概率总是 0.
  3. $P(Win\vert NoSwitch,RightBox)$:抽奖人第一次选择了正确的箱子,但是选择坚持第一次选择,然后获奖的概率。这个概率值为 1.
  4. $P(WrongBox)$:在第一次选择中,抽奖人选择到错误的箱子的概率。这个概率是 2/3.
  5. $P(RightBox)$:在第一次选择中,抽奖人选择到正确的箱子的概率。这个概率是 1/3.
  6. $P(Win\vert Switch)$:抽奖人选择切换自己的选择并且赢得奖品的概率。这是需要计算的。

利用 Bayes 定理,

$$P(Win\vert Switch) = P(Win\vert Switch,WrongBox)P(WrongBox) + P(Win\vert Switch,RightBox)P(RightBox) = 2/3.$$

简单的计算可以得到不改变主意并且获奖的概率,

$$P(Win\vert NoSwitch)= P(Win\vert NoSwitch,RightBox)P(RightBox) + P(Win\vert NoSwitch,WrongBox)P(WrongBox) = 1/3. $$

所以显而易见了,当主持人问的时候,我们要选择切换。

神经科学中的应用

在神经科学中,实验经常获得一些多次重复实验的放电记录。5

由于这种内在的随机性,在理论上描述的时候,需要使用概率论。而我们又常常关心在给定刺激的时候放电的概率 $P(\mathrm{spike}\vert \mathrm{stimulus})$,或者在放电了存在刺激的概率 $P(\mathrm{stimulus}\vert \mathrm{spike})$。


  1. 比较严格的理解是把 A、B 理解成两组可能事件的集合,$P(A\cup B)$ 的意义就是发生事件即在 A 集合中,又在 B 集合中。这样对于理解 Venn diagram 有帮助。 ↩︎

  2. 如果我们这里面的 $B$ 事件其实是 $C\cap D$ 呢?那么我们有$P(A\vert (C\cap D)) P(C\cap D) = P(A\cap C \cap D).$ ↩︎

  3. 参考 Kevin Cahill 的 Physical Mathematics,第 13 章. ↩︎

  4. 参考 Kevin Cahill 的 Physical Mathematics,第 13 章. ↩︎

  5. https://praneethnamburi.wordpress.com/2015/02/05/simulating-neural-spike-trains/ ↩︎

Planted: by ;

neuronstar (0001). '(Test Non English Languages)贝叶斯统计、罕见疾病和抽奖问题', Connectome, 01 April. Available at: https://hugo-connectome.kausalflow.com/posts/articles/2015-05-10-bayesian/.