贝叶斯理论中全概率公式是:
\[P(B) = P(B|A) \cdot P(A) + P(B|\neg A) \cdot P(\neg A)
\]
这被称为全概率公式(law of total probability)。它是贝叶斯定理中分母 \(P(B)\) 的展开形式。下面我们从基础概率知识出发,一步步讲清楚为什么这个式子成立。
前置:层级的概率空间
概率也是有层级的,\(A\) 和 \(\neg A\) 组成一个全集。在以 \(A\) 为全集时,\(P(B|A)\) 则是一个以 A 为全集时,观察到 B 的一个概率,同理于 \(P(B|\neg A)\) ,这时整个概率空间分成 2 层。
1 层:\(A\) 和 \(\neg A\) 组成第一层概率空间。
2 层:在第一层空间中,划分为 \(A\) 的部分空间中,再次划分出一个更小的空间 \(P(B|A)\)
一、背景:事件空间的划分
设:
\(A\) 表示某个事件(如“这个人有病”);
\(\neg A\) 表示它的补集(“这个人没病”);
\(B\) 表示另一个事件(如“检测结果为阳性”)。
因为 \(A\) 和 \(\neg A\) 把所有情况划分得完全且互不重叠,所以我们可以写出:
\[\text{“事件 B 发生”} = \text{“事件 B 与 A 同时发生”} + \text{“事件 B 与 ¬A 同时发生”}
\]
即:
\[P(B) = P(B \cap A) + P(B \cap \neg A)
\]
二、结合条件概率定义
根据条件概率的定义:
\[P(B \cap A) = P(B|A) \cdot P(A) \\
P(B \cap \neg A) = P(B|\neg A) \cdot P(\neg A)
\]
代入上式:
\[P(B) = P(B|A) \cdot P(A) + P(B|\neg A) \cdot P(\neg A)
\]
这就是你提到的公式。
三、图示理解(推荐)
可以把整个概率空间看作一个矩形:
把它分成两部分:一部分是 A,另一部分是 \(\neg A\),它们构成全集;
B 是一个“在空间中某些区域发生”的事件,它可以穿过 A 和 \(\neg A\);
所以 B 在整个空间中的概率,就等于它在 A 区域中发生的概率 + 它在 \(\neg A\) 中发生的概率。
你可以想象一个测试盒子:
一部分人有病 A,另一部分人没病 \(\neg A\);
每种人都有一定的概率测试出阳性;
那么,总体上有多少人测出阳性,就等于:
有病人测阳性的概率 × 有病人的比例 + 没病人测阳性的概率 × 没病人的比例。
四、再举个例子说明
某城市有 20% 的人是吸烟者(事件 A),80% 不吸烟(事件 \(\neg A\))。
假设:
吸烟者患某种病的概率是 10%(即 \(P(B|A) = 0.10\))
非吸烟者患病的概率是 2%(即 \(P(B|\neg A) = 0.02\))
问:任意一个人患病的概率是多少?
答案:
\[P(B) = P(B|A) \cdot P(A) + P(B|\neg A) \cdot P(\neg A) = 0.10 \cdot 0.20 + 0.02 \cdot 0.80 = 0.036
\]
所以整个人群中有 3.6% 的人会患病。
五、结论
这个公式的逻辑是:
先划分事件空间,再在各个子空间中统计事件 B 的发生情况,最后加总。
这就是全概率公式的核心思想,它是贝叶斯定理中最重要的一块基础。