機率論不只是一門抽象的數學分支,它是我們在不確定世界中做出理性決策的核心工具。從保險公司計算保費,到賭場設計遊戲規則,再到資料科學家訓練機器學習模型——無處不在的隨機現象,造就了機率與期望值在現代社會中的重要地位。本文將帶你從隨機變數出發,深入理解期望值與變異數的意義,並認識常見的離散機率分佈,最終學會用期望值的框架分析生活中的各種決策問題。
在學習機率分配之前,必須先弄清楚隨機變數的概念。隨機變數(Random Variable)是一個將隨機實驗的每一個結果對應到一個數值的函數。這個定義聽起來有點抽象,讓我們用具體例子來說明:
假設你擲兩枚硬幣,記錄正面出現的次數。這個「正面次數」就是一個隨機變數。它可以把「正正」對應到 2,「正反」對應到 1,「反正」對應到 1,「反反」對應到 0。
隨機變數分為兩大類型:
這兩種類型的隨機變數,在處理方式上有根本性的差異。離散隨機變數我們用「機率品質函數」(PMF)來描述每個取值發生的機率;連續隨機變數則用「機率密度函數」(PDF),重點在於某個區間內的機率而非單點機率。
機率分配描述的是隨機變數如何分布——哪些值比較容易出現,哪些值比較罕見。
對於離散隨機變數 X,其機率品質函數滿足兩個條件:第一,每個取值點的機率都是非負數;第二,所有取值點的機率之和等於 1。這就是所謂的「歸一化條件」,確保機率解釋的一致性。
以擲單一公正骰子為例,隨機變數 X 代表點數,則 PMF 為:P(X=1)=P(X=2)=...=P(X=6)=1/6。這是一個「均勻分配」——每個結果發生的機會完全均等。
對於連續隨機變數,我們不能談論「精確等於某個值」的機率(這個機率趨近於零),而是談論「落在某個區間」的機率。機率密度函數 f(x) 的積分(面積)代表機率,且全平面積分同樣必須等於 1。
期望值(Expected Value)是機率論中最核心的概念之一,可以理解為隨機變數的「長期平均值」或「加權平均」。
離散隨機變數 X 的期望值定義為:所有可能取值與其對應機率的乘積之和。
其中 Σ 表示對所有可能的 x 值求和。
範例:某彩票每張售價 100 元,頭獎獎金 5000 元(機率 1/1000),二獎 500 元(機率 1/100),三獎 100 元(機率 1/50)。計算購買一張彩票的期望獲利。
E(獲利) = 4900 × (1/1000) + 400 × (1/100) + 0 × (1/50) + (-100) × (997/1000)
= 4.9 + 4 - 99.7 = -90.8 元
這意味著長期而言,每買一張彩票平均會損失約 90.8 元——這就是賭場設計遊戲的數學基礎。
連續隨機變數的期望值則透過積分計算:
期望值最優美的性質之一是它的線性——無論隨機變數之間是否有關聯,期望值都滿足加法和齊次性。
這個公式告訴我們:將隨機變數乘以常數 a,期望值也會被乘以 a;加上常數 b,期望值也會加上 b。
更強大的是,期望值對「和」也滿足線性:
即使 X 和 Y 不是獨立的,這個性質依然成立。這在處理多個隨機變數相加的問題時極為有用。
實用範例:某水果店每天蘋果銷量 X(平均 30 顆,標準差 5 顆),橘子銷量 Y(平均 20 顆,標準差 3 顆)。若每顆蘋果利潤 3 元、橘子利潤 2 元,計算每日總利潤的期望值。
E(總利潤) = 3 × E(X) + 2 × E(Y) = 3 × 30 + 2 × 20 = 130 元
這個計算過程完全不需要知道 X 和 Y 是否相關,線性性質讓我們輕鬆處理這類問題。
期望值告訴我們隨機變數的「中心」在哪裡,但兩個期望值相同的隨機變數,可能有完全不同的「散布程度」。變異數(Variance)就是用來衡量這種離散程度的指標。
變異數的定義是:隨機變數與其期望值之差的平方的期望值。
這個定義的直覺是:我們測量每個可能值偏離期望值的程度,偏離越多,貢獻越大(因為是平方)。取平均之後就得到變異數。
範例:比較兩個投資方案的風險。方案 A 的報酬率為 +10%(機率 0.5)或 -6%(機率 0.5),方案 B 為 +100%(機率 0.2)或 -50%(機率 0.8)。
方案 A:E(X) = 0.5×10 + 0.5×(-6) = 2%,E(X²) = 0.5×100 + 0.5×36 = 68,Var(X) = 68 - 4 = 64
方案 B:E(X) = 0.2×100 + 0.8×(-50) = -20%,E(X²) = 0.2×10000 + 0.8×2500 = 4000,Var(X) = 4000 - 400 = 3600
方案 B 的變異數遠大於方案 A,說明其風險也高得多——雖然方案 B 有機會獲得高報酬,但虧損的機會和幅度都更大。
變異數還有一個重要性質:
注意:常數項 b 的變異數為零,因為常數沒有任何不確定性。
變異數的單位是「原始單位的平方」——如果我們測量的是金額(元),變異數的單位就是「元²」。這在解讀上不太直觀。標準差(Standard Deviation)是變異數的平方根,恢复了原始單位。
標準差在常態分配中特別重要:根據經驗法則,大約 68% 的觀測值會落在平均值 ± 1 個標準差範圍內,95% 落在 ± 2 個標準差範圍內,99.7% 落在 ± 3 個標準差範圍內。
在金融領域,標準差被用來衡量「波動率」——一檔股票的標準差越大,代表它的價格變動越劇烈,風險也越高。在品質管制中,標準差用來評估產品的一致性程度。
了解幾種常見的離散機率分佈,能幫助我們快速模型化現實世界中的隨機現象。
最簡單的離散分佈,適用於只有兩種結果的實驗:成功(機率 p)或失敗(機率 1-p)。
n 次獨立的伯努利實驗中,成功次數 X 的分佈。記為 X ~ B(n, p)。
範例:某工廠產品不良率 5%,抽查 20 件產品,不良品數量的期望值和標準差是多少?
E(X) = 20 × 0.05 = 1,σ = √(20 × 0.05 × 0.95) ≈ 0.974
在重複進行的伯努利實驗中,第一次成功出現時所需的實驗次數。記為 X ~ Geom(p)。
範例:投擲公正硬幣直到第一次出現正面,平均需要投多少次?
E(X) = 1/0.5 = 2 次
大數法則(Law of Large Numbers)是機率論的基石定理之一。它說的是:當我們重複進行同一隨機實驗的次數越多,樣本平均值就越接近理論期望值。
這個定理的直覺很簡單:每一次觀測都會有一些隨機的偏差,但當觀測次數足夠多時,這些偏差會有正有負、互相抵消,最終呈現出來的平均值會趨近於真實的期望值。
這就是「賭場必勝」的數學原理:單一顧客可能幸運地贏錢,但當賭場接待了數以萬計的顧客時,根據大數法則,實際的營收會非常接近理論期望值——而這個期望值是對賭場有利的。
值得注意的是,大數法則並不預測短期結果。任何一次擲硬幣,無論前面連續出現了多少次正面,下一次出現正面或反面的機率依然各是 50%。大數法則描述的是「長期平均」的行為,而非「短期修正」的機制。
期望值不只是一個抽象的數學概念,它是理性決策的強大框架。決策樹(Decision Tree)是一種將複雜決策問題視覺化的工具,結合期望值的計算,能幫助我們在不確定環境下做出最優選擇。
假設你有財產價值 100 萬元,發生火災的機率是 1%。保險公司提供火災險,年保費 5000 元,全額理賠。你應該購買保險嗎?
不買保險的期望值:E(損失) = 1,000,000 × 0.01 + 0 × 0.99 = 10,000 元
買保險的期望值:E(損失) = 0 × 1 + 5,000 = 5,000 元
從純數學角度,購買保險的期望損失較低。但實際決策還需考慮:你是否能負擔 100 萬元的損失?如果不能,即使期望值較高,也應該購買保險,因為「破產」的風險比期望值的些微劣勢更重要。
某賭博遊戲:擲兩個骰子,若點數和為 7 你贏 30 元,否則輸 10 元。這個遊戲值得玩嗎?
擲兩個骰子點數和為 7 的組合有:(1,6),(2,5),(3,4),(4,3),(5,2),(6,1),共 6 種。總組合數 36 種,所以 P(7) = 6/36 = 1/6。
E(獲利) = 30 × (1/6) + (-10) × (5/6) = 5 - 8.33 = -3.33 元
期望值為負,代表長期玩下去必然虧損。這再次驗證了「久賭必輸」的道理。
假設你獲得兩個工作機會:A 公司月薪固定 5 萬元;B 公司月薪 3 萬元但有 30% 機率獲得年終獎金 20 萬元。選擇哪個?
A 公司:E(月薪) = 50,000 元
B 公司:E(月薪) = 30,000 + 200,000 × 0.3 ÷ 12 = 30,000 + 5,000 = 35,000 元
單看期望值,B 公司較優。但如果你的家庭需要穩定的收入流,B 公司的風險可能讓你無法接受。這就是期望值框架與風險偏好之間的取捨。
進階機率與期望值的世界,既嚴謹又充滿實用價值。從隨機變數的定義到機率分配的性質,從期望值的計算到變異數的詮釋,這些工具構成了一套完整的「不確定性分析框架」。
更重要的是,期望值的思想可以滲透到生活的每個角落:無論是評估保險是否值得購買、分析投資報酬率,還是比較兩個工作機會的優劣,期望值都提供了一個客觀、量化的決策參考。
當然,數學模型終究是對現實的簡化。實際決策還需要考慮期望值無法捕捉的因素——風險偏好、情感因素、人生階段的獨特需求。但至少,學會了期望值的計算,你就擁有了一面照見「表面之下」的透鏡,能在混沌的隨機世界中,看清每一個選項的真正代價與回報。
📖 延伸閱讀:機率基礎:排列組合與集合 · 統計推論與假設檢定 · 排列組合深入探討