什么是正態分布?正態分布(Normal Distribution),也被稱為高斯分布,代表著概率的分布情景,是統計學中的一個重要概念。
在科學理論不甚發達的過去,早期科學家們往往先從看見事物現象開始,發現、記錄并試圖歸納、總結,最后抽象出背后的規律。
當一組看見數據或樣本觸及到“平均”和“偏差”時,它們出現的頻率往往會被描繪成下面這條曲線:
圖自百度百科
圖中橫軸代表著樣本數值,縱軸則是某一樣本數值對應的出現概率,其中這條曲線即正態分布曲線。
看見這個圖形,正態曲線呈現出“鐘”形,以 x=μ (均數所在的位置)為中央左右對稱。曲線與橫軸無窮接近,合成的面積為 1,代表所有樣本出現的概率之和為 100%。
以數學的語言描繪這條曲線,
公式中包含兩個參數,期望(均數)μ 和標準差 σ。

我們也常用更簡化的形式描述什么是正態分布:N(μ,σ^2);μ 代表著分布的集中趨勢,橫軸上離 μ 越接近的值,出現的概率越大; σ^2 (方差)代表數據分布的離散程度,σ 越大,數據分布越分散,曲線越“矮胖”。
現實上,許多變量(包括生成制造、科學試驗、一部分天然界現象)的分布都接近正態分布,比如一群人的身高或腳的大小,我天天上班所需要的工夫,一個班級里所有學生的語文成績。
之所以會出現這種規律,是由于上述樣本基于大量隨機變量上重復“試驗”,就像我天天都上班 = 重復(唉),而地鐵有沒有擠到兩趟都上不去、我有沒有因為玩手機而坐過站、步行的兩個路口碰到了紅燈還是綠燈等這些變量 = 隨機。
其背后的理論支撐叫做中央極限定理(對數學史感愛好的朋友可以點擊n重伯努利實驗進一步了解)。
了解了什么是正態分布,對我們有什么用呢?
你可以試著找到事實生存中類似“上班時長”的重復隨機事件,記錄不同的情景出現的次數,統計頻率并描繪成圖(Excel 就可以輕松完成),審查下它的外形,是否接近正態分布。
當你積累充足多的數據,出現某種“奧秘”的規律特征后,未發生的事件會大概率落在一個可信的區間內。
相信讀到這里,你已經大致了解了什么是正態分布,并可以在生存中發現它的存在,并利用它來“猜測未來”。
評論前必須登錄!
立即登錄 注冊