前言
道德經(jīng)云:“道生一,一生二勇哗,二生三昼扛,三生萬物”。學(xué)習(xí)知識亦是如此,一個概念衍生出兩個概念抄谐,兩個概念演化出更小的子概念渺鹦,接著衍生出整個知識體系。
你的“對象” 是誰蛹含?
此對象非彼“對象”毅厚,我們學(xué)習(xí)“概率和統(tǒng)計(jì)學(xué)”目的在于應(yīng)用到對于“對象”的研究中,筆者將我們要研究的“對象”按照維度分為了兩大類浦箱。
一維:就是當(dāng)前擺在我們面前的“一組”吸耿,“一批”,哪怕是“一坨”數(shù)據(jù)酷窥。這里我們會用到統(tǒng)計(jì)學(xué)的知識去研究這類對象咽安。
二維:就是研究某個“事件”,筆者認(rèn)為事件是依托于“時間軸”存在的蓬推,過去是否發(fā)生妆棒,現(xiàn)在是可能會出現(xiàn)幾種情況,每種情況未來發(fā)生的可能性有多大沸伏?這類問題是屬于概率論的范疇糕珊。因此,我們在做數(shù)據(jù)分析的研究前毅糟,先弄清我們研究的對象屬于哪類范疇放接,然后在按著這個分支檢索自己該用到的知識或方法來解決問題。
分析就像在給 “愛人” 畫肖像
從外觀的角度描述一個姑娘留特,一般是面容怎么樣纠脾?身段怎么樣?兩個維度去描述蜕青。就像畫一幅肖像畫苟蹈,我們的研究“對象”在描述性分析中也是通過兩個維度去來描述即,“集中趨勢---代表值”右核,“分散和程度”慧脱。
看到這幾個概念是不是就很熟悉了?筆者認(rèn)為一個描述性的分析就是從這兩個維度來說清楚你要研究的對象是什么樣子贺喝?至于從哪些特征開始說呢菱鸥?就是常用的概念“均值”,“方差”之類的躏鱼。下面我們進(jìn)入正題氮采,筆者將詳細(xì)闡述整個知識架構(gòu)。
第一部分 對“數(shù)據(jù)”的描述性分析
數(shù)據(jù)分析中最常規(guī)的情況染苛,比如你手上有一組鹊漠,一批或者一坨數(shù)據(jù),數(shù)據(jù)分析的過程就是通過“描述”從這些數(shù)據(jù)中獲取的信息,通城牛可以從兩個維度去描述:
1.集中趨勢量度: 為這批數(shù)據(jù)找到它們的“代表”
均值(μ)
均值的局限性
均值是最常用的平均數(shù)之一登钥,但是它的局限性在于“若用均值描述的數(shù)據(jù)中存在異常值的情況,會產(chǎn)生偏差” 娶靡;例如下面一組數(shù)據(jù)就不太適合用均值來代表
這5個人的年齡均值是:31.2歲
很顯然牧牢,在這組數(shù)據(jù)中,大部分人的年齡是10幾歲的青少年姿锭,但是E的年齡是100歲為異常值结执,用均值來描述他們的年齡是31.2歲,很顯然用均值作為描述這組數(shù)據(jù)是不合適的艾凯,那么我們該如何準(zhǔn)確的表征這組數(shù)據(jù)呢献幔??趾诗?
中位數(shù)
中位數(shù)蜡感,又稱中點(diǎn)數(shù),中值恃泪。是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)郑兴。
中位數(shù)的局限
回到上一個例子,若用中位數(shù)來表征這組數(shù)據(jù)的平均年齡贝乎,就變得更加合理情连,中位數(shù)15。
那么我們在看一下下面一組數(shù)據(jù)览效,中位數(shù)的表現(xiàn)又如何却舀?
中位數(shù):45
這組數(shù)據(jù)的中位數(shù)為:45,但是中位數(shù)45并不能代表這組數(shù)據(jù)锤灿。
因?yàn)檫@組數(shù)據(jù)分為兩批挽拔,兩批的差異很大。那么如何處理這類數(shù)據(jù)呢但校?接下來介紹第三位平均數(shù)螃诅。
眾數(shù)
眾數(shù)是樣本觀測值在頻數(shù)分布表中頻數(shù)最多的那一組的組中值。平均數(shù)可以表征一批數(shù)據(jù)的典型值状囱,但是僅憑平均數(shù)還不能給我們提供足夠的信息术裸,平均數(shù)無法表征一組數(shù)據(jù)的分散程度。
2.分散性與變異性的量度
(全距亭枷,迷你距袭艺,四分位數(shù),標(biāo)準(zhǔn)差奶栖,標(biāo)準(zhǔn)分)
全距=max-min
全距也叫“極差”極差匹表。它是一組數(shù)據(jù)中最大值與最小值之差⌒桑可以用于度量數(shù)據(jù)的分散程度袍镀。
全距的局限性全距
雖然求解方便快捷,但是它的局限性在于“若數(shù)據(jù)中存在異常值的情況冻晤,會產(chǎn)生偏差苇羡。為了擺脫異常值帶來的干擾,比如我們看一下下面的兩組數(shù)據(jù)鼻弧。只是增加了一個異常值设江,兩組數(shù)據(jù)的全距產(chǎn)生了巨大的差異。
四分位數(shù)
所有觀測值從小到大排序后四等分攘轩,處于三個分割點(diǎn)位置的數(shù)值就是四分位數(shù):Q1叉存,Q2和Q3。
Q1:第一四分位數(shù) (Q1)度帮,又稱“較小四分位數(shù)”歼捏,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
Q2:第二四分位數(shù) (Q2)笨篷,又稱“中位數(shù)”瞳秽,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
Q3:第三四分位數(shù) (Q3)率翅,又稱“較大四分位數(shù)”练俐,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
迷你距 也叫“四分位距”
迷你距冕臭。它是一組數(shù)據(jù)中較小四分位數(shù)與較大四分位數(shù)之差腺晾。
即:迷你距= 上四分位數(shù) - 下四分位數(shù)迷你距可以反映中間50%的數(shù)據(jù),如果出現(xiàn)了極大或極小的異常值辜贵,將會被排除在中心數(shù)據(jù)50%以外丘喻。因此使用迷你距可以剔除數(shù)據(jù)中異常值。
全距念颈,四分位距泉粉,箱形圖可以表征一組數(shù)據(jù)極大和極小值之間的差值跨度,一定程度上反應(yīng)了數(shù)據(jù)的分散程度榴芳,但是卻無法精準(zhǔn)的告訴我們嗡靡,這些數(shù)值具體出現(xiàn)的頻率,那么我們該如何表征呢窟感?
我們度量每批數(shù)據(jù)中數(shù)值的“變異”程度時讨彼,可以通過觀察每個數(shù)據(jù)與均值的距離來確定,各個數(shù)值與均值距離越小柿祈,變異性越小數(shù)據(jù)越集中哈误,距離越大數(shù)據(jù)約分散哩至,變異性越大。方差和標(biāo)準(zhǔn)差就是這么一對兒用于表征數(shù)據(jù)變異程度的概念蜜自。
方差
方差是度量數(shù)據(jù)分散性的一種方法菩貌,是數(shù)值與均值的距離的平方數(shù)的平均值。
標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差為方差的開方重荠。
通過方差和標(biāo)準(zhǔn)差我們現(xiàn)在可以表征一組數(shù)據(jù)的數(shù)值的變異程度箭阶。那么對于擁有不同均值和不同標(biāo)準(zhǔn)差的多個數(shù)據(jù)集我們?nèi)绾伪容^呢?
標(biāo)準(zhǔn)分——表征了距離均值的標(biāo)準(zhǔn)差的個數(shù)
標(biāo)準(zhǔn)分為我們提供了解決方法戈鲁,**當(dāng)比較均值和標(biāo)準(zhǔn)差各不相同的數(shù)據(jù)集時仇参,我們可以把這些數(shù)值視為來自同一個標(biāo)準(zhǔn)的數(shù)據(jù)集,然后進(jìn)行比較婆殿。
標(biāo)準(zhǔn)分將把每一個數(shù)據(jù)集轉(zhuǎn)化為通用的分布形態(tài)诈乒,進(jìn)行比較。標(biāo)準(zhǔn)分還有個重要的作用婆芦,它可以把正態(tài)分布變?yōu)闃?biāo)準(zhǔn)正態(tài)分布抓谴,后文會有介紹。
第一部分小節(jié)
- 描述一批數(shù)據(jù)寞缝,通過集中趨勢分析癌压,找出其“代表值” ;通過分散和變異性的描述荆陆,查看這批數(shù)據(jù)的分散程度滩届。
- 集中趨勢參數(shù):均值,中位數(shù)被啼,眾數(shù)帜消。
- 分散性和變異性參數(shù) : 全距,四分位距浓体,方差泡挺,標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)分命浴。
第二部分 關(guān)于“事件”的研究分析
概率論
1.一個事件的情況
為了讓讀者更好理解娄猫,筆者概率論中最核心的概念以及概念之間彼此的關(guān)系繪制成了下圖,那么接下來筆者開始“講故事”了生闲。
事件:有概率可言的一件事情媳溺,一個事情可能會發(fā)生很多結(jié)果,結(jié)果和結(jié)果之間要完全窮盡碍讯,相互獨(dú)立悬蔽。
概率:每一種結(jié)果發(fā)生的可能性。所有結(jié)果的可能性相加等于1捉兴,也就是必然PАB加铩!
概率分布:我們把事件和事件所對應(yīng)的概率組織起來禾乘,就是這個事件的概率分布澎埠。概率分布可以是圖象,也可以是表格盖袭。如下圖1和表2都可以算是概率分布!
期望:表征了綜合考慮事情的各種結(jié)果和結(jié)果對應(yīng)的概率后這個事情的綜合影響值失暂。(一個事件的期望彼宠,就是代表這個事件的“代表值”,類似于統(tǒng)計(jì)里面的均值)
方差:表征了事件不同結(jié)果之間的差異或分散程度。
2.細(xì)說分布
理想很豐滿膜廊,現(xiàn)實(shí)很骨感苇本。真實(shí)的生活中別說去算一個事件的期望,即使把這個事件的概率分布能夠表述完整摧冀,每個事件對應(yīng)的概率值得出來就已經(jīng)是一件了不起的事情了倍踪。
因此,為了能更快更準(zhǔn)確的求解出事件的概率分布索昂,當(dāng)某些事件建车,滿足某些特定的條件,那么我們可以直接根據(jù)這些條件椒惨,來套用一些固定的公式缤至,來求解這些事件的分布,期望以及方差康谆。
“離散型”數(shù)據(jù)和“連續(xù)性”數(shù)據(jù)差異
在我們展開分布的知識之前领斥,先補(bǔ)充一個預(yù)備知識,什么是離散數(shù)據(jù)沃暗,什么是連續(xù)數(shù)據(jù)月洛,它們二者之間有什么差異?
離散數(shù)據(jù): 一個粒兒孽锥,一個粒兒的數(shù)據(jù)就是離散型數(shù)據(jù)嚼黔。
連續(xù)數(shù)據(jù):一個串兒,一個串兒的數(shù)據(jù)就是連續(xù)型數(shù)據(jù)惜辑。
其實(shí)上述描述并沒有錯誤隔崎,離散型和連續(xù)型數(shù)據(jù)是一對相對概念,同樣的數(shù)據(jù)既可能是離散型數(shù)據(jù)韵丑,又可能是連續(xù)型數(shù)據(jù)爵卒。判別一個數(shù)據(jù)是連續(xù)還是離散最本質(zhì)的因素在于, 一個數(shù)據(jù)組中數(shù)據(jù)總體的量級和數(shù)據(jù)粒度之間的差異撵彻。差異越大越趨近于連續(xù)型數(shù)據(jù)钓株,差異越小越趨近于離散型數(shù)據(jù)实牡。
舉個例子
人這個單位,對于一個家庭來說轴合,就離散型數(shù)據(jù)创坞,一個家庭可能有 3個人,4個人受葛,5個人....等等题涨。
對于一個國家來說,就是連續(xù)型數(shù)據(jù)总滩,我們的國家有14億人口纲堵,那么以個人為單位在這個量級的數(shù)據(jù)群體里就是連續(xù)型數(shù)據(jù)。
清楚了離散型和連續(xù)型數(shù)據(jù)的差異闰渔,我們接下來一塊科普這幾種常用的特殊分布席函。
離散型分布
離散數(shù)據(jù)的概率分布,就是離散分布冈涧。這三類離散型的分布茂附,在“0-1事件”中可以采用,就是一個事只有成功和失敗兩種狀態(tài)督弓。
連續(xù)型分布
連續(xù)型分布本質(zhì)上就是求連續(xù)的一個數(shù)據(jù)段概率分布营曼。
正態(tài)分布
f(x)----是該關(guān)于事件X的概率密度函數(shù)
μ--- 均值
σ^2---方差
σ---標(biāo)準(zhǔn)差
綠色區(qū)域的面積---該區(qū)間段的概率
正態(tài)分布概率的求法
step1--- 確定分布和范圍 ,求出均值和方差
step2--- 利用標(biāo)準(zhǔn)分將正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布 (還記得 第一部分的標(biāo)準(zhǔn)分嗎愚隧?)
step3---查表找概率
離散型分布 → 正態(tài)分布 (離散分布轉(zhuǎn)化為正態(tài)分布)
精彩的地方在這里蒂阱,筆者已經(jīng)闡述了連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)是一對相對的概念,那么這就意味著在某種“邊界”條件下奸攻,離散型分布和連續(xù)型分布之間是可以相互轉(zhuǎn)化的蒜危。進(jìn)而簡化概率分布的計(jì)算。這里筆者不在偷懶直接上皂片了
3. 多個事件的情況:“概率樹”和“貝葉斯定理”
多個事件就要探討事件和事件之間的關(guān)系
對立事件:如果一個事件睹耐,A’包含所有A不包含的可能性辐赞,那么我們稱A’和A是互為對立事件
窮盡事件:如何A和B為窮盡事件,那么A和B的并集為1
互斥事件:如何A和B為互斥事件硝训,那么A和B沒有任何交集
獨(dú)立事件:如果A件事的結(jié)果不會影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件响委。例子:10個球,我隨機(jī)抽一個窖梁,放回去還是10個球赘风,第二次隨機(jī)抽,還是10選1,那么第一次和第二次抽球的事件就是獨(dú)立的纵刘。
相關(guān)事件:如果A件事的結(jié)果會影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件邀窃。例子:10個球,我隨機(jī)抽一個假哎,不放回去還是10個球瞬捕,第二次隨機(jī)抽是9選1鞍历,那么第一次和第二次抽球的事件就是相關(guān)的。
條件概率(條件概率肪虎,概率樹劣砍,貝葉斯公式)
條件概率代表:已知B事件發(fā)生的條件下,A事件發(fā)生的概率
概率樹 --- 一種描述條件概率的圖形工具扇救。
假設(shè)有個甜品店刑枝,顧客買甜甜圈的概率是3/4 ;不買甜甜圈直接買咖啡的概率是1/3 迅腔;同時買咖啡和甜甜圈概率是9/20装畅。
從圖中我們可以發(fā)現(xiàn)以下兩個信息
1. 顧客買不買甜甜圈可以影響喝不喝咖啡的概率,所以事件甜甜圈與事件咖啡是一組相關(guān)事件
2. 概率樹每個層級分支的概率和都是1
貝葉斯公式 ----提供了一種計(jì)算逆條件概率的方法貝葉斯公式用于以下場景钾挟,當(dāng)我們知道A發(fā)生的前提下B發(fā)生的概率洁灵,
我們可以用貝葉斯公式來推算出B發(fā)生條件下A發(fā)生的概率饱岸。
第二部分小節(jié)
- 事件掺出,概率,概率分布之間的關(guān)系
- 期望苫费,方差的意義
- 連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)之間的區(qū)別和聯(lián)系
- 幾何分布汤锨,二項(xiàng)分布,泊松分布百框,正態(tài)分布闲礼,標(biāo)準(zhǔn)正態(tài)分布
- 離散分布和正態(tài)分布可以轉(zhuǎn)化
- 多個事件之間的關(guān)系,相關(guān)事件和獨(dú)立事件铐维,條件概率和貝葉斯公式
第三部分 關(guān)于“小樣本”預(yù)測“大總體”
現(xiàn)實(shí)生活中柬泽,總體的數(shù)量如果過于龐大我們無法獲取總體中每個數(shù)據(jù)的數(shù)值,進(jìn)行對總體的特征提取進(jìn)而完成分析工作嫁蛇。那么接下來就用到了本章節(jié)的知識锨并。
1.抽取樣本
總體:你研究的所有事件的集合;
樣本:總體中選取相對較小的集合睬棚,用于做出關(guān)于總體本身的結(jié)論第煮;
偏倚:樣本不能代表目標(biāo)總體,說明該樣本存在偏倚抑党;
簡單隨機(jī)抽樣:隨機(jī)抽取單位形成樣本包警。
分成抽樣:總體分成幾組或者幾層,對每一層執(zhí)行簡單隨機(jī)抽樣
系統(tǒng)抽樣:選取一個參數(shù)K底靠,每到第K個抽樣單位害晦,抽樣一次。
2.預(yù)測總體(點(diǎn)估計(jì)預(yù)測暑中,區(qū)間估計(jì)預(yù)測)
點(diǎn)估計(jì)量--- 一個總參數(shù)的點(diǎn)估計(jì)量就是可用于估計(jì)總體參數(shù)數(shù)值的某個函數(shù)或算式壹瘟。
場景1: 樣本無偏的情況下苟呐,已知樣本,預(yù)測總體的均值俐筋,方差牵素。
(1) 樣本的均值 = 總體的估算均值(總體均值的點(diǎn)估計(jì)量) ≈ 總體實(shí)際均值(誤差是否可接受)
(2)總體方差 估計(jì)總體方差
場景2:已知總體,研究抽取樣本的概率分布比例抽樣分布:
考慮從同一個總體中取得所有大小為n的可能樣本澄者,由這些樣本的比例形成一個分布笆呆,這就是“比例抽樣分布”。樣本的比例就是隨機(jī)變量粱挡。
舉個栗子:已知所有的糖球(總體)中紅色糖球比例為0.25赠幕。從總體中隨機(jī)抽n個糖球,我們可以求用比例抽樣分布求出這n個糖球中對應(yīng)紅球各種可能比例的概率询筏。
樣本均值分布:考慮同一個總體中所有大小為n的可能樣本榕堰,然后用這個樣本的均值形成分布,該分布就是“樣本均值分布” 嫌套,樣本的均值就是隨機(jī)變量逆屡。
中心極限定理:如果從一個非正態(tài)總體X中抽出一個樣本,且樣本極大(至少大于30)踱讨,則圖片.png的分布近似正態(tài)分布魏蔗。
區(qū)間估計(jì)量--- 點(diǎn)估計(jì)量是利用一個樣本對總體進(jìn)行估計(jì),區(qū)間估計(jì)是利用樣本組成的一段區(qū)間對樣本進(jìn)行估計(jì)痹筛。
舉個栗子:今天下午3點(diǎn)下雨莺治;今天下午3點(diǎn)到4點(diǎn)下雨。如果我們的目的是為了盡可能預(yù)測正確帚稠,你會使用那句話術(shù)谣旁?
如何求置信區(qū)間?(這里筆者講一下思路滋早,不畫圖碼公式了榄审,讀者有興趣可以查閱一下教材)
求置信區(qū)間簡便公式(直接上皂片)關(guān)于C值參數(shù):置信水平 90% C=1.64 , 95% C=1.96 馆衔, 99% C=2.58
待補(bǔ)充知識一(t分布)
我們之前的區(qū)間預(yù)測有個前提瘟判,就是利用了中心極限定理,當(dāng)樣本量足夠大的時候(通常大于30)角溃,均值抽樣分布近似于正態(tài)分布拷获。若樣本量不夠大呢?這是同樣的思路减细,只是樣本均值分布將近似于另一種分布處理更加準(zhǔn)確匆瓜,那就是t分布。這里筆者直接放張圖,不做拓展了驮吱。
待補(bǔ)充知識二(卡方分布)----
注意待補(bǔ)充不代表不重要茧妒,是筆者水平有限,目前還不能用簡單的語言概述其中的精髓左冬。
卡方分布的定義
若n個相互獨(dú)立的隨機(jī)變量ξ桐筏、ξ、……拇砰、ξn 梅忌,均服從標(biāo)準(zhǔn)正態(tài)分布,則這n個服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量除破,其分布規(guī)律稱為卡方分布牧氮。
卡方分布的應(yīng)用場景
用途1:用于檢驗(yàn)擬合優(yōu)度。也就是檢驗(yàn)一組給定的數(shù)據(jù)與指定分布的吻合程度瑰枫;
用途2:檢驗(yàn)兩個變量的獨(dú)立性踱葛。通過卡方分布可以檢查變量之間是否存在某種關(guān)聯(lián):
3.驗(yàn)證結(jié)果(假設(shè)檢驗(yàn))
假設(shè)檢驗(yàn)是一種方法用于驗(yàn)證結(jié)果是否真實(shí)可靠。具體操作分為六個步驟光坝。
兩類錯誤---即使我們進(jìn)行了“假設(shè)檢驗(yàn)”依然無法保證決策是百分百正確的尸诽,會出現(xiàn)兩類錯誤
第一類錯誤: 拒絕了一個正確的假設(shè),錯殺了一個好人
第二類錯誤:接收了一個錯誤的假設(shè)教馆,放過了一個壞人
第三部分小節(jié)
- 無偏抽樣
- 點(diǎn)估計(jì)量預(yù)測(已知樣本預(yù)測總體逊谋,已知總體預(yù)測樣本)
- 區(qū)間估計(jì)量預(yù)測(求置信區(qū)間)
- 假設(shè)檢驗(yàn)
第四部分 相關(guān)與回歸(y=ax+b)
這里介紹的相關(guān)和回歸是關(guān)于二維雙變量的最簡單最實(shí)用的線性回歸擂达,非線性回歸這里不暫不做拓展土铺。
散點(diǎn)圖:顯示出二變量數(shù)據(jù)的模式。
相關(guān)性:變量之間的數(shù)學(xué)關(guān)系板鬓。
線性相關(guān)性 :兩個變量之間呈現(xiàn)的直線相關(guān)關(guān)系悲敷。
最佳擬合直線:與數(shù)據(jù)點(diǎn)擬合程度最高的線。(即每個因變量的值與實(shí)際值的誤差平方和最屑罅睢)
誤差平方和SSE:
線性回歸法:求最佳擬合直線的方法(y=ax+b)后德,就是求參數(shù)a和b
斜率a公式:
b公式:
相關(guān)系數(shù)r:表征描述的數(shù)據(jù)與最佳擬合線偏離的距離。(r=-1完全負(fù)相關(guān)抄腔,r=1完全正相關(guān)瓢湃,r=0不相關(guān))
r公式:
結(jié)束語
筆者這里梳理了統(tǒng)計(jì)與概率學(xué)最基礎(chǔ)的概念知識,盡量闡述清楚這些概念知識之間關(guān)聯(lián)的關(guān)系赫蛇,以及應(yīng)用的場景绵患。底層概念是上層應(yīng)用的基礎(chǔ),當(dāng)今浮躁的“機(jī)器學(xué)習(xí)”悟耘,“神經(jīng)網(wǎng)絡(luò)”落蝙,“AI自適應(yīng)”這些高大上的關(guān)鍵字滿天飛。筆者認(rèn)為踏踏實(shí)實(shí)的把“基礎(chǔ)”打扎實(shí),才是向上發(fā)展的唯一途徑筏勒。