2014年12月15日 星期一

統計學的歷史-6 (History of Statistics 6)

    以下的內容,都是我個人的意見啊
    自從1935年後,整個世界發生了很多的事,如:第I及第II次世界大戰,讓很多的事情都停頓了下來!1945年當第II次世界大戰完結後,統計學的發展可謂為當代統計學。我認為這時代的發展有如下的特點:

1.應用領域繼續擴闊和深化,幾乎各理工的領域、教育、心理等都有相關的科目及研究;而且在科研方法學上可被稱為基柱之一:科研方法有質性研究和量性研究之分;而量性研究,尤其是健康科學的研究,除統計學外,另一基柱是流行病學;
2.統計方法結合實際的情況而變得多樣化,如:HLM(多層次模型)SEM(結構線性模型)、降維分析
3.結合電腦的發展,統計在使用上普及化,如:統計軟件有SASSPSSSTATAR等;而統計方法也深度化,如:GLM(廣義線性模型)及各種回歸分析方法
4.突破經典統計學的限制,如:突破正態分佈的限制的貝葉斯分析、突破樣本量限制或趨向大數據時代的數據挖掘、機器學習分析。

    …將來的統計學如何發展?我真的不知道,因我不是“先知”!唯有將現在的統計學學得更融會貫通

2014年12月12日 星期五

統計學的歷史-5 (History of Statistics 5)

    接著是近代統計學歷史啦,應由1907-1935年作為界線,被稱為“現代統計學理論的建立”。
    至於這個時期的特點??? (于忠義老師沒有明確提到,但引述了一位統計學術史專家的意見) 認為統計推斷究其發展過程有3次革命:
1. 1774-1786Laplace關於逆概率的研究 (但我個人認為,這逆概率應歸功於Thomas Bayes貝葉斯,Laplace只是將其深化)
2. 1809-1828LaplaceGauss建立以最小二乘法的線性模型理論;
3. 1912-1935Fisher等以參數的統計推斷為主的現代統計學基本理論的形成。
Gosset (又名:學生)是t檢驗的發明者
    所以這個時期應是第3點為特色!


W. S. Gosset (筆名叫:Student) 發表的《均值的或然誤差》中認為μα/2只是樣本量趨於無限大的近似值,但:
真正的概率P(|(mean-μ)/(s/n)|≦μα/2)到底是幾多?
統計量t=(mean-μ)/(s/n)分佈是點樣?
同標準正態分佈的差距又是幾多?
如果是大樣本或普查,用正態分佈及中心極限定理解決問題還可以;但如果研究性質是實驗性的,或是小樣本研究的,就不適合了!而Studentt分佈就解決了小樣本統計推斷問題,咁又被尊為“小樣本理論的鼻祖”啦~~~
Fisher(漁夫先生),你真是我的偶像
R. A. FisherGosset的亦徒弟亦友,他可稱為統計學的偉人,貢獻主要有3點:
    1/發表的《理論統計學的數學基礎》及《統計估計原理》奠定了現代統計學的數學框架;
    2/他在Rothamasted農場工作時,發展了試驗設計的思想,並發表了《實驗設計》一書;
    3/並由試驗設計發展出方差分析的基礎。
E. S. PearsonK. Pearson的仔,與Jerzy Neyman提出了N-P理論,也是統計推斷的“另一面”理論,據聞由此引起了與Fisher的沖突;而Neyman自己亦提出了可信區間的估計方法。


    至此,古典的統計學基本成形,亦即是基礎統計學;隨後統計學的發展多模多樣,如:繼續向其他領域的延伸、高等統計學的發展、結合電腦讓統計普及化及複雜化等

2014年12月11日 星期四

統計學的歷史-4 (History of Statistics 4)

    話咁快!又到了統計學的第三階段,即1827-1907年的“統計學應用領域的拓展及在遺傳學領域的突破”階段。這時期的主要等點就是計在應用領域的不斷擴展,尤其是在遺傳學方面明顯

L. A. J. Quetelet將統計應用到社會學上,咁就得咗個“社會統計學之父”的稱謂,並提出了著名的“平均人”概念;
Poisson應用到司法審判中,也提出了著名的“泊松分佈”;
F. Galton應用到遺傳學,他著名的論文《身高遺傳向普通回歸》是統計學歷史的另一里程碑,另一論文《相關及其度量──主要來自人類學的數據》明確給出了相關系數的定義,及利用348名成年男子的身體數據計算相關系數;
據說他就是F. Galton,他的興趣領域很多,且著作甚豐。但在遺傳統計方面最為突出。
他就是老皮爾遜,其實他的卡定檢驗對往後的統計也有很大的影響。
F. Y. Edgeworth證明在多元正態分佈的條件下,條件期望與線性回歸的等價性,還給出多元正態分佈密度函數的矩陣形式的表達式;
K. Pearson對回歸分析做了更清晰的整理及廣泛地應用到生物學領域,也提出了擬合優度χ2檢驗
Yule證明在數據標準化後,利用最小二乘法得到的回歸系數與相關系數等價,提出了複相關及偏相關系數的概念,引入了標準的多元回歸符號。


    其實這時期除了是對統計推斷繼續作補充外,更重要的是回歸統計的建立及完全;也為日後的線性方程埋下伏筆,如:方差分析、廣義線性模型,其他形式的回歸模型


2014年12月10日 星期三

統計學的歷史-3 (History of Statistics 3)

    統計學的第二個階段,是由1750-1827年,被稱為“推斷統計的興起”。其實由這個名稱可知:第一階段主要是統計描述的建立及實踐,而第二階段是開始統計推斷
    這個時期有如下的主要特點:
1.概率論繼續發展;
2.線性方程組中未知量的求解;
3.將古典概率由賭博研究轉到科學的研究去。

T. Simpson發表了《論在天文學的實踐中對若干觀測數據取平均值的好處》,開啟了觀測誤差理論研究的先河;
Thomas Bayes(貝葉斯)的遺作《機遇理論中一個問題的解》,建立了逆概率理論,即貝葉斯統計方法
Pierre Simon Laplace重新發現逆概率原理,並解決了天文學的觀測誤差問題;最後也發現了更一般形式的中心極限定理;也是倡導抽樣調查的第一人。
A. M. Legendre提出了最小二乘法(也稱:最小平方法),彻底解決了求解方程組中個數多於未知量的問題;
C. F. Gauss論證了誤差項服從正態分佈的,也證明後驗概率與最小二乘法是等價的。
正態分佈(也稱為:高斯分佈),
德國為記念他,在德國馬克10元上印上他的樣;
旁邊有正態分佈的圖和公式呢!

  簡單地說,中心極限定理及正態分佈是古典統計學內,統計推斷的前題!若不符合中心極限定理,就提示數據可能是偏態分佈或性質不穩定、統計效能也稍遜;而不符合正態分佈,統計推斷就要用“非參數檢驗(Non parametric test)”了。而貝葉斯統計則是繞過這些概定的“前題”,使用先驗值作為前題作推斷(但多年受到評激啊)… 哈哈!很好玩

2014年12月9日 星期二

統計學的歷史-2 (History of Statistics 2)

    依據于忠義老師的文章界定,第1個時期是由1654-1750,號稱為“萌芽中的統計學”;這個時期有幾個特點:
1.概率概念的形成;
2.早期若干個數據分析的實例;
3.很大程度受宗教信仰的驅使---證明上帝是存在,上帝留下的東西是確定的。
    其實很多人教知道,古典統計學是建基於概率論的,而概率論又是來自於賭博。自文藝復興後,隨“賭本分配”的問題研究和解決,開始了概率論
B. PascalPierre de Fermat:法國數學家,被公認為概率論的奠基人
Bernoulli的遺作《推測的藝術》,是概率論的第一里程碑,證明了大數定律,提出概率及有把握確定的概念;
據說他就是Bernoulli
De Moivre的《機遇理論》:中心極限定理;
Graunt的《關於死亡公報的自然與政治的觀察》:是統計學的第一里程碑;Graunt被稱為“現代統計學之父”。形成3個分支:
        1.政治算術:William Petty提出國民收入,寫出《政治算術》;
                               Gregory King是現代國民核算理論先驅;
        2.壽險數學
        3.性別比率的穩定性檢驗:J. Arbuthnot的《神定法則:男女出生性別比例恒定的規律性》,被認為是現代假設檢驗理論的最早起源。

Graunt的觀察

這是Graunt觀察內的表---可能是世界上最早的Life table


2014年12月5日 星期五

統計學的歷史-1 (History of Statistics 1)

    有時很想知道現在統計學的總體發展現況,以及它將來的去向,因為這樣就可以朝著一個方向發展自己的事業。但是!查找過些書,也看過些網頁,都很少論述和/或給出一個統計學將來發展的“宏圖”既然是這樣,倒不如反過來讀讀統計學的歷史,看看有沒有所啟迪。
    其實在之前也過了一些統計學歷史的短文章,大多都是談近代的,也以趣味性為主;之後也讀過如:
1. C. R. . 統計與真理:怎樣運用偶然性(網路上找的)
    不太好,因為翻譯的不好,閱讀性稍欠佳。
2.陳希孺. 數理統計學小史. 數理統計與管理.
    可能陳院士是數學出身的,所以該系列文章有很多數學的推導,文字也較晦澀難懂 (可能是我不是數學出身的吧!哈哈…)

    結果在早前閱讀其他文章的時候,得悉于忠義先生的《簡明統計學術史綱要》,便在互聯網下載來看看它以時間軸為主導,將統計學分開了四個時間,指出了各期的重要人物、著作及特點等,給了較清晰的統計學歷史思路
    四個時期分別為:
1.萌芽中的統計學(1654-1750)
2.推斷統計的興起(1750-1827)
3.統計學應用領域的拓展及在遺傳學領域的突破(1827-1907)
4.現代統計學理論的建立(1907-1935)

2014年12月4日 星期四

大數據與公共衛生 (Big Data and Public Health)

昨晚讀了一篇相關的文章

    我並沒有正式地學過什麼是大數據 (Big Data)”;但這一兩年,當逛書店時也會發覺相關的書籍湧現,曾翻了一翻,但大多是說些相關內容外,很多就是談談現在很多大數據的來源,如:網絡的溝通軟件、購物數據等;更多地感到是小說形式地介紹。其次,我在學習某些統計軟件的內容及過程中,也偶有提及小許,如在學習SPSSClementine(Data mining)R軟件的機器學習(machine learning)SASEnterprise MinerPython
    據互聯網的資料介紹,大數據是:由巨型資料集組成,這些資料集大小常超出人類在可接受時間下的收集、使用、管理和處理能力。大數據的大小經常改變,截至2012年,單一資料集的大小從數兆位元組(TB)至數十兆億位元組(PB)不等
    據聞,現在有些溝通軟件,如:FaceBook;網路搜尋器,如:Google;網路購物站,如:淘寶等;動輒每天收集或處理的數據量,已是大數據。而在健康科學和/或公共衛生方面,人類基因庫資料、某些癌症的歷年數據等,都是大數據庫資料;我個人預言,隨著人類的溝通和聯繫方式漸趨發達,大數據時代已是來臨了,且只會越來越大呢~~~
    然而隨著大數據的收集及片刻使用過後,餘下來的數據又是如何處理?其餘這些都是很好的科研數據可以從中挖掘出很多有用的訊息來,以助人認識及了解某些新現象!如經典的例子就是:超市男人買嬰兒尿片及啤酒... 在生物醫學界,如癌症和基因靶位的確立等等
    大數據的分析,目前常用的軟件都是以上提及的為多,各軟件有其優點與不足之處,如處理數據的量及快慢、免費或商業軟件等;而分析的方法都不外符是:數據總結、分類、關聯性、聚類等
    有很多人都說:誰掌握了大數據,誰就掌握了未來!我部份認用,因為數據有助於決策,更了解現實,預測未來;然而大數據也有其注意之處,如:
1.大資料本身是觀察性資料,存在著很多偏倚,例如選擇偏倚、混雜變數和缺乏普遍性需要建立一個更強大的流行病學研究基礎
2.數據處理過程中獲得大量的知識,而同時也必須建立一種方法來整合這些知識
3.大資料只是一個形成假設的工具,即便證實了一個強有力的關聯,我們仍然需要圍繞著循證醫學的原則來開展這些檢驗工作
4.對大資料分析中的初期研究發現進行拓展。

    公共衛生本身是一門很講究科研方法的學科,除涉獵的範圍很廣外,要收集及處理的數據也很多,所以公共衛生將來也必會與大數據融合會有另一番要求和景象
 參考資料
1.Science:大数据遇上了公共卫生领域. http://www.bio360.net/news/show/12430.html
2.Muin J. Khoury and John P. A. Ioannidis. Big data meets public health. Science, 28 November 2014; DOI:10.1126/science.aaa2709