2014年12月15日 星期一

統計學的歷史-6 (History of Statistics 6)

    以下的內容,都是我個人的意見啊
    自從1935年後,整個世界發生了很多的事,如:第I及第II次世界大戰,讓很多的事情都停頓了下來!1945年當第II次世界大戰完結後,統計學的發展可謂為當代統計學。我認為這時代的發展有如下的特點:

1.應用領域繼續擴闊和深化,幾乎各理工的領域、教育、心理等都有相關的科目及研究;而且在科研方法學上可被稱為基柱之一:科研方法有質性研究和量性研究之分;而量性研究,尤其是健康科學的研究,除統計學外,另一基柱是流行病學;
2.統計方法結合實際的情況而變得多樣化,如:HLM(多層次模型)SEM(結構線性模型)、降維分析
3.結合電腦的發展,統計在使用上普及化,如:統計軟件有SASSPSSSTATAR等;而統計方法也深度化,如:GLM(廣義線性模型)及各種回歸分析方法
4.突破經典統計學的限制,如:突破正態分佈的限制的貝葉斯分析、突破樣本量限制或趨向大數據時代的數據挖掘、機器學習分析。

    …將來的統計學如何發展?我真的不知道,因我不是“先知”!唯有將現在的統計學學得更融會貫通

2014年12月12日 星期五

統計學的歷史-5 (History of Statistics 5)

    接著是近代統計學歷史啦,應由1907-1935年作為界線,被稱為“現代統計學理論的建立”。
    至於這個時期的特點??? (于忠義老師沒有明確提到,但引述了一位統計學術史專家的意見) 認為統計推斷究其發展過程有3次革命:
1. 1774-1786Laplace關於逆概率的研究 (但我個人認為,這逆概率應歸功於Thomas Bayes貝葉斯,Laplace只是將其深化)
2. 1809-1828LaplaceGauss建立以最小二乘法的線性模型理論;
3. 1912-1935Fisher等以參數的統計推斷為主的現代統計學基本理論的形成。
Gosset (又名:學生)是t檢驗的發明者
    所以這個時期應是第3點為特色!


W. S. Gosset (筆名叫:Student) 發表的《均值的或然誤差》中認為μα/2只是樣本量趨於無限大的近似值,但:
真正的概率P(|(mean-μ)/(s/n)|≦μα/2)到底是幾多?
統計量t=(mean-μ)/(s/n)分佈是點樣?
同標準正態分佈的差距又是幾多?
如果是大樣本或普查,用正態分佈及中心極限定理解決問題還可以;但如果研究性質是實驗性的,或是小樣本研究的,就不適合了!而Studentt分佈就解決了小樣本統計推斷問題,咁又被尊為“小樣本理論的鼻祖”啦~~~
Fisher(漁夫先生),你真是我的偶像
R. A. FisherGosset的亦徒弟亦友,他可稱為統計學的偉人,貢獻主要有3點:
    1/發表的《理論統計學的數學基礎》及《統計估計原理》奠定了現代統計學的數學框架;
    2/他在Rothamasted農場工作時,發展了試驗設計的思想,並發表了《實驗設計》一書;
    3/並由試驗設計發展出方差分析的基礎。
E. S. PearsonK. Pearson的仔,與Jerzy Neyman提出了N-P理論,也是統計推斷的“另一面”理論,據聞由此引起了與Fisher的沖突;而Neyman自己亦提出了可信區間的估計方法。


    至此,古典的統計學基本成形,亦即是基礎統計學;隨後統計學的發展多模多樣,如:繼續向其他領域的延伸、高等統計學的發展、結合電腦讓統計普及化及複雜化等

2014年12月11日 星期四

統計學的歷史-4 (History of Statistics 4)

    話咁快!又到了統計學的第三階段,即1827-1907年的“統計學應用領域的拓展及在遺傳學領域的突破”階段。這時期的主要等點就是計在應用領域的不斷擴展,尤其是在遺傳學方面明顯

L. A. J. Quetelet將統計應用到社會學上,咁就得咗個“社會統計學之父”的稱謂,並提出了著名的“平均人”概念;
Poisson應用到司法審判中,也提出了著名的“泊松分佈”;
F. Galton應用到遺傳學,他著名的論文《身高遺傳向普通回歸》是統計學歷史的另一里程碑,另一論文《相關及其度量──主要來自人類學的數據》明確給出了相關系數的定義,及利用348名成年男子的身體數據計算相關系數;
據說他就是F. Galton,他的興趣領域很多,且著作甚豐。但在遺傳統計方面最為突出。
他就是老皮爾遜,其實他的卡定檢驗對往後的統計也有很大的影響。
F. Y. Edgeworth證明在多元正態分佈的條件下,條件期望與線性回歸的等價性,還給出多元正態分佈密度函數的矩陣形式的表達式;
K. Pearson對回歸分析做了更清晰的整理及廣泛地應用到生物學領域,也提出了擬合優度χ2檢驗
Yule證明在數據標準化後,利用最小二乘法得到的回歸系數與相關系數等價,提出了複相關及偏相關系數的概念,引入了標準的多元回歸符號。


    其實這時期除了是對統計推斷繼續作補充外,更重要的是回歸統計的建立及完全;也為日後的線性方程埋下伏筆,如:方差分析、廣義線性模型,其他形式的回歸模型


2014年12月10日 星期三

統計學的歷史-3 (History of Statistics 3)

    統計學的第二個階段,是由1750-1827年,被稱為“推斷統計的興起”。其實由這個名稱可知:第一階段主要是統計描述的建立及實踐,而第二階段是開始統計推斷
    這個時期有如下的主要特點:
1.概率論繼續發展;
2.線性方程組中未知量的求解;
3.將古典概率由賭博研究轉到科學的研究去。

T. Simpson發表了《論在天文學的實踐中對若干觀測數據取平均值的好處》,開啟了觀測誤差理論研究的先河;
Thomas Bayes(貝葉斯)的遺作《機遇理論中一個問題的解》,建立了逆概率理論,即貝葉斯統計方法
Pierre Simon Laplace重新發現逆概率原理,並解決了天文學的觀測誤差問題;最後也發現了更一般形式的中心極限定理;也是倡導抽樣調查的第一人。
A. M. Legendre提出了最小二乘法(也稱:最小平方法),彻底解決了求解方程組中個數多於未知量的問題;
C. F. Gauss論證了誤差項服從正態分佈的,也證明後驗概率與最小二乘法是等價的。
正態分佈(也稱為:高斯分佈),
德國為記念他,在德國馬克10元上印上他的樣;
旁邊有正態分佈的圖和公式呢!

  簡單地說,中心極限定理及正態分佈是古典統計學內,統計推斷的前題!若不符合中心極限定理,就提示數據可能是偏態分佈或性質不穩定、統計效能也稍遜;而不符合正態分佈,統計推斷就要用“非參數檢驗(Non parametric test)”了。而貝葉斯統計則是繞過這些概定的“前題”,使用先驗值作為前題作推斷(但多年受到評激啊)… 哈哈!很好玩

2014年12月9日 星期二

統計學的歷史-2 (History of Statistics 2)

    依據于忠義老師的文章界定,第1個時期是由1654-1750,號稱為“萌芽中的統計學”;這個時期有幾個特點:
1.概率概念的形成;
2.早期若干個數據分析的實例;
3.很大程度受宗教信仰的驅使---證明上帝是存在,上帝留下的東西是確定的。
    其實很多人教知道,古典統計學是建基於概率論的,而概率論又是來自於賭博。自文藝復興後,隨“賭本分配”的問題研究和解決,開始了概率論
B. PascalPierre de Fermat:法國數學家,被公認為概率論的奠基人
Bernoulli的遺作《推測的藝術》,是概率論的第一里程碑,證明了大數定律,提出概率及有把握確定的概念;
據說他就是Bernoulli
De Moivre的《機遇理論》:中心極限定理;
Graunt的《關於死亡公報的自然與政治的觀察》:是統計學的第一里程碑;Graunt被稱為“現代統計學之父”。形成3個分支:
        1.政治算術:William Petty提出國民收入,寫出《政治算術》;
                               Gregory King是現代國民核算理論先驅;
        2.壽險數學
        3.性別比率的穩定性檢驗:J. Arbuthnot的《神定法則:男女出生性別比例恒定的規律性》,被認為是現代假設檢驗理論的最早起源。

Graunt的觀察

這是Graunt觀察內的表---可能是世界上最早的Life table


2014年12月5日 星期五

統計學的歷史-1 (History of Statistics 1)

    有時很想知道現在統計學的總體發展現況,以及它將來的去向,因為這樣就可以朝著一個方向發展自己的事業。但是!查找過些書,也看過些網頁,都很少論述和/或給出一個統計學將來發展的“宏圖”既然是這樣,倒不如反過來讀讀統計學的歷史,看看有沒有所啟迪。
    其實在之前也過了一些統計學歷史的短文章,大多都是談近代的,也以趣味性為主;之後也讀過如:
1. C. R. . 統計與真理:怎樣運用偶然性(網路上找的)
    不太好,因為翻譯的不好,閱讀性稍欠佳。
2.陳希孺. 數理統計學小史. 數理統計與管理.
    可能陳院士是數學出身的,所以該系列文章有很多數學的推導,文字也較晦澀難懂 (可能是我不是數學出身的吧!哈哈…)

    結果在早前閱讀其他文章的時候,得悉于忠義先生的《簡明統計學術史綱要》,便在互聯網下載來看看它以時間軸為主導,將統計學分開了四個時間,指出了各期的重要人物、著作及特點等,給了較清晰的統計學歷史思路
    四個時期分別為:
1.萌芽中的統計學(1654-1750)
2.推斷統計的興起(1750-1827)
3.統計學應用領域的拓展及在遺傳學領域的突破(1827-1907)
4.現代統計學理論的建立(1907-1935)

2014年12月4日 星期四

大數據與公共衛生 (Big Data and Public Health)

昨晚讀了一篇相關的文章

    我並沒有正式地學過什麼是大數據 (Big Data)”;但這一兩年,當逛書店時也會發覺相關的書籍湧現,曾翻了一翻,但大多是說些相關內容外,很多就是談談現在很多大數據的來源,如:網絡的溝通軟件、購物數據等;更多地感到是小說形式地介紹。其次,我在學習某些統計軟件的內容及過程中,也偶有提及小許,如在學習SPSSClementine(Data mining)R軟件的機器學習(machine learning)SASEnterprise MinerPython
    據互聯網的資料介紹,大數據是:由巨型資料集組成,這些資料集大小常超出人類在可接受時間下的收集、使用、管理和處理能力。大數據的大小經常改變,截至2012年,單一資料集的大小從數兆位元組(TB)至數十兆億位元組(PB)不等
    據聞,現在有些溝通軟件,如:FaceBook;網路搜尋器,如:Google;網路購物站,如:淘寶等;動輒每天收集或處理的數據量,已是大數據。而在健康科學和/或公共衛生方面,人類基因庫資料、某些癌症的歷年數據等,都是大數據庫資料;我個人預言,隨著人類的溝通和聯繫方式漸趨發達,大數據時代已是來臨了,且只會越來越大呢~~~
    然而隨著大數據的收集及片刻使用過後,餘下來的數據又是如何處理?其餘這些都是很好的科研數據可以從中挖掘出很多有用的訊息來,以助人認識及了解某些新現象!如經典的例子就是:超市男人買嬰兒尿片及啤酒... 在生物醫學界,如癌症和基因靶位的確立等等
    大數據的分析,目前常用的軟件都是以上提及的為多,各軟件有其優點與不足之處,如處理數據的量及快慢、免費或商業軟件等;而分析的方法都不外符是:數據總結、分類、關聯性、聚類等
    有很多人都說:誰掌握了大數據,誰就掌握了未來!我部份認用,因為數據有助於決策,更了解現實,預測未來;然而大數據也有其注意之處,如:
1.大資料本身是觀察性資料,存在著很多偏倚,例如選擇偏倚、混雜變數和缺乏普遍性需要建立一個更強大的流行病學研究基礎
2.數據處理過程中獲得大量的知識,而同時也必須建立一種方法來整合這些知識
3.大資料只是一個形成假設的工具,即便證實了一個強有力的關聯,我們仍然需要圍繞著循證醫學的原則來開展這些檢驗工作
4.對大資料分析中的初期研究發現進行拓展。

    公共衛生本身是一門很講究科研方法的學科,除涉獵的範圍很廣外,要收集及處理的數據也很多,所以公共衛生將來也必會與大數據融合會有另一番要求和景象
 參考資料
1.Science:大数据遇上了公共卫生领域. http://www.bio360.net/news/show/12430.html
2.Muin J. Khoury and John P. A. Ioannidis. Big data meets public health. Science, 28 November 2014; DOI:10.1126/science.aaa2709

2014年11月21日 星期五

學習著貝葉斯分析及其軟件WinBUGS (Studying Bayesian statistics and WinBUGS)

    其實我很早以前,就已知有貝葉斯分析這回事,但從來沒瞭解它的原理、用途及方法等
    隨著學統計的日子越久,開始對統計的認識越深;統計就似是一瓶美酒,懂得品嚐者很著迷,不懂者就怕那苦澀味而我也深知傳統的統計學有著各種各樣的限制與不足;如要符合概率論的、最好是大樣本量、正態分佈則最好等等但現實又豈只是僅有這些情況呢!?於是統計學家在各種變異的情況下研究出這樣那樣的解決辦法:非參數檢驗(Non parametric test)自助法(Bootstrap)、貝葉斯分析(Bayesian analysis)等等...

貝葉斯分析
    它是先驗信息+樣本信息--->根據貝葉斯定理--->後驗信息--->推斷未知參數
    據說這樣的理論,更符合人類的認知過程(!?)
因為需要高階計算,以往是很難實施的;但隨著電腦的發展、馬可夫蒙特卡羅方法(MCMC)及其相應軟件WinBUGS的完善,使其在近廿年有了很大的進展及應用。

WinBUGS的大概應用步驟
1.設計模型
2.DAG中建立Doodle模型 / 或輸入程式
DAG圖

3.Doodle模型 或輸入程式進行驗證:
    在程式中要 mode
    Model/Specification--->Check model
4.輸入數據:Model/Specification--->Load data
    可用新窗口建立:File/New;也可以用list(變項名=c(…))---R形式一樣
5.對模型進行編譯:Model/Specification--->Compile
6.對模型初始值設定:Model/Specification--->load inits
7.取得模型:Model/Specification--->gen?
8.設定要運算的變項:Inference/Sample--->node 選入要運算的變項 --->set
9.對變項/模型進行迭代:Model/update--->iterations 輸入迭代次數 --->update
10.輸出模型的結果:Inference/Sample--->node *(代表全部被選變項) --->stats / density…
11.判別模型收斂情況…???

    還有其他類似的軟件的, 比如:OpenBUGS... 但建議用WinBUGS較好, 因較穩定!

2014年11月20日 星期四

在科研界中弄虛作假,是會身敗名裂,甚至賠上性命的!(It will be lose all standing and reputation, even lose lives, if the research is deceptive.)

    在科研界弄虛作假,是存在於世界各地的!只是或多或少,或輕或重的差異矣。在近半年來,相關的新聞中尤以日本STAP細胞的研究---小保方晴子的最為關注。為此,她也付出了極大的代價:
1.不單現在她在科研界已是身敗名裂
2.其博士學位也幾乎掉了;
3.其導師也為此上吊自殺;
    是否值得呢?

2014年11月17日 星期一

一份統計比賽作品,有關澳門醫療的,值得一讀!(It is recommended to read a excellent work of a statistical competition which is about the medical situation of Macao CHINA)

    記得數年前,我作為一名市民觀看了由澳門統計暨普查局主辦的第一屆 學界統計作業比賽,當時的感覺很好;因為該局的數據基本都以版面的形式出版,除了常規的數字報表外,很少提供原始數據供外界分析之用。我們具統計知識者都知道,這些版面數據有其特有的統計方面,不可亂用其他統計方法處理,否則有很大的誤差;所以對於只有本科水平的同學,能利用這些數據作出統計描述,並能說明其中些現狀,已是不錯!
    第一屆的獲冠的主題是有關交通的、第二屆為樓宇的賣買,今年已是第三屆吧!?
    前天花了半天的時間閱讀了今年(2013)獲冠的作品,是有關澳門醫療的狀況分析,感到很不錯!因為內容都較全面,基本該局有關醫療衛生的數據都用上了;而且也提出了現時醫療衛生的薄弱環節,如:
1.本澳現時的醫護人力資料緊缺的情況;也給出了與「非經合高收入國家/地區」平均人資相差距的數目,可作為培訓及聘用時的參考;
2.醫療的實體措施及效率,在現在及將來可能有趕不上需求的現象
3.澳門在醫療公共衛生的科研資源投入是基符為
    當然,作品也有些可改善及優化之處:
1.能否更詳細的說明問題的原因
2.能否提出更具體、可行及可操作性的建議呢!
    但是!作為本科同學的作品,及估計是行外人,作品已是很優秀的了!也冀望相關機構能看到這份作品!改善不足之處呢


參考資料:澳門統計暨普查局, http://www.dsec.gov.mo/File/UStatContest/2013/Winner.aspx