2016年10月30日 星期日

偏態分佈資料的分析 (The analysis of Skewed distribution of data)

    近日有位不太熟識的"朋友", 在電郵中說道: 她正攻讀碩士, 已交了論文初稿, 其中第二位的論文評委反饋給她很多意見! (當然是不利的, 而我也知道她的論文---"很爛")!
    初步閱過她的評委意見, 我相信那評委是"奇人", 她對論文中的用詞和意思"咬文嚼字得很緊"(很執著)! 但對於統計部份, 給予了很奇怪的意見:

數據學術分析
中位數與平均數的合適使用。為何使用中位數?
為何使用Kruskal-Waillis 而不是ANOVA
為何使用Mann-Whitney U 而不是t test?

    在"朋友"進行統計分析之初, 她有詢問過我的意見:
1. 通常在進行統計分析之前, 基本可以先對變項劃些圖, 初步了解變項的分佈是如何, 如是正態分佈或偏態分佈? 這對於統計分析是很重要的...
2. 依據變項的性質, 是連續變項, 還是分類變項?
3. 分析的目的, 是僅作統計描述? 還是要作統計推斷? 在統計推斷中, 要兩組比較, 還是多組比較呢?...

    據我記得, 她的數據變項, 確是呈偏態分佈的. 所以建議她還是用"中位數"及"四分位數"作統計描述就好了! 而在作統計推斷時, 就用"非參數統計(無母數統計)"就好了...

    有時有人會說: 若抽樣出的樣本人數較多(>=30個人), 不就是符合"中央極限"定理, 所有的統計描述及推斷, 就可以用參數分析的方法(正態分佈的方法)么?
    誠言, 中央極限定理一般只常用於實驗室小樣本的抽㨾方法, 而且都是以往計算不方便的年代用的較多! 如果在人群的抽樣調查, 為了使樣本的代表性更好, 常會使用各種抽樣方法! 常經抽樣所得到的數據變項, 都是偏態分佈的! 這時若使用正態分佈的統計方法, 所得到的結果會大機會出現偏差...
    更何況現在的統計軟件都很方便, 使用"非參數分析"很靈活啦!
    該用非參數統計時就要用, 不要以中央極限定理作理由呢~

    經聯絡後得悉, 那位評委果然是"奇人", 是我認識多年的XXX副教授... 她對統計是... 一點都不通的...=.=!
如圖, 收入的調查常經抽樣後得到的結果, 都是偏態的! 若用正態分佈的均數描述, 就會與正確的偏態分佈中位數結果有偏差了...

2016年10月16日 星期日

澳門某大學圖書館的感受 (The feeling of a library in One Macao's university!)

    近期因參加某個機構的"科學研究與規劃"的課程, 有機會到澳門人引以為豪的某大學圖書館見識; 到了哪裡, 真的是環境較大, 設備較先進外! 並沒有感到硬件上與內地的圖書館有明顯差異. 然而在感覺上, 就有很大的感觸... 為什麼?

    兩次到那圖書館, 可能是都星期六早上? 又或是時間較早? 入館的人數不多, 只是寥寥無幾! 而且基本都是內地的學生在看書/自習... 澳門的學生??? 我相信見的不多... 心想: 真的很浪費!!! 澳門的學子啊! 有這麼好的環境, 都不好好珍惜, 有點... "為別人作了嫁衣裳"的感慨!

南方醫科大學的圖書館
    回想當年留在南方醫科大學讀博時, 每天早上吃過早餐後, 約8時許就要到圖書館呢~ 因為每天早上圖書館尚未開門前, 已有學生在門外等候. 若不早來一點, 要坐的座位位置都是些稍差的! 尤其到了考試的"那些日子" 更是如是"座無虛席"...

    在研究生的日子, 除了科室外, 最多的就是到圖書館; 甚至很多時候, 一坐就是數小時, 早午晚的研習.

 在南醫圖書館的日子
    記得那年的冬天, 天氣很冷, 當考試的日子完結, 圖書館內的學生人數漸減時, 更是研習的好時機: 一口氣地把「中華流行病學雜誌」由創刊期(約1985年)讀摘要到近期, 以了解中國流行病學的發展.
   
    那些日子不再了!~

    澳門的學子們, 努力吧~ 能讀書的日子不多...

2016年10月11日 星期二

偏態分布的數據, 進行組間比較及兩兩比較的方法 (The Statistical method of comparing many-groups and two groups of Skewed data)


    以SPSS軟件內附的數據庫 "1991 U.S. General Social Survey.sav"為例.
 
    若分組的計量資料是偏態分佈, 作組間比較時, 應要使用: 非參數檢驗中, 多獨立組數據的比較.

    如我們想分析不同地區的年齡是否有統計學上的差異, 假設該數據庫有兩變項: "地區", "年齡"; 而且年齡變項是偏態分佈的數據...

     通常結果會包含:
統計量是: Chi-square, 其實它是依Kruskal Wallis Test計算所得.


若是組間有統計學差異(如上圖p=0.004), 只說明組間中位數是不同的, 一般宜進行兩兩比較!

非參數變項的兩兩比較, 宜選用首幅圖的2 Independent Samples方法. 結果應如下:

解釋結果時要小心, 因是數組之間的比較, 所以p值要修正, p=0.05/比較組數;

如: 現在有3組間比較, p=0.05/3=0.017
現在結果的p=0.08>0.017, 拒絕H1, 兩組間無差異... 反之亦然...

2016年10月6日 星期四

資料的公開與使用 (The Using of Open data)

    近日, 從台灣的衛生福利部的網頁得悉: 為推廣傳染病開放資料更廣泛地使用, 他們辦了一個競賽, 而且是有獎金的.
    其實作為科研人, 我知道資料的時效性, 一般是5年為一期的!如:

1.參考的文獻, 最好在近5年發表的, 如果是5-10年內的文獻, 亦可參考. 但是超過10年的文獻, 就要考慮是否採用. 當然, 有些文獻是具有劃時代的、在該領域中具創新性的, 就另當別論!!! 如Doll & Hill 有關吸煙導致肺癌的病例對照研究 , Rathman等有關當代流行病學的研究... 這些"大牛"的文章都是很值得引用.
    另外, 個人建議, 文獻最好閱讀外國的, 因為若是經過翻譯的文獻, 大多已延遲數月之久, 而且有些人的翻譯, 實是不太好閱讀和理解!

2.如果是數據庫的話, 當然是盡早使用越好! 因為由數據處理及分析, 到發表文章, 在內地通常都要經過半年至一年之久, 1個數據庫, 要發表多些文章, 常要使用數年.
    但一般數據庫, 經過3數年, 已被稱為"陳舊"了! 超過5年的數據庫, 就很少用來發表文章, 只能常與新的數據庫作比較之用.

    與其將這些有用的資料束之高閣, 為何不把它釋放出來, 讓它仍在"保質期"中盡量發揮其價值所在!? 當然, 有些資料"可能"涉及到些敏感性內容, 如個人的人口學特徵. 但只要把它們去掉即可矣, 就如台灣現在開放的資料就是.
    我開啟過台灣疾病管制署的登革熱數據庫(csv文件), 基本已去除了人口學特徵的資料, 但仍可作一般的描述性統計, 時間及空間的分析.
   
    但我相信, 澳門離這個境界仍很遠! 不是在事, 而是在人...

參考資料:
1.疾病管制署. 「防疫Open Data應用高手過招競賽活動」正式開跑,歡迎箇中好手踴躍參加
http://www.mohw.gov.tw/news/572357190
2.http://data.gov.tw