2016年10月30日 星期日

偏態分佈資料的分析 (The analysis of Skewed distribution of data)

    近日有位不太熟識的"朋友", 在電郵中說道: 她正攻讀碩士, 已交了論文初稿, 其中第二位的論文評委反饋給她很多意見! (當然是不利的, 而我也知道她的論文---"很爛")!
    初步閱過她的評委意見, 我相信那評委是"奇人", 她對論文中的用詞和意思"咬文嚼字得很緊"(很執著)! 但對於統計部份, 給予了很奇怪的意見:

數據學術分析
中位數與平均數的合適使用。為何使用中位數?
為何使用Kruskal-Waillis 而不是ANOVA
為何使用Mann-Whitney U 而不是t test?

    在"朋友"進行統計分析之初, 她有詢問過我的意見:
1. 通常在進行統計分析之前, 基本可以先對變項劃些圖, 初步了解變項的分佈是如何, 如是正態分佈或偏態分佈? 這對於統計分析是很重要的...
2. 依據變項的性質, 是連續變項, 還是分類變項?
3. 分析的目的, 是僅作統計描述? 還是要作統計推斷? 在統計推斷中, 要兩組比較, 還是多組比較呢?...

    據我記得, 她的數據變項, 確是呈偏態分佈的. 所以建議她還是用"中位數"及"四分位數"作統計描述就好了! 而在作統計推斷時, 就用"非參數統計(無母數統計)"就好了...

    有時有人會說: 若抽樣出的樣本人數較多(>=30個人), 不就是符合"中央極限"定理, 所有的統計描述及推斷, 就可以用參數分析的方法(正態分佈的方法)么?
    誠言, 中央極限定理一般只常用於實驗室小樣本的抽㨾方法, 而且都是以往計算不方便的年代用的較多! 如果在人群的抽樣調查, 為了使樣本的代表性更好, 常會使用各種抽樣方法! 常經抽樣所得到的數據變項, 都是偏態分佈的! 這時若使用正態分佈的統計方法, 所得到的結果會大機會出現偏差...
    更何況現在的統計軟件都很方便, 使用"非參數分析"很靈活啦!
    該用非參數統計時就要用, 不要以中央極限定理作理由呢~

    經聯絡後得悉, 那位評委果然是"奇人", 是我認識多年的XXX副教授... 她對統計是... 一點都不通的...=.=!
如圖, 收入的調查常經抽樣後得到的結果, 都是偏態的! 若用正態分佈的均數描述, 就會與正確的偏態分佈中位數結果有偏差了...

沒有留言:

張貼留言