2015年12月6日 星期日

對於複雜抽樣的處理及統計 (Dealing with and calculating the Complex samples)

    通常在流行病學的角度來說, 進行一項研究, 至少要有400人以上的樣本量! 但這僅是最低的要求矣! (這是透過最保守的參數, 用簡便的公式"近似"地求得的數值)
    若是面對一個大型的、要求精確的、和具代表性的樣本和研究, 這就不太好了... 我們常以準確的公式計算! 往往所算得的人數是以千計...

1.問題又來了: 人少就常可以用隨機抽樣方法進行取樣; 人多啦就不行, 因為是很浪費人力、物力和財力的... 所以對於這些大型的研究, 樣本量較多的, 會使用另一些抽樣方法, 如: 分層、整群、按比例、多階段等...

2.第二個問題是: 據數理統計可知, 隨機抽樣方法其抽樣誤差是較小的, 而其他的抽樣方法, 其抽樣誤差比隨機抽樣所得的是有高有低, 這樣就會造成: 各種抽樣方法所得的統計結果會不同! 就有必要進行校正---樣本加權.

3.第三個問題是: 那如何做樣本加權? (可參考2-4的資料)

4.第四個問題是: 有那些軟件可以處理複雜抽樣的統計呢?
    據我所以解, 有SAS, SPSS, STATA, SUDAAN及R (詳細可閱參考5) (當然, 可能還有更多...)
SUDAAN: 是類似於SAS的軟件, 需要編程的. 雖然WHO使用它, 但它是商業軟件, 而且較難用. 不是我的首選...
同樣, SAS也是編程 (其編程較複雜) 的和商業軟件嘛, 也不首選...
在SPSS內: Aanlysis-->Complex sample
SPSS是可在選單中點選進行, 雖然過程稍麻煩, 但總算容易... (參考資料6)
STATA和R, 雖然都是編程, 但語法較簡潔和靈活, 兩軟件唯一的分別是商業和非商業啊... 因此, 與其都是較簡潔, 我就選擇非商業的R啦~ (參考資料7)

    最後要強調的, 樣本加權不等於普通的變項加權, 是兩回事也~


參考資料:
1.https://ljzigerell.wordpress.com/2014/05/16/how-to-use-population-weights-in-spss-complex-samples/
2.http://dasanlin888.pixnet.net/blog/post/34469738-樣本加權(上)
3.http://dasanlin888.pixnet.net/blog/post/34469744-樣本加權(下)
4.http://shenhaolaoshi.blog.sohu.com/140541587.html
5.http://bettycjung.net/Pdfs/Big4.pdf
6.http://www.sussex.ac.uk/its/pdfs/SPSS_Complex_Samples_22.pdf
7.https://cran.r-project.org/web/packages/survey/survey.pdf

沒有留言:

張貼留言