2016年1月28日 星期四

統計圖與R (Statistical graphs and R)

    在統計學的表達方式上, 可主要分為3類: 統計圖統計表統計指標.

    在面對不同人群, 不同場合, 上述3種表達方式的使用有所不同, 如: 統計圖常用於直觀地表達, 適合大眾等使用; 而統計表及統計指標則較精確地表達數據, 較合適地用於專業人群或科研文章啦~ 其實三者無所謂誰優誰缺失, 只是如何表達數據及向誰表達罷了...
    但我腦海中仍有著這一句話: 一幅好的圖, 能勝過千言萬語的... 所以不要少看統計圖的作用呵~ 當然, 統計圖的制作, 是大有學問的!
    例如:
1/什麼類型的數據, 較適合用什麼圖呢?
2/是想表達數據之間的差異? 相關? 回歸...?
3/各種圖形的意義是什麼, 不可亂用...
4/如何制作這些統計圖呢?

    其實在民間, 最常用的統計圖軟件, 莫過於Excel! 因為它的普遍性吧. 但是很多時間, 它不能作很多的圖, 如地圖, 金字塔圖等... (當然, 也可以透過在Excel內設計較多的統計函數來達到...). 另外, 有一些科研雜誌不喜用Excel所制的圖呢~, 最後, Excel盡其量只算是「數據處理軟件」, 而說不上是「統計軟件」呵...

    也有一些統計軟件, 聲稱是結合很好的統計繪圖功能的, 如: SigmaPlot, Statgraphics等, 是的! 統計圖是專業了不少,量也不少, 但...統計功能就好似...弱了點啊!

SigmaPlot
    再講講統計軟件的大哥們, SAS所繪出的圖... 很醜啊... SPSS的好一點, 但也不是很美觀... 唯獨是STATA是較美觀及精緻的, 難怪WHO都選用它, 但是它的圖都是較固定的呢~
   
    R... 如果用它自己的基礎繪圖命令, 也是很醜的啊!!! 但是ggplot2則能繪出較美麗和精緻的統計圖; 而且也使用了圖層的概念, 即所作的圖是一層層地將內容疊加出來, 形式較靈活; 因是命令式的作圖, 可方便的修改; 所作的圖種類也較多. 可謂能夠較隨心所慾地作出圖來.
    當然, ggplot2也有不好的地方, 就是立體功能似乎仍有不足...
    以下這本書, 花了約半個月就讀完了, 基本是ggplot2的cook book, 不錯的呢...
ggplot2的分面箱式圖
 參考資料: ggplot2:数据分析与图形艺术. http://vdisk.weibo.com/s/zs4ici966AjjW

2016年1月22日 星期五

我一篇被刊出的文章: 青少年長期使用平板電腦或手機對頸椎的影響 (One of my published article…)



    近日太太放了一本雜誌在枱上, 見到後想了想: ~ 我有一篇文章早在上年的9月投到該雜誌, 已經有數月了, 不知有沒有被刊出呢? 於是隨手翻了翻, ~果然被刊了出來, 與您們分享呢! 題目如上所述

參考文獻: http://www.dsej.gov.mo/caet/p100/no44/p22-28.pdf

2016年1月11日 星期一

國家(中國)對統計學詞滙及符號的標準 (The standard of Statistics – Vocabulary & Symbols – in China)



    很多時候, 看一些統計學的文章/論文時, 都偶爾會見到統計學字符或符號亂用、錯用、大小寫錯誤等
    我較多的寫作, 常投到國內的雜誌社, 它們都要求統計學符號要符合一定的規則, 否則會遇到拒稿或要求修改
    上述正確的統計學符號使用, 要是科研寫作的基本功之一呢! 現在當我寫文章、指導學生寫論文時, 為了方便及統一, 要會使用統一的"符號".

    在國內---中國, 統計學詞滙及符號是有國家的統一標準的 (GB/T 3358), 現在最新的版本是2009年版, 之前是1992年版及1982年版.
    它分為3部份, 覆蓋的範圍較廣:
GB/T3358.1-2009_统计学词汇及符号_1部分_一般统计术语与用于概率的术语
GB/T3358.2-2009_统计学词汇及符号_2部分_应用统计
GB/T3358.3-2009_统计学词汇及符号_3部分_实验设计
    2009年版中, 不但統計詞滙的內容加添了許多, 而且也在詞滙的下方列出了些例子, 使人更容易明白和理解
    其實它不單作為統計概念和符號的統一標準, 也是學習統計學的很好輔助材料!!!

下載: 链接:http://pan.baidu.com/s/1eQMd9lC 密码:vlwi

2016年1月7日 星期四

在R內進行直接年齡標準化 (Direct Age Standardization in R)


    年齡標準化在流行病學的應用很廣泛
    它主要用於: 在各地之間進行率的比較時, 而這些率又受到年齡因素影響很大, 各地之間年齡段的比例又有差異時所用.
    年齡的標準化又分為直接標準化間接標準化兩種. 直接標準化常用在"外在比", : 各國之間的比較; 間接標準化則常用在"內在比", 如某國內各省之間的比較... 又以直接標準化為多用!
    由於各地人口之年齡段比例有差異, 所以要先找出一個公認的標準作為加權數. 在世界各地的比較上, 常用WHO的年齡段比例. 中國常用1982年的人口構成.
年龄组(岁)
1964年人口构1
1982年中国人口构成2
0
14.52
2.07
14
7.36
59
13.65
11.03
1014
12.52
13.13
1519
9.01
12.49
2024
7.37
7.41
2529
7.37
9.22
3034
6.77
7.27
3539
5.97
5.4
4044
5.17
4.82
4549
4.47
4.72
5054
3.84
4.07
5559
3.27
3.38
6064
2.56
2.73
6569
1.69
2.12
7074
1.07
1.43
7579
0.55
0.86
8084
0.26
0.37
85及以上
0.13
合计
100
100



    在R”epitools”軟件包, 內有功能是專門計算直接年齡標準化率的!

library(readxl)
mor<-read_excel("ageadj.xlsx") #讀入excel文件
library(epitools) #載入epitools的統計包
whostd.prec<-mor$who/100 #將WHO的標準年齡段百分率化回小數

mor.age<-ageadjust.direct(mor$death,mor$pop,stdpop = whostd.prec) #計算直接年齡標準化率
mor.aa<-round(mor.age*10^5,1) #將率化回10萬

mor文件的內容, who: 世衛的年齡段百分率, death: 死亡人數, pop: 總人數
結果

crude.rate   adj.rate        lci        uci 
     887.3      496.2      494.1      498.3 

R的計算結果與Excel的是一樣呵~
 參考資料:

1.http://www.who.int/healthinfo/paper31.pdf