我已註冊成為一名研究員, 我的唯一識別號及網頁:
https://orcid.org/0000-0003-1770-7494
當然, 也可以在Google學術網內看到我的寫作...
https://scholar.google.com.hk/citations?hl=zh-TW&user=RqLAxuQAAAAJ&view_op=list_works&sortby=pubdate
又或到這個網頁:
https://sites.google.com/site/chanmansi2013/home
I wanna... to share some Epidemiological and Statistical things with you... ha-ha... (in Chinese-Big5)
2017年12月26日 星期二
2017年12月22日 星期五
流行病學的挑戰與危機 (The challenge and crisis of Epidemiology)
以下是與一位內地有名的流行病學學者的微信對話!
作為一位流行病與衛生統計專業的人士, 自從研究生畢業後, 我都在尋找著這專業的最新發展及"突破口", 因為仍想在這個專業有些發展...
但隨著日子過去, 慢慢發覺不斷地在該專業內兜圈子 (當然, 在理論及應用上, 基礎功是扎實了些~~~), 因為這專業, 除了衛生統計為應用統計的一個方向, 在應用統計仍有發展下, 相信衛生統計仍有很多的發展. 如: 大數據, 貝葉斯分析, 地理統計...
相反, 流行病學嘛, 在這10多年, 似乎真的沒有很大的發展! (不知是否已到了瓶頸), 我在想:
1.流行病學在上世紀約50年代由以傳染病流行病學為主的範式, 轉到慢性非傳染病流行病學為主的範式. 在範式上已有很大的改變. 現在仍未見到下個範式的苗頭!
2.當代流行病學是方法學, 在方法上已相當成熟, 較難再創新一種方法...
3.現在流行病學的研究, 很多都是大型的, 涉及多人的, 甚至是跨國的; 很難進行創作!
4.作為方法學, 應用到其他專業上, 為其他專業帶來很多的發展, 如應用到分子生物學, 就變成分子流行病學; 應用到營養學上, 就變成營養流行病學. 但反過來, 自己的發展已不多.
5.在澳門, 流行病學的學者不多... 以我知, 現時只有1位... 就是對話的那位...
冀望有一天, 澳門的流行病學學者增多; 我在流行病學上有所突破...
作為一位流行病與衛生統計專業的人士, 自從研究生畢業後, 我都在尋找著這專業的最新發展及"突破口", 因為仍想在這個專業有些發展...
但隨著日子過去, 慢慢發覺不斷地在該專業內兜圈子 (當然, 在理論及應用上, 基礎功是扎實了些~~~), 因為這專業, 除了衛生統計為應用統計的一個方向, 在應用統計仍有發展下, 相信衛生統計仍有很多的發展. 如: 大數據, 貝葉斯分析, 地理統計...
相反, 流行病學嘛, 在這10多年, 似乎真的沒有很大的發展! (不知是否已到了瓶頸), 我在想:
1.流行病學在上世紀約50年代由以傳染病流行病學為主的範式, 轉到慢性非傳染病流行病學為主的範式. 在範式上已有很大的改變. 現在仍未見到下個範式的苗頭!
2.當代流行病學是方法學, 在方法上已相當成熟, 較難再創新一種方法...
3.現在流行病學的研究, 很多都是大型的, 涉及多人的, 甚至是跨國的; 很難進行創作!
4.作為方法學, 應用到其他專業上, 為其他專業帶來很多的發展, 如應用到分子生物學, 就變成分子流行病學; 應用到營養學上, 就變成營養流行病學. 但反過來, 自己的發展已不多.
5.在澳門, 流行病學的學者不多... 以我知, 現時只有1位... 就是對話的那位...
冀望有一天, 澳門的流行病學學者增多; 我在流行病學上有所突破...
2017年12月8日 星期五
批評前應先要有認識---讀一篇禁毒評論後的感想
我的博士論文, 題目就不說~ 內容是研究一些"隱蔽小群體"的數量, 以及他們的導到"隱蔽"的原因. 所以對這方面有一定的瞭解.
首先是"隱蔽小群體"是什麼? 舉例子來說, 這類的群體有濫藥人士, 感染愛滋病病例, 性濫交者等, 他們的特點都是不會在公眾前承認自己是這類群體的一份子; 但想信在一個正常的社會, 這類人士應不會太多.
為什麼要研究他們的數量? 因為他們都是高危的群體! 所謂"高危", 不單對治安, 更重要是健康及傳染病的風險; 如性傳播疾病及肝炎等... 但是, 研究他們的數量是很困難的! 因為他們很難接觸到, 以及不知他們的總體有多少人! 然而, 估計他們的數量郤又很重要, 因為可作針對性的處理, 乃至相關預防或幫助政策的制定和預算.
說到如何估計他們的數量, 即方法學上, 常用的有倍數法, 捕獲-再捕獲法(Capture-re-Capture)等. 當然, 不同的方法, 在估算的結果可能有很大的差距, 據我所知, 捕獲-再捕獲法是較好的...
雖然說, 估計數量很難去驗證是否恰當?(因始終很難對這群特殊個體的總人數作全面調查), 但至少, 有一個數據為依據!
日前看到某報章的一篇評論, 說本澳的濫藥人士最新估算的數量下降, 但與鄰埠的數字相距甚遠, 便說成是"玩弄文字遊戲", 給人報喜不報懮的感覺... 誠言,
1.既然不知這群"隱蔽小群體"的總數; 且不同的方法, 估算的數字可能有較大的差異; 又為什麼盡信鄰埠的"估算"?
2.批評者又知道這隱蔽小群體的總數嗎? 為何批評本澳的估算?
3.批評者又怎知濫藥隱蔽化? 莫非他是其中一員, 且可代表發聲?
在批評前應知多瞭解! 不要為批評而批評!
首先是"隱蔽小群體"是什麼? 舉例子來說, 這類的群體有濫藥人士, 感染愛滋病病例, 性濫交者等, 他們的特點都是不會在公眾前承認自己是這類群體的一份子; 但想信在一個正常的社會, 這類人士應不會太多.
為什麼要研究他們的數量? 因為他們都是高危的群體! 所謂"高危", 不單對治安, 更重要是健康及傳染病的風險; 如性傳播疾病及肝炎等... 但是, 研究他們的數量是很困難的! 因為他們很難接觸到, 以及不知他們的總體有多少人! 然而, 估計他們的數量郤又很重要, 因為可作針對性的處理, 乃至相關預防或幫助政策的制定和預算.
說到如何估計他們的數量, 即方法學上, 常用的有倍數法, 捕獲-再捕獲法(Capture-re-Capture)等. 當然, 不同的方法, 在估算的結果可能有很大的差距, 據我所知, 捕獲-再捕獲法是較好的...
雖然說, 估計數量很難去驗證是否恰當?(因始終很難對這群特殊個體的總人數作全面調查), 但至少, 有一個數據為依據!
日前看到某報章的一篇評論, 說本澳的濫藥人士最新估算的數量下降, 但與鄰埠的數字相距甚遠, 便說成是"玩弄文字遊戲", 給人報喜不報懮的感覺... 誠言,
1.既然不知這群"隱蔽小群體"的總數; 且不同的方法, 估算的數字可能有較大的差異; 又為什麼盡信鄰埠的"估算"?
2.批評者又知道這隱蔽小群體的總數嗎? 為何批評本澳的估算?
3.批評者又怎知濫藥隱蔽化? 莫非他是其中一員, 且可代表發聲?
在批評前應知多瞭解! 不要為批評而批評!
2017年11月25日 星期六
同是流病人的博客 (A blog of Epidemiologist from Taiwan)
數天前, 在網絡上查找些流行病學的內容時, 無意間發現一位博客的內容. 仔細研究後, 他寫的關於流行病學的內容很好. 我相信他應是台灣的市民, 而且是從事流行病學相關的學者吧~
雖然有關的內容不多, 但都論述得很詳細和清晰, 幫助我釐清了以前教書時的一些疑惑! 例如: 不同"潛伏期"的誤解, 病因推論的詳細歷史...
會繼續仔細研究的...
亦希望該博客能繼續寫作流行病學的內容! 努力~👍👍👍
參考網址: http://statisticbyjerry.blogspot.com/
雖然有關的內容不多, 但都論述得很詳細和清晰, 幫助我釐清了以前教書時的一些疑惑! 例如: 不同"潛伏期"的誤解, 病因推論的詳細歷史...
會繼續仔細研究的...
亦希望該博客能繼續寫作流行病學的內容! 努力~👍👍👍
參考網址: http://statisticbyjerry.blogspot.com/
2017年11月14日 星期二
Logistic Regression與關聯分析的妙用(The magical using of Logistic Regression and Association rule)
今早閱到了一篇好的文章, 論述了二元分類回歸與關聯分析兩者的理論及數理關係. 誠言, 由於我不是搞”數理統計”的, 對於其數理推導部我僅”知其然, 而不知其所以然”. 但作為用家的我, 就很留意兩者的實際用途…
首先, 說說~
Logistic Regression是統計學中尤其常用的回歸分析, 主要是尋找二元因變項(Y)與自變項的關係.
關聯規則(Association Rule)雖然都是統計學的一個內容, 但是大數據分析的一種方法. 主要是尋找變項之間的相關性…
文章提到…
參考文獻: 唐曉, 劉啟貴, 隋全恒. 關聯規則和Logistic模型的相關性研究[J]. 中國衛生統計, 2017.10, 34(5), 805-807.
2017年11月12日 星期日
在商業上未來五年較渴求的工作(Desiring for the job of besiness in next 5 years~)
數年前, 一位在澳洲的朋友回澳門, 相聚時問道她在澳洲讀什麼科目? 她告知是"分析師(Analyst)", 應是商業分析為主的; 除商業的學科外, 也要學習統計及編程(主要學習SAS及R). 現她在當地已有相關工作, 也落地生根了...
當時給我感到頗新鮮的, 也留意著"分析師"及她的發展. 不可否認, 隨著大數據湧現, 機器學習算法的優化及電腦硬件的突破性發展, 人工智能(AI)打敗人類圍棋等, 不久的將來會"數據創做財富".
今早在圖書館閱讀一本期刊, 就以相的的內容為主題故事, 並做出了未來5年, 商業市場上最需求的專才(見下圖). 我的解讀是:
當時給我感到頗新鮮的, 也留意著"分析師"及她的發展. 不可否認, 隨著大數據湧現, 機器學習算法的優化及電腦硬件的突破性發展, 人工智能(AI)打敗人類圍棋等, 不久的將來會"數據創做財富".
今早在圖書館閱讀一本期刊, 就以相的的內容為主題故事, 並做出了未來5年, 商業市場上最需求的專才(見下圖). 我的解讀是:
資料科學家(Data scientist)及資料工程師(Data Engineer)
是將來5年需求最多, 但也最不滿足市場的需求.
看來, 我也應該要轉行了!? 也拭目以待呢...2017年10月30日 星期一
計數資料的檢驗 (Testing of categorical data)
承接上一個內容, 以前我在讀研的時候老師只是說: 當分組資料和變量都是計數資料(categorical data)時, 如2x2表或RxC表, 就是用卡方檢驗, 直至讀博時都是這樣~ 但最近了解到, 這樣的情況還可用G test來解決, 而且據知它的理論與算法比卡方檢驗還更好!?(因為G test的算法比較簡單, 所以校正就較方便快捷; 理論上就較具優勢!~) 當然, 算G.test, 以我知暫時仍是R統計軟件才有.
如上次的例子,
有效 無效
靜脈注射 25 7
肌肉注射 22 10
口 服 藥 15 17
在R進行卡方檢驗, 結果是
參考內容:
1. http://www.stat.wisc.edu/~st571-1/gtest.R
2. http://www.biostathandbook.com/gtestind.html
如上次的例子,
有效 無效
靜脈注射 25 7
肌肉注射 22 10
口 服 藥 15 17
在R進行卡方檢驗, 結果是
Pearson's
Chi-squared test
data:
dat
X-squared = 7.1954, df = 2, p-value =
0.02739
而在R進行G test, 須先下載它的程式 (幸好已有人寫好, 並放在網上!), 只要把程式貼到R軟件並運行即可... 其結果是:
G-Test for Contingency Tables
Data:
有效 無效
靜脈注射 25 7
肌肉注射 22 10
口服藥 15 17
The test statistic is 7.19124 .
There are
2 degrees of freedom.
The p-value is 0.02744362 .
參考內容:
1. http://www.stat.wisc.edu/~st571-1/gtest.R
2. http://www.biostathandbook.com/gtestind.html
2017年10月21日 星期六
卡方檢驗後的兩兩比較分析 (Post Hoc analysis after Chi-square test is significant)
我知她僅能使用SPSS統計軟件, 就告知她: 在SPSS進行卡方檢驗事後的兩兩比較分析, 一般只能拆表, 而且要修正每個檢驗的p值(即Bonferroni校正呵...)
她又問到如何可以不用這樣"痛苦"? 我告訴她可以用R統計軟件吧... 但無奈她不懂R...
如有一數據集, 內容如下:
有效 無效
靜脈注射 25 7
肌肉注射 22 10
口 服 藥 15 17
在SPSS的處理如youtube的視頻那樣, 哇... 真的"痛苦"! 在R軟件呢?
#第1部份:處理數據
dat<-matrix(c(25,22,15,7,10,17),nrow=3,ncol=2)
rownames(dat)<-c("靜脈注射","肌肉注射","口服藥")
colnames(dat)<-c("有效","無效")
#第2部份:矩陣-組間兩兩比較, 注意用Bonferroni法校正p,即0.05/3=0.017
chi<-chisq.test(dat)#總結果x2=7.1954,p=0.02739
chi1<-chisq.test(dat[c(1,2),])#靜脈注射與肌肉注射比較,結果x2=0.3204,p=0.5714
chi2<-chisq.test(dat[c(1,3),])#靜脈注射與口服藥比較,結果x2=5.4,p=0.02014
chi3<-chisq.test(dat[c(2,3),])#肌肉注射與口服藥比較,結果x2=2.3063,p=0.1288
#第3部份:快捷方法
#install.packages("fifer")先安裝這統計套件
library("fifer")#載入套件
chi.result<-chisq.post.hoc(dat,test="chisq.test",control=c("bonferroni"))
##結果
## comparison raw.p adj.p
##1 靜脈注射 vs. 肌肉注射 0.5714 1.0000
##2 靜脈注射 vs. 口服藥 0.0201 0.0604
##3 肌肉注射 vs. 口服藥 0.1288 0.3865
其實第2部份與第3部份任選1個即可... 而且紅色字內容只是註釋, 實際操作時沒有必要寫!
結果與視頻的有不同, 是因R的chisp.test預設了作"連續校正的"(correct=TRUE). 如果改為correct=FALSE, 結果就完全一樣啦...
師生關係2 (Teacher-student relationship2)
我相信每個人會有一個或一些影響他(她)的老師, 當然這個(這些)老師有好, 有不好; 有正面影響的, 也有負面影響的吧!? 對我影響較大的, 有兩位老師:
一位是中學時候的數學老師: 羅立仁老師;
另一位是博導: 陳清教授...
小學時我的數學很差, 我想是因我笨外, 學校沒有將數學的解題思路教好等有關! 尤其在"方程式"解題上, 我更是一塌糊塗. 直到中學二年級時, 遇上羅老師, 他當時已是白髪滿頭的老人, 且由於他來澳不久, 滿口是福建腔, 被安排到語言實驗室(即英語會話室)作操作員, 負責機械的維修等; 偶爾也會擔任一些數學的督課班... 我已忘記是如何開始向他討教的, 只記得每當我數學有不明白, 就會跑到會話室找他, 他就會在紙上詳細地將題目解答, 並說明了解題的思路. 我最記得他說: 不要太多花巧, 要每步將題解出來... 在他的教導之下, 我的數學是有明顯的進步, 雖不至於前矛, 但起碼也能"過關"呵... 師生共相處了4年, 直到我高中畢業離校; 羅老師不久後因退休而離校, 之後便回到梅州過著"對著數學日與夜"的快樂日子吧! 雖然曾在澳門碰上他, 並與他飯茶, 但已是多年前的事, 衷心祝福他健康呢~~~
至於遇上陳清老師, 並以她作為博導, 可說是一種"緣份". 據知, 我是南方醫科大學(原第一軍醫大學)公共衛生與熱帶醫學學院的第一個"澳門仔". 回顧讀博的3年,以及畢業離校後的聯絡,她教曉我的就是"謙卑"呵... 至今我都一直與老師聯絡著呢...
但願我曾教過的學生, 對我的評價不是太差吧~
一位是中學時候的數學老師: 羅立仁老師;
另一位是博導: 陳清教授...
小學時我的數學很差, 我想是因我笨外, 學校沒有將數學的解題思路教好等有關! 尤其在"方程式"解題上, 我更是一塌糊塗. 直到中學二年級時, 遇上羅老師, 他當時已是白髪滿頭的老人, 且由於他來澳不久, 滿口是福建腔, 被安排到語言實驗室(即英語會話室)作操作員, 負責機械的維修等; 偶爾也會擔任一些數學的督課班... 我已忘記是如何開始向他討教的, 只記得每當我數學有不明白, 就會跑到會話室找他, 他就會在紙上詳細地將題目解答, 並說明了解題的思路. 我最記得他說: 不要太多花巧, 要每步將題解出來... 在他的教導之下, 我的數學是有明顯的進步, 雖不至於前矛, 但起碼也能"過關"呵... 師生共相處了4年, 直到我高中畢業離校; 羅老師不久後因退休而離校, 之後便回到梅州過著"對著數學日與夜"的快樂日子吧! 雖然曾在澳門碰上他, 並與他飯茶, 但已是多年前的事, 衷心祝福他健康呢~~~
南方醫科大學公共衛生與熱帶醫學學院 |
至於遇上陳清老師, 並以她作為博導, 可說是一種"緣份". 據知, 我是南方醫科大學(原第一軍醫大學)公共衛生與熱帶醫學學院的第一個"澳門仔". 回顧讀博的3年,以及畢業離校後的聯絡,她教曉我的就是"謙卑"呵... 至今我都一直與老師聯絡著呢...
但願我曾教過的學生, 對我的評價不是太差吧~
2017年10月5日 星期四
師生關係 (Teacher-student relationship)
數一數, 帶學生進行研究和論文寫作已有多年及多次. 當然自從到政府工作後, 就沒有正式的帶學生啦~ 期間有不少次被朋友或以往的學生邀請, 但為了養家, 只好辭謝呵! 又或當朋友身份, 出來喝杯可樂, 分享一下經驗還是可以的...
在認識的很多學生中, 各人與我的關係都總算還好; 但仍有數個學生, 關係就很一般~~~究其原因, 我發現這數個學生, 大都抱著急於畢業, 急於求成、急於寫論文"交差"等急功近利的心態. 我很明白她們的, 有哪個學生不想早些畢業呢! 但能否畢業, 是否取得好成績畢業, 不只是交了論文, 答辯了就好的... 一個例子:
早前(約一年前)一位以往的上司說: 你能作為"副導師"(co-supervisor), 幫手帶這兩位碩士研究生做論文課題嗎?
"不好! 但作為舊上司的學生, 可當作朋友, 飲杯可樂, 分享一下經驗", 我說...
原來這兩位"朋友"是政府的護理人員, 首次見面已開門見山地說, 她們只想畢業... 看過她們分享的論文後, 真的不敢恭為; 而且有些內容, 我懷疑兩人是互相抄襲的, 並曾直接指出問題所在; 但無奈地比面舊上司, 只好再次與她們見面, 分享些經驗. 第二次見面, 其中一個已很氣急敗壞地說, 她想什麼時候趕答辯, 但又要出國探親, 所以趕論文很辛苦... 其實我聽了也很無奈, 心想: 答辯的不是我, 你們來討教, 還這樣高傲; 而且我一毛錢也沒有收的, 只是比面舊上司. 之後我就對她們說: 你們認為可以的話, 就去答辯了吧...
結果她們真的拿著這兩份"垃圾"一樣的論文去答辯...好似一個得了C等級, 一個要作重大修改後再答辯...!!!??? 我對這結果不覺意外, 反而覺得她們活該!
與導師保持良好的關係, 虛心討教, 不耻下問, 帶著問題與導師討論, 這才是正道呢...
在認識的很多學生中, 各人與我的關係都總算還好; 但仍有數個學生, 關係就很一般~~~究其原因, 我發現這數個學生, 大都抱著急於畢業, 急於求成、急於寫論文"交差"等急功近利的心態. 我很明白她們的, 有哪個學生不想早些畢業呢! 但能否畢業, 是否取得好成績畢業, 不只是交了論文, 答辯了就好的... 一個例子:
早前(約一年前)一位以往的上司說: 你能作為"副導師"(co-supervisor), 幫手帶這兩位碩士研究生做論文課題嗎?
"不好! 但作為舊上司的學生, 可當作朋友, 飲杯可樂, 分享一下經驗", 我說...
原來這兩位"朋友"是政府的護理人員, 首次見面已開門見山地說, 她們只想畢業... 看過她們分享的論文後, 真的不敢恭為; 而且有些內容, 我懷疑兩人是互相抄襲的, 並曾直接指出問題所在; 但無奈地比面舊上司, 只好再次與她們見面, 分享些經驗. 第二次見面, 其中一個已很氣急敗壞地說, 她想什麼時候趕答辯, 但又要出國探親, 所以趕論文很辛苦... 其實我聽了也很無奈, 心想: 答辯的不是我, 你們來討教, 還這樣高傲; 而且我一毛錢也沒有收的, 只是比面舊上司. 之後我就對她們說: 你們認為可以的話, 就去答辯了吧...
結果她們真的拿著這兩份"垃圾"一樣的論文去答辯...好似一個得了C等級, 一個要作重大修改後再答辯...!!!??? 我對這結果不覺意外, 反而覺得她們活該!
與導師保持良好的關係, 虛心討教, 不耻下問, 帶著問題與導師討論, 這才是正道呢...
2017年9月23日 星期六
我一篇有關兒童傷害的普及文章(My article of first aid of child injuries)
接孩子回家時, 在一機構的書架上, 看到新一期的《百份百家長》雜誌(它是免費的!), 心想: 不知我被邀稿的一篇文章有否被刊出呢? 於是便拿來翻翻, 喜出望外, 果然文章被刊出了...
該篇文章是一篇普及文章, 主要講述兒童青少年常發生的運動傷害, 及其急救事宜. 有興趣的, 可到以下網址下載呵~ http://www.dsej.gov.mo/caet/p100/no49/p42-45.pdf
該篇文章是一篇普及文章, 主要講述兒童青少年常發生的運動傷害, 及其急救事宜. 有興趣的, 可到以下網址下載呵~ http://www.dsej.gov.mo/caet/p100/no49/p42-45.pdf
2017年9月10日 星期日
學習使用時空掃瞄軟件---SaTScan 2 (Learning to use the software of Spatial and temporal Scan --- SaTScan 2)
為了加深對時空分析的認識, 我近期對此及其應用軟件SaTScan進行了更深入的研究:
時空分析的理論
時空分析的實踐
實踐例子: 澳門2011年至2016年腸病毒感染的時空分析
時空分析的理論
檢驗事件(尤其是疾病)的發生在空間、時間、空間及時間的分佈上是否隨機性
隨機性 ~事件呈較平均的地理分佈(p≥0.05)
非隨機性~事件呈現聚集現象(p<0.05)
完成事件的地理上的監測:偵測出呈顯著性的高發區(熱區)/低發區(冷區)
統計量:最大似然值(maximum likelihood, MLH)
p值:蒙地卡羅模擬法(Monte Carlo hypothesis testing)
p值:蒙地卡羅模擬法(Monte Carlo hypothesis testing)
可做到:
搜尋時間、空間、時間及空間的聚集事件
靈活調整的空間掃瞄的單位
不可做到:
生成聚集事件的地圖,因此需配合地理訊息系統(GIS)或制地圖軟件(Google Earth, QGIS, ArcGIS…)
生成其他統計或回歸模型
時空分析的實踐
軟件:SaTScan, Google Earth
SaTScan:由哈佛大學公共醫學院Dr.
Martin Kulldorff研發,應是目前唯一的時空分析軟件,又叫“Kulldorff”時空分析法。
Google Earth:將SaTScan的分析結果在Google
Map呈現。
目的:瞭解澳門2011年至2016年腸病毒感染的時間與空間的聚集性
問題:
有否時間與空間聚集性?
若有,在何時及何地?
資料收集:
從報章內容撰取數據…
製成Excel數據表
資料分析:Excel數據表內有發病人數(*.cas)及無病人數(對照組*.ctl),選用Bernoulli Model(伯努利模型)
結果研讀:(2011至2013年澳門中區的腸病毒感染有聚集現象)
CLUSTERS DETECTED
Location IDs included.: 1650, 1102, 1224, …
1621, 1114, 1236
Coordinates /
radius..: (22.203412 N, 113.552529 E) / 0.70 km
Time
frame............: 2011/1/1 to 2013/12/31
Population............:
856
Number of
cases.......: 237
Expected
cases........: 176.46
Observed /
expected...: 1.34
Relative
risk.........: 1.39
Percent cases in
area.: 27.7
Log likelihood
ratio..: 13.439157
2017年7月22日 星期六
學習使用時空掃瞄軟件---SaTScan 1 (Learning to use the software of Spatial and temporal Scan --- SaTScan 1)
流行病學嘛~尤其是描述性流行病學! 要研究"三間分佈"呢~
人間的分佈, 當收集到人口學特徵的資料後, 就較容易用普通的統計軟件分析;
時間的分佈, 其實很多普通的統計軟件, 都有時間序列的分析方法, 雖然有點複雜, 但仔細研究一下, 相信都能解決到問題...
空間的分佈, 很多統計的軟件也沒有這些功能, 因為GIS是一項較複雜的技術! 也是近今約30年慢慢發展的...如果是僅制作些空間分佈圖等, 現在都有些軟件能供應用! 如(偉大的R), QGIS, GeoDa..., SPSS據聞也有, 但能力就很"雞"~ (SAS我就不知道了!)
但是我就不只滿足於這些, 要研究一下時間-空間的技術, 於是... 是好踏上這條... SaTScan路~~~ 也有人叫做Kulldorff時空掃瞄方法.
即是說, 要進行時空掃瞄分析, 就要使用SaTScan軟件 (以我知, 暫時只有此款軟件才可完成此功能~ 不知R有沒有, 但肯定SPSS及SAS沒有吧)!
1. 下載這款軟件很方便, 只要到它的網站 (https://www.satscan.org/download.html) 作簡單登記後, 它就會透過電郵給你一個密碼! 然後就可以免費下載. 其實也可將它制作成免安裝的. 但我不做壞人家的規定呢...
2. 這款軟件並不難用, 但難在於它使用的資料準備、參數設定及結果的研判上.
2.1. 在資料準備上, 它可讀入很多的資料類型, 如dbf, csv, xls, txt等, 但我個人認為csv文件格式它讀入時較順利.
我同一個文件上, 最好有:
個案編號、
個案陽性數(case no)、
對照個案數(control no---可計算伯努尼分佈Bernoulli distribution) 或 地區人口數 (population---可計算泊松分佈possion distribution)、
地區的經度(longitude)、地區的緯度(latitude)---可透過Google Earth取得!
2.2. 參數設定:最好使用50%人口, 看情況而定的馬可科夫鏈迭代次數(設定為999, 但小樣本可設為9999 或99999)
2.3. 結果最好配合Google Earth使用, 一目瞭然! (因為會生成KML文件)
SaTScan對於疾病的空間, 時間聚集判斷很有用呢!!!
人間的分佈, 當收集到人口學特徵的資料後, 就較容易用普通的統計軟件分析;
時間的分佈, 其實很多普通的統計軟件, 都有時間序列的分析方法, 雖然有點複雜, 但仔細研究一下, 相信都能解決到問題...
空間的分佈, 很多統計的軟件也沒有這些功能, 因為GIS是一項較複雜的技術! 也是近今約30年慢慢發展的...如果是僅制作些空間分佈圖等, 現在都有些軟件能供應用! 如(偉大的R), QGIS, GeoDa..., SPSS據聞也有, 但能力就很"雞"~ (SAS我就不知道了!)
但是我就不只滿足於這些, 要研究一下時間-空間的技術, 於是... 是好踏上這條... SaTScan路~~~ 也有人叫做Kulldorff時空掃瞄方法.
即是說, 要進行時空掃瞄分析, 就要使用SaTScan軟件 (以我知, 暫時只有此款軟件才可完成此功能~ 不知R有沒有, 但肯定SPSS及SAS沒有吧)!
1. 下載這款軟件很方便, 只要到它的網站 (https://www.satscan.org/download.html) 作簡單登記後, 它就會透過電郵給你一個密碼! 然後就可以免費下載. 其實也可將它制作成免安裝的. 但我不做壞人家的規定呢...
輸入文件設定界面, 主要有三種文件要輸入: 個案文件, 對照組文件/人口文件, 地理定位文件 |
研究方法設定界面 |
輸出文件界面設定 |
2. 這款軟件並不難用, 但難在於它使用的資料準備、參數設定及結果的研判上.
2.1. 在資料準備上, 它可讀入很多的資料類型, 如dbf, csv, xls, txt等, 但我個人認為csv文件格式它讀入時較順利.
我同一個文件上, 最好有:
個案編號、
個案陽性數(case no)、
對照個案數(control no---可計算伯努尼分佈Bernoulli distribution) 或 地區人口數 (population---可計算泊松分佈possion distribution)、
地區的經度(longitude)、地區的緯度(latitude)---可透過Google Earth取得!
2.2. 參數設定:最好使用50%人口, 看情況而定的馬可科夫鏈迭代次數(設定為999, 但小樣本可設為9999 或99999)
2.3. 結果最好配合Google Earth使用, 一目瞭然! (因為會生成KML文件)
在Google Earth 軟件輸出的結果--- 以紐約乳癌為例, 紅色為熱點---高發區, 藍色為低發區 |
2017年6月17日 星期六
澳門科技大學健康科學學院畢業禮 (Graduation ceremony of Health Faculty of MUST)
2018年
今年再被澳科大健康科學學院邀請, 作為校外嘉賓參與院內的畢業禮. 每年我都會很珍惜這個邀請, 除了是畢業禮, 更是舊同事們的每度聚會啦...見證著學院近年畢業生的人數越來越多, 說明了學院近年有了明顯的發展! 當然, 也有很多"可進步"的空間... 期望學院能朝向好的方向發展吧!
2018年6月9日攝於澳門科技大學健康科學學院 |
2017年
每年的6月中旬, 我都會被邀作為嘉賓(其實是舊同事的身份), 回到澳門科技大學健康科學學院, 出席研究生的畢業禮!雖然我留在學院工作的日子不長, 數數只有約1年多的時間, 但與舊同事們的感情很好! 因為同事人數不多, 工作和說話都比較坦誠; 那些日子的確很開心呢~
一幌已參加了5~6屆吧! 唯有一年是不能到會的, 因為那年亦是我博士畢業的那年...
每年我都會與畢業的研究生會合照, 並祝福她們前程似錦! 因為職讀的研究生能畢業是不易的! 2017.06.10 |
2017年5月26日 星期五
再說回歸分析 (Talking about Regression onice again!)
在日常的回歸分析中, 大多都只用到Linear Regression(線性回歸)或Logistic Regression(邏輯回歸); 若有進一步需要的話, 可能會用到Multinorminal Regression(多元無序回歸)或等級(多元有序回歸回歸).
但每一類的回歸分析, 都有其應用條件及限制, 如最簡單的線性回歸, 其應用條件是Y變項的數據類型應是計量資料, 且符合LINE原則:
L: 線性的Y變項;
I: 各變項應互相獨立(無多重共線性);
N:數據要符合正態分佈;
E: 隨機誤差項盡量少...
但這些條件往往很難完全滿足, 若真的不滿足, 只好另有選擇了...
如I不滿足, 即數據間有多重共線性, 就只好用Ridge Regression(岭回歸), Lasso回歸...
如果N不滿足, 即數據呈偏態分佈, 可選用Quantile Regression(百分位數回歸)...
如果E不滿足, 即誤差太大, 可試試Robust Regression(穩健回歸)...
體現到~解決方法比問題多...
但每一類的回歸分析, 都有其應用條件及限制, 如最簡單的線性回歸, 其應用條件是Y變項的數據類型應是計量資料, 且符合LINE原則:
L: 線性的Y變項;
I: 各變項應互相獨立(無多重共線性);
N:數據要符合正態分佈;
E: 隨機誤差項盡量少...
但這些條件往往很難完全滿足, 若真的不滿足, 只好另有選擇了...
如I不滿足, 即數據間有多重共線性, 就只好用Ridge Regression(岭回歸), Lasso回歸...
如果N不滿足, 即數據呈偏態分佈, 可選用Quantile Regression(百分位數回歸)...
如果E不滿足, 即誤差太大, 可試試Robust Regression(穩健回歸)...
體現到~解決方法比問題多...
可以讀讀這篇文章, 會有更大的收獲... 数据分析员不得不知的7种回归技术
2017年5月20日 星期六
在R軟件內進行回歸分析及啞變量化 (Performing regression and dummy in R)
回歸分析是統計學的一個很重要內容, 因為它可以尋找原因... 但回歸分析的種類很多, 這可以它的依變項(Dependent variable)及它的功能來分類吧!
在R統計軟件, 進行回歸分析可以很方便地完成, 例如主要的回歸分析:
1.Linear Regression: lm(), glm(family=gaussian)
2.Logistic Regression: glm(family=binomial)
3.泊松回歸: glm(family=poission)
4.多元無序回歸: nnet::multinom()
5.多元有序回歸: MASS::polr()
只要確定了函數, 公式, 就可以完成對應的回歸了!
另外, 回歸分析的一個重點步驟, 就是進行啞變量(Dummy)了, 其實在數據庫內, 將變項的類型設定好, 如計數資料設為int, 分類資料設為factor, 在進行主要的回歸分析時, R會自動進行啞變量的處理, 如:
一個數據庫有4個變項(num, brand, female, age), 在初初讀入時全部都設定為int(數值型), 設定brand及female兩變項為factor(分類型)後, 以female為依變項進行Logistic Regression, 即可得:
> log.fit<-glm(female~brand+age,family = binomial,data = example_logistic_regression)
> summary(log.fit)
-1.5523 -1.3217 0.8738 0.9375 1.1586
(Intercept) 1.08843 1.17784 0.924 0.35544
brand3 0.46076 0.22489 2.049 0.04048 *
brand2 0.55677 0.19261 2.891 0.00384 **
age -0.02747 0.03712 -0.740 0.45928
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
AIC: 964.86
它將brand變項自動啞變量了! 再看看如何出我們很重視的OR值, 結果與SPSS的結果無異呢...
> log.or<-logistic.display(log.fit)
在R統計軟件, 進行回歸分析可以很方便地完成, 例如主要的回歸分析:
1.Linear Regression: lm(), glm(family=gaussian)
2.Logistic Regression: glm(family=binomial)
3.泊松回歸: glm(family=poission)
4.多元無序回歸: nnet::multinom()
5.多元有序回歸: MASS::polr()
只要確定了函數, 公式, 就可以完成對應的回歸了!
另外, 回歸分析的一個重點步驟, 就是進行啞變量(Dummy)了, 其實在數據庫內, 將變項的類型設定好, 如計數資料設為int, 分類資料設為factor, 在進行主要的回歸分析時, R會自動進行啞變量的處理, 如:
一個數據庫有4個變項(num, brand, female, age), 在初初讀入時全部都設定為int(數值型), 設定brand及female兩變項為factor(分類型)後, 以female為依變項進行Logistic Regression, 即可得:
> log.fit<-glm(female~brand+age,family = binomial,data = example_logistic_regression)
> summary(log.fit)
Call:
glm(formula = female
~ brand + age, family = binomial, data = example_logistic_regression)
Deviance Residuals:
Min
1Q Median 3Q
Max -1.5523 -1.3217 0.8738 0.9375 1.1586
Coefficients:
Estimate Std. Error z value
Pr(>|z|) (Intercept) 1.08843 1.17784 0.924 0.35544
brand3 0.46076 0.22489 2.049 0.04048 *
brand2 0.55677 0.19261 2.891 0.00384 **
age -0.02747 0.03712 -0.740 0.45928
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 965.47 on 734
degrees of freedom
Residual deviance:
956.86 on 731 degrees of freedomAIC: 964.86
Number of Fisher
Scoring iterations: 4
> log.or
Logistic regression predicting female : 1 vs 0
crude OR(95%CI) adj. OR(95%CI)
brand: ref.=1
3 1.47 (0.99,2.16) 1.59 (1.02,2.46)
2 1.68 (1.17,2.42) 1.75 (1.2,2.55)
age (cont. var.) 1.01 (0.94,1.07) 0.97 (0.9,1.05)
P(Wald's test) P(LR-test)
brand: ref.=1 0.014
3 0.04
2 0.004
age (cont. var.) 0.459 0.459
Log-likelihood = -478.4285
No. of observations = 735
AIC value = 964.8569
當然據我所知, R軟件在有些回歸分析中不能自動啞變量的, 就可參考些文章了!
訂閱:
文章 (Atom)