2015年2月23日 星期一

R統計軟件的學習 (Studing R statistical package and language, Very useful!)

    由上星期三(2015年2月19日)的下午到今日(2015年2月23日)是新春的假期, 因為想寫文章, 所以獨自留在家中; 而太太及兩位公子回了娘家過節了.
    但是寫文章不成事啦~~~ 因為手提電腦壞掉. 但仍趁著休息的時間, 加深學習我嚮往的R統計軟件及語言.

    近日斷斷續續地讀了一本網上找到的讀物"R軟件操作入門", 寫的很好! 該讀本只有不足100頁, 就很簡明握要地把R統計軟件的操作步驟都說明了... 是很好的入門讀物, 值得推薦呢~~~

    誠言,
SPSS軟件: 我基本已有掌握 (我認為這是生命科學或社會科學工作者應掌握的); 更重要的是, 它的使用是固定的, 較少靈活性, 限制了我的思考...
也曾學習過SAS軟件, 但SAS也要編程, 個人認為也較R稍難; 而且SAS軟件的體積也很大, 擴展性也不太好! 最為人疚柄的是它是一個商業軟件! (當然, 也有翻版, 但我並不想用呢~)
    當然, R也有它的缺點, 那就是要編程, 所以使用上較困難呢~, 尤其是初入門時, 但適應過後, 就會慢慢嚐到它的好處: 免費, 靈活和強大功能等...

    其實之前我也閱習過不少的R資料, 分享如下:
1. 網頁的: R的世界, R演習室...
2. 閱讀材料: R軟件操作入門, 統計學與R三小時入門, R语言统计分析软件简明教程...

    只要細心找找, 在網絡世界裏有很多相關的資料呢!  

2015年2月18日 星期三

笑看報章上的某些研究公佈 (Laughing to read the research’s results on Newspaper…)

    昨晚在某免費的報章頭版上, 讀到一則有關青少年的調查, 內容是調查青年人對升學、就業、婚戀、金錢價值及消費等

    作為有科研背景的我來說, 第一件事就是閱讀該研究的抽樣情況, 它提到報告根據街頭隨機訪問超過2,4001329歲在學或在職青年人”. 我心內就知道, 這個研究的質素是存疑的, 結果是令人可質疑的為什麼?
    因為抽樣最重要的作用, 是抽出來的樣本能代表被研究的總體; 如現在是研究1329歲的在學或在職青年人, 抽出來的樣本2400人就應能代表這群人, 若不能代表的話, 那結果又有何意思呢!?
    第二個重要的問題是: 街頭隨機訪問是否一個很好的抽樣方法呢? 誠然地說, 是一個很差的方法! 為什麼?
1/在那個街頭進行呢? 不同的區, 不同的街頭, 青少年的背景可能有很大的分別
2/在那個時間進行呢? 在不同的時間, 青少年在街上的組成可能很不同! 如在正常的日間時間, 在學的要上課, 在職的要上班, 那麼在街上且能被人訪問的青少年是否俗稱是“雙失青少年”的機會較大; 若是! 那這個結果就肯定偏離了正常啦那結果可能讓正常的青少年蒙上污名呢~
3/訪問員以什麼角度選擇受訪對象呢? 這個研究的課題是較敏感的, 訪問員就很容易“有選擇性”地選對象呵!
4/這個樣本量是否足夠呢!?
5/擇寫這報告的人又帶有什麼的觀點與性質呢?
6/該研究的主要目的/作用又是什麼呢~

    當然, 因我沒有詳細地閱讀過這份研究報告, 所以不敢加以評論
    但是! 一項研究花費了很多時間、金錢、人力、物力,結果也可能為社會帶來好處/污名時, 研究者就應有: 盡力確保研究是準確的責任! 否則小的只是笑話一樁, 大的就浪費了納稅人的錢, 且會引起污名化!!!

    而我們作為文明人, 亦應對這些研究持“批判的”和“平常心的”態度看待.

2015年2月16日 星期一

結構方程模型是否合適呢!? (Is it goodness of fit of structural equation model?)

    一個結構方程模型是否良好? 與實際的數據擬合是否很貼適, 都有一定的指標作參考的! :
    誤差變異數不能為負值。
    所有誤差變異數須達顯著水準。
    參數統計量間的相關絕對值不能太接近1
    因素負荷量約在0.5-0.95間。
    標準誤不能太大。
整體模式適配度指標:外在品質評估
絕對適配度指標
標準
χ2
> α
χ2 /df (NC)
1~3
GFIAGFI
> 0.9
RMR
< 0.05
SRMR(AMOS須另外計算)
< 0.05
RMSEA
< 0.05
NCP
愈小愈好,信賴區間含0
ECVI
用於不同模式的相對比較,相對小者較好
理論模式比飽和模式與獨立模式的值還小
增值適配度指數
標準
NFIRFIIFITLI/NNFICFI
> 0.9
簡約適配度指數
標準
PGFIPNFI
> 0.5
CN
> 200
AICCAIC
用於不同模式的相對比較,相對小者較好
理論模式比飽和模式與獨立模式的值還小

模式內在結構適配度評估(內在品質評估)
    除整體模式適配之外,深入探討每一個參數,對理論的驗證更能獲得保障。
    測量模式的評鑑:觀察變項與潛在變項的關聯,即潛在變項的信度與效度考驗。
    個別觀察變項的項目信度(individual item reliability)在0.5以上,即因素負荷量的平方值。
    潛在變項的組合信度(composite reliability)在0.6以上。
    潛在變項的平均變異數萃取量(average variance extracted)在0.5以上。
    參數統計量的估計值達顯著水準(t or CR大於1.96)。
    標準化殘差的絕對值小於2.58/3(可於AMOSResidual Covariance矩陣獲得)。
    修正指標(modification indices)小於3.84AMOS的預設值為4)。
    結構模式的評鑑:確認外衍與內衍變項的解釋或預測關係是否成立。
    外衍與內衍變項的路徑係數是否顯著,正負向關係是否與理論相符。
    參數統計量的估計值達顯著水準(t or CR大於1.96)。
    R2愈高,則解釋力/預測力愈高。

    但是我個人而言, 一個模型(無論是什麼的), 更重要的是: 是否合符實際常理, 以及能否被現實的研究 \ 數據所證實 \ 支持呵~


2015年2月14日 星期六

如何用Mplus測量潛變量呢!? (How to test the latent variables by using Mplus!?)

    記得在做我的博士論文課題時, 為想了解某一特殊人群的不良行為背後原因, 使用了結構線性模型(Structural Equation Model, SEM).

    其實在現實的世界中, 很多的事實是不能透過如問卷、數據測量等形式去量度的, 好似有: 認知、態度等; 雖然現在仍有很多人用KAP(Knowledge Attitudes and Practice k-a-p survey)問卷對研究對象進行調查, 但往往只能得到較淺表的分析結果, 且結果的擬合效果都不是太好呵!~ 究其原因, 問卷的題目都是“顯性變項, 我們常為了對方易於理解和方便作常, 也因方便測量, 所以題目都應設計得顯淺易明和可被測量的。但是現實中, 有很多是不能直接被測量的, 只能經由“顯性變項”的理解後才能有所認識和體會; 如對某問題的認知, 只能透過對該問題的知識測驗, 才能大約有所了解, 對於這些“不能直接被測量的”認識和體會, 若化身成變項, 就是“潛在變項”。

    在統計/數學上又是如何理解呢!? 據我所知,潛在變項是在顯性變項的數據模型中, 與“預期”的數據模型作對比分析(驗證性分析,Confirmatory Factor Analysis, CFA), 兩模型的差距(即誤差項), 盡量由潛在變項來解釋; 為了這樣的解釋, 有時預期模型及潛在變項需要作多次的修改, 以便達到較好的配適度(good of fitness).

    在我的博士論文內, 為了作這個SEM, 使用了SPSSAMOS軟件. AMOS有其優點, 就是可直接與SPSS連接, 這樣在建立和設定模型的變項就很方便, 而且它也是用“拼圖”的形式在砌這個預期模型, 所以較容易上手吧! 但是據知它的數據類型有限制呢~ 最近雖然畢業了, 但學習了一款近年在處理該問題時, 新興的軟件---Mplus. 它對數據類型限制上較寬鬆, 雖然要寫程式, 但不太困難吧
    它的程式語句中, 要項只有10:
TITLE: a title for the analysis (not part of the syntax)
DATA: (required) information about the data set
VARIABLE: (required) information about the variables in the data set
DEFINE: transform existing variables and create new variables
ANALYSIS: technical details of the analysis
MODEL: describe the model to be estimated
OUTPUT: request additional output
SAVEDATA: save the analysis data, auxiliary data, and results
PLOT: request graphical displays of observed data and results
MONTECARLO: details of a simulation study
    例如在這個模型中, 程序示範如下:
TITLE: Wheaton et al. Example 1: Full SEM
DATA: FILE IS " d: \精神错乱.dat";
VARIABLE:
NAMES ARE X1 X2 Y1 Y2 Y3 Y4;
USEVARIABLES ARE X1X2 Y1Y4;
ANALYSIS: TYPE = general;
MODEL:
F1 BY X1 X2;
F2 BY Y1 Y2;
F3 BY Y3 Y4;
F2 ON F1;
F3 ON F1 F2;
OUTPUT: standardized sampstat modindices (4) ;
    如果您有SEM的知識, 又或使用AMOS的經驗, 其結果的解釋就不太困難了





參考資料:
1. http://whqlibdoc.who.int/publications/2008/9789241596176_eng.pdf
2. The Mplus modelling framework
3. Mplus 6.0软件的介绍与应用

2015年2月13日 星期五

訊息的可視化! (The visualization of information)

    在不久前聽了一名前輩講述有關流行病學研究方法的發展、困難與挑戰的講座, 他談了很多新的發展動向及hotspot, 如:大數據分析、基因組及分子流行病學等; 是的!對該方向有一個大致的了解。心想: 雖然他是國內流行病學的專家學者, 但這些動向都可能是他個人的意見, 有主觀性! 有否些能客觀表達新動向的?
    數日後, 在《中華流行病學雜誌》讀到1篇有關: H1N1流感文獻的計量學和信息可視化分析; 作者用了兩款軟件: VOSviewerCiteSpace; 能較客觀地展現了H1N1流感研究的熱點和方向等, 於是對這些軟件稍作了解及操作:
    目前主要該方面的軟件有:
     當中的CiteSpace因能兼容中文, 所以使用較廣; 而論及功能上, Sci2SciMAT這兩款都較強大, 而且可免費下載, 也不用太多配置和預設條件, 所以是國際上較歡迎的… VOSviewer… 我個人感覺而言, 它的圖片處理效果較好及直觀呢! 若它配合其他的文獻計量軟件使用, 是能更上一層樓啊

    台灣也有教授制作了一款文獻內容探勘工具-CATAR, 我也嘗試了解一下, 但發現它在安裝前先要安裝其他的軟件、教學軟件也只有要人依模板做, 沒有詳細的解說; 最後, 它的結果圖解讀上也較困難啊

參考資料
2.知識圖譜工具比較研究