2018年6月9日 星期六

大數據與R統計分享 (Sharing Big Data and R statistical Language)

    自從我研究統計, 尤是"衛生統計學"後(2005年開始吧!) 統計學近10多年有著很大的改變... 其中之一就是出現了"大數據"的概念.
    我記得研究生時, 教我統計學的老師, 仍是說: 抽樣... 由樣本統計量推向參數... 然而, 大數據因為大得可怕, 動輒就是數個GB, TB 甚至是PB的儲存量, 數據資料也來自廣大人群, 又何需要抽樣... 當然, 它的代表性及數據背後的意義與價值, 又是另一回事吧!
    所以一值都想學習大數據的處理與分析.
    自己也一直有些擔憂: 自己的沒有強的數學背景, 對統計或數學的理解不容易; 沒有很好的電腦編程基礎呵...

    近日從網絡上看到一本"被"掃瞄的相關書籍: 大數據分析: R基礎與應用. 便下載回來學習.
    該書不厚, 約有150多頁,內有些R語言編程及圖表說明, 所以我讀的較快 (約花了1個月吧!)
    它主要分開4部分:
1.大數據的基礎知識;
2.R統計語言的基礎知識與使用技巧;
3.一些較高級的統計內容與數據挖掘(Data Mining);
4.大數據分析的基本分析方法...
    總的來說, 前3部分還是寫的不錯, 言駭意簡. 但第4部分就寫得不好, 因為很多數學推導的內容, 而R實踐部分就"簡略"了很多; 讓我有感"接不下去"的感覺(或許是我這方面的知識膚淺呢!).
所以它適合有統計學基礎的讀者呵...

    好! 繼續努力~

2018年6月3日 星期日

澳門腸道病毒感染的時空分析 (Spatial temporal analysis of enterovirus infection in Macao---My new artical is published in Chinese Journal of Epidemiology)

    這篇文章的題目是"我国澳门地区2011-2016年肠道病毒感染时空分析". 被刊登在中華流行病學雜誌上.
    其實從題目, 就可知道它的內容了...

    但想分享的, 是要感恩兩位指導老師: 
第一位是姜老師, 因為它對於內容中使用的時空分析法, 提出了很多寶貴的意見; 另外, 在數據質量一般的情況下, 如何確保樣本的代表性? 姜老師也花了些心神特別提醒晚輩的我.
第二位當然是我的博導---陳老師, 由內容的修訂, 簽署的文件, 乃至投稿的費用, 都花了很多的腦汁...

    其次, 想說的是, 已工作的我, 要寫科研文章投稿, 不是易事! 因為一來數據來源貧乏, 很難寫出好的科研文章. 其次工作與家庭, 孩子的照顧, 已花了很多的精神呵...
    但作為科研中人, 發表文章是..."能力可及則應盡力而為的事"
    繼續努力...