自從我研究統計, 尤是"衛生統計學"後(2005年開始吧!) 統計學近10多年有著很大的改變... 其中之一就是出現了"大數據"的概念.
我記得研究生時, 教我統計學的老師, 仍是說: 抽樣... 由樣本統計量推向參數... 然而, 大數據因為大得可怕, 動輒就是數個GB, TB 甚至是PB的儲存量, 數據資料也來自廣大人群, 又何需要抽樣... 當然, 它的代表性及數據背後的意義與價值, 又是另一回事吧!
所以一值都想學習大數據的處理與分析.
自己也一直有些擔憂: 自己的沒有強的數學背景, 對統計或數學的理解不容易; 沒有很好的電腦編程基礎呵...
近日從網絡上看到一本"被"掃瞄的相關書籍: 大數據分析: R基礎與應用. 便下載回來學習.
該書不厚, 約有150多頁,內有些R語言編程及圖表說明, 所以我讀的較快 (約花了1個月吧!)
它主要分開4部分:
1.大數據的基礎知識;
2.R統計語言的基礎知識與使用技巧;
3.一些較高級的統計內容與數據挖掘(Data Mining);
4.大數據分析的基本分析方法...
總的來說, 前3部分還是寫的不錯, 言駭意簡. 但第4部分就寫得不好, 因為很多數學推導的內容, 而R實踐部分就"簡略"了很多; 讓我有感"接不下去"的感覺(或許是我這方面的知識膚淺呢!).
所以它適合有統計學基礎的讀者呵...
好! 繼續努力~
I wanna... to share some Epidemiological and Statistical things with you... ha-ha... (in Chinese-Big5)
2018年6月9日 星期六
2018年6月3日 星期日
澳門腸道病毒感染的時空分析 (Spatial temporal analysis of enterovirus infection in Macao---My new artical is published in Chinese Journal of Epidemiology)
這篇文章的題目是"我国澳门地区2011-2016年肠道病毒感染时空分析". 被刊登在中華流行病學雜誌上.
其實從題目, 就可知道它的內容了...
但想分享的, 是要感恩兩位指導老師:
第一位是姜老師, 因為它對於內容中使用的時空分析法, 提出了很多寶貴的意見; 另外, 在數據質量一般的情況下, 如何確保樣本的代表性? 姜老師也花了些心神特別提醒晚輩的我.
第二位當然是我的博導---陳老師, 由內容的修訂, 簽署的文件, 乃至投稿的費用, 都花了很多的腦汁...
其次, 想說的是, 已工作的我, 要寫科研文章投稿, 不是易事! 因為一來數據來源貧乏, 很難寫出好的科研文章. 其次工作與家庭, 孩子的照顧, 已花了很多的精神呵...
但作為科研中人, 發表文章是..."能力可及則應盡力而為的事"
繼續努力...
其實從題目, 就可知道它的內容了...
但想分享的, 是要感恩兩位指導老師:
第一位是姜老師, 因為它對於內容中使用的時空分析法, 提出了很多寶貴的意見; 另外, 在數據質量一般的情況下, 如何確保樣本的代表性? 姜老師也花了些心神特別提醒晚輩的我.
第二位當然是我的博導---陳老師, 由內容的修訂, 簽署的文件, 乃至投稿的費用, 都花了很多的腦汁...
其次, 想說的是, 已工作的我, 要寫科研文章投稿, 不是易事! 因為一來數據來源貧乏, 很難寫出好的科研文章. 其次工作與家庭, 孩子的照顧, 已花了很多的精神呵...
但作為科研中人, 發表文章是..."能力可及則應盡力而為的事"
繼續努力...
訂閱:
文章 (Atom)