2018年6月9日 星期六

大數據與R統計分享 (Sharing Big Data and R statistical Language)

    自從我研究統計, 尤是"衛生統計學"後(2005年開始吧!) 統計學近10多年有著很大的改變... 其中之一就是出現了"大數據"的概念.
    我記得研究生時, 教我統計學的老師, 仍是說: 抽樣... 由樣本統計量推向參數... 然而, 大數據因為大得可怕, 動輒就是數個GB, TB 甚至是PB的儲存量, 數據資料也來自廣大人群, 又何需要抽樣... 當然, 它的代表性及數據背後的意義與價值, 又是另一回事吧!
    所以一值都想學習大數據的處理與分析.
    自己也一直有些擔憂: 自己的沒有強的數學背景, 對統計或數學的理解不容易; 沒有很好的電腦編程基礎呵...

    近日從網絡上看到一本"被"掃瞄的相關書籍: 大數據分析: R基礎與應用. 便下載回來學習.
    該書不厚, 約有150多頁,內有些R語言編程及圖表說明, 所以我讀的較快 (約花了1個月吧!)
    它主要分開4部分:
1.大數據的基礎知識;
2.R統計語言的基礎知識與使用技巧;
3.一些較高級的統計內容與數據挖掘(Data Mining);
4.大數據分析的基本分析方法...
    總的來說, 前3部分還是寫的不錯, 言駭意簡. 但第4部分就寫得不好, 因為很多數學推導的內容, 而R實踐部分就"簡略"了很多; 讓我有感"接不下去"的感覺(或許是我這方面的知識膚淺呢!).
所以它適合有統計學基礎的讀者呵...

    好! 繼續努力~

沒有留言:

張貼留言