2015年8月21日 星期五

我對大數據 (巨量資料) 的理解 (My understanding of Big Data...)

什麼是Big Data?

我開始學電腦的那些年... 1988 當時使用的是 5’1/4Floppy (360k)!
現在的容量... USB已是數十G; Hard disk已是數百G,  甚至是上T!
現在電腦內的運算器 (CPU)的速度已基本達到頂點. 但處理速度主要受限於: 內存儲器 (RAM).

Big Data: 需要處理的信息量過大, 已經超出了一般電腦在處理數據時所能使用的內存量
     Big data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. (Wikipedia)
     –其實該概念沒有統一的, 仍在變化!

(...後來發現, 若大公司或財團能力可以的話, 儲存器不是問題, 更重要的是如何得到Big Data背後的知識與價值, 於是出現了...)

Big Data分析: 基於資料科學 (數據科學, data science), 主要是希望從大量的資料中找出幕後代表的意義和智慧.   
    –可採用的理論和方法: 訊號處理, 機率統計, 機器學習, 統計學習, 數據挖掘 (data mining)

Big Data 有什麼特點?

3V, 4V 5V ???:
    Volume ()
    Velocity ()
    Variety ()
-----------------------------以上3項是核心, 後來有人加上了第4V/或第5V!
    Veracity (---)
    Value (價值)

以致於以往 (傳統) 的數據技術, 統計技術不能處理 

亦有人提出, 現在Big Data的現象
1.由於數據多, 可處理和某個特別現象相關的所有數據, 而不再依賴於隨機抽樣.
    ---以汽車流量來重建道路為例.
2.研究數據如此之多, 不再追求精確度.
    ---因為已經很精, 幾乎接近總體.
3.不再熱衷於尋找因果關係. (我不太認同!)
    ---以百萬條醫療記錄分析得橙汁與Aspirin可以治癌為例

但是
我們不得不承認... 大數據時間已經來臨了

現在的數據大致上分為那種類?

有別於傳統的統計學數據分類
分為:
    – 數字數據,
    –文字數據 (越來越重要)… facebook, 電郵

    – 結構性: (數字)
    – 非結構性: (文字)

如何處理這些數據?

基本步驟:
收集
儲存: Hadoop
管理
處理: MapReduce (Google)
呈現
私隱
商業模式

數字數據
   建立結構式數據庫
   使用數據庫軟件: SQL, PHYTON
   使用數據挖掘軟件: PASW Modeler (SPSS Clementine), WEKA, Rapid miner…
   使用統計軟件: R
數據處理方法: 分類, 集群, 關聯, (回歸)…

文字數據
   爬蟲軟件
   分類詞庫
   計算相關的統計指標: TF, IDF, TF-IDF… (重要性指標及關聯強度.
分析

是否大數據就是一切?

1. 大數據由何來呢~?
2. 我們有沒有這樣的設備儲存大數據?
3. 我們有沒有這樣的技術處理大數據?
4. 大資料本身是觀察性資料,存在著很多偏倚,例如選擇偏倚、混雜變數和缺乏普遍性;需要建立一個更強大的流行病學研究基礎;
5. 數據處理過程中獲得大量的知識,而同時也必須建立一種方法來整合這些知識;
6. 大資料只是一個形成假設的工具,即便證實了一個強有力的關聯,我們仍然需要圍繞著循證醫學的原則來開展這些檢驗工作;
7. 對大資料分析中的初期研究發現進行拓展。

沒有留言:

張貼留言