什麼是Big Data?
我開始學電腦的… 那些年... 1988 當時使用的是 5’1/4吋Floppy (360k)!現在的容量... USB已是數十G; Hard disk已是數百G, 甚至是上T了!
現在電腦內的運算器 (CPU)的速度已基本達到頂點. 但處理速度主要受限於: 內存儲器 (RAM).
Big Data: 需要處理的信息量過大, 已經超出了一般電腦在處理數據時所能使用的內存量
Big data is a broad term for data sets so large or complex
that traditional data
processing applications are inadequate. (Wikipedia)–其實該概念沒有統一的, 仍在變化!
(...後來發現, 若大公司或財團能力可以的話, 儲存器不是問題, 更重要的是如何得到Big
Data背後的知識與價值, 於是出現了...)
Big Data分析: 基於資料科學 (數據科學, data science), 主要是希望從大量的資料中找出幕後代表的意義和智慧.
–可採用的理論和方法: 訊號處理, 機率統計, 機器學習, 統計學習, 數據挖掘 (data mining)
Big Data 有什麼特點?
3V, 4V 或 5V ???:Volume (多)
Velocity (快)
Variety (變)
-----------------------------以上3項是核心, 後來有人加上了第4個V和/或第5個V!
Veracity (準---錯)
Value (價值)
以致於以往 (傳統) 的數據技術, 統計技術不能處理
亦有人提出, 現在Big Data的現象…
1.由於數據多, 可處理和某個特別現象相關的所有數據, 而不再依賴於隨機抽樣. ---以汽車流量來重建道路為例.
2.研究數據如此之多, 不再追求精確度.
---因為已經很精, 幾乎接近總體.
3.不再熱衷於尋找因果關係. (我不太認同!)
---以百萬條醫療記錄分析得橙汁與Aspirin可以治癌為例…
但是…
我們不得不承認... 大數據時間已經來臨了…
現在的數據大致上分為那種類?
• 有別於傳統的統計學數據分類…• 分為:
– 數字數據,
–文字數據 (越來越重要)… facebook, 電郵…
– 結構性: (數字)
– 非結構性: (文字)
如何處理這些數據?
• 基本步驟:收集
儲存: Hadoop
管理
處理: MapReduce (Google)
呈現
私隱
商業模式
數字數據
建立結構式數據庫使用數據庫軟件: SQL, PHYTON
使用數據挖掘軟件: PASW Modeler (SPSS Clementine), WEKA, Rapid miner…
使用統計軟件: R
數據處理方法: 分類, 集群, 關聯, (回歸)…
文字數據
爬蟲軟件分類詞庫
計算相關的統計指標: TF, IDF, TF-IDF… (重要性指標及關聯強度.
分析…
是否大數據就是一切?
1. 大數據由何來呢~?2. 我們有沒有這樣的設備儲存大數據?
3. 我們有沒有這樣的技術處理大數據?
4. 大資料本身是觀察性資料,存在著很多偏倚,例如選擇偏倚、混雜變數和缺乏普遍性;需要建立一個更強大的流行病學研究基礎;
5. 數據處理過程中獲得大量的知識,而同時也必須建立一種方法來整合這些知識;
6. 大資料只是一個形成假設的工具,即便證實了一個強有力的關聯,我們仍然需要圍繞著循證醫學的原則來開展這些檢驗工作;
7. 對大資料分析中的初期研究發現進行拓展。
沒有留言:
張貼留言