2015年8月21日 星期五

關於大數據的一個很好的短片 (A very good video of Big Data)

    近日在準備一份大數據 (Big Data) 的講義時, 在youtube內看到台灣逢甲大學有關大數據理論與應用的短片 (雖說是短片, 但也有約1小時40分鐘長呢~).
    講者是翟本喬博士, 據了解他是數學的天才, 也是從事電腦資訊相關的專業.
    本片的內容主要有:
1.大數據的基礎及概念
2.大數據現在的應用情況
3.大數據的真正價值
4.那些人能在大數據中能挖到金
5.開於數據平台---TODC
    實在是對大數據的一個很好理解的資訊...

我對大數據 (巨量資料) 的理解 (My understanding of Big Data...)

什麼是Big Data?

我開始學電腦的那些年... 1988 當時使用的是 5’1/4Floppy (360k)!
現在的容量... USB已是數十G; Hard disk已是數百G,  甚至是上T!
現在電腦內的運算器 (CPU)的速度已基本達到頂點. 但處理速度主要受限於: 內存儲器 (RAM).

Big Data: 需要處理的信息量過大, 已經超出了一般電腦在處理數據時所能使用的內存量
     Big data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. (Wikipedia)
     –其實該概念沒有統一的, 仍在變化!

(...後來發現, 若大公司或財團能力可以的話, 儲存器不是問題, 更重要的是如何得到Big Data背後的知識與價值, 於是出現了...)

Big Data分析: 基於資料科學 (數據科學, data science), 主要是希望從大量的資料中找出幕後代表的意義和智慧.   
    –可採用的理論和方法: 訊號處理, 機率統計, 機器學習, 統計學習, 數據挖掘 (data mining)

Big Data 有什麼特點?

3V, 4V 5V ???:
    Volume ()
    Velocity ()
    Variety ()
-----------------------------以上3項是核心, 後來有人加上了第4V/或第5V!
    Veracity (---)
    Value (價值)

以致於以往 (傳統) 的數據技術, 統計技術不能處理 

亦有人提出, 現在Big Data的現象
1.由於數據多, 可處理和某個特別現象相關的所有數據, 而不再依賴於隨機抽樣.
    ---以汽車流量來重建道路為例.
2.研究數據如此之多, 不再追求精確度.
    ---因為已經很精, 幾乎接近總體.
3.不再熱衷於尋找因果關係. (我不太認同!)
    ---以百萬條醫療記錄分析得橙汁與Aspirin可以治癌為例

但是
我們不得不承認... 大數據時間已經來臨了

現在的數據大致上分為那種類?

有別於傳統的統計學數據分類
分為:
    – 數字數據,
    –文字數據 (越來越重要)… facebook, 電郵

    – 結構性: (數字)
    – 非結構性: (文字)

如何處理這些數據?

基本步驟:
收集
儲存: Hadoop
管理
處理: MapReduce (Google)
呈現
私隱
商業模式

數字數據
   建立結構式數據庫
   使用數據庫軟件: SQL, PHYTON
   使用數據挖掘軟件: PASW Modeler (SPSS Clementine), WEKA, Rapid miner…
   使用統計軟件: R
數據處理方法: 分類, 集群, 關聯, (回歸)…

文字數據
   爬蟲軟件
   分類詞庫
   計算相關的統計指標: TF, IDF, TF-IDF… (重要性指標及關聯強度.
分析

是否大數據就是一切?

1. 大數據由何來呢~?
2. 我們有沒有這樣的設備儲存大數據?
3. 我們有沒有這樣的技術處理大數據?
4. 大資料本身是觀察性資料,存在著很多偏倚,例如選擇偏倚、混雜變數和缺乏普遍性;需要建立一個更強大的流行病學研究基礎;
5. 數據處理過程中獲得大量的知識,而同時也必須建立一種方法來整合這些知識;
6. 大資料只是一個形成假設的工具,即便證實了一個強有力的關聯,我們仍然需要圍繞著循證醫學的原則來開展這些檢驗工作;
7. 對大資料分析中的初期研究發現進行拓展。

2015年8月11日 星期二

一款好用, 但小型的醫學統計軟件 --- MedCalc (A very good and useful medical statistical software : MedCalc)

    在剛過去的星期天, 因發現自家的桌面電腦硬磁碟的容量已不多, 加上在國內已註冊了兩個容量也頗大的雲盤”: 360雲盤及百度雲, 也為了有時方便與其他人分享些樂事. 便將過往研習和用過的軟件上傳到雲端去吧!
    加上近來有些朋友忙著和趕著寫論文, 搞統計. 有時急於要知道一些統計的結果, 於是在想: 有否些簡便, 輕巧的統計軟件呢!!!??? 因常用的SPSS, 動輒就要800M, 甚至是1G的安裝空間, 雖然我知也有人把它製成Portable software(綠色/免安裝, 但見過最少也要約300M!). R也有免安裝, 最少的也約100M左右, 但要編程呢

    在上傳的過程中, 發現了以前曾用過的MedCalc醫學統計軟件.
圖1 MedCalc的使用介面
1.我的版本是10.2, 體積只有約3.5M, 很是輕巧呵~ 而在互聯網上查找過最新的版本, 應是15.4! 但體積已去到約50M!!!
~ 版本新了, 體積大了, 是否就功能多了!!!???
我不覺得! 基本功能仍是沒有多大的發展呢只是有了其他的語言版本, : 中文繁簡版本… (但對於統計人來說, 最好仍是使用英文版, 所以對我的作用不大)

2.它基本可以使用很多常見格式的資料庫文件, : xls, xlsm, csv, sav, …; 基本上都夠用呢~
圖2 它的統計分析選單, 基本已夠用啦~

3.在操作上, 也是用拉下菜單,

4.誠言, 如果是處理些簡易的統計分析, 應是足夠的. 但是處理些較複雜的分析, 就較陽春. (咁小體積, 豈能要求很多嗎!?)

5.它要註冊的

6.為檢視它的結果準確性, 在上下載了titanic3.xls, SPSS對比作個ANOVA分析, 依變項 (Y) 是fare, 自變項 (X) 是pclass.
MedCalc 的結果與SPSS的基本是一致的!
圖3 MedCalc的統計分析結果
SPSSANOVA結果
變異數同質性檢定
fare



Levene 統計量
分子自由度
分母自由度
顯著性
305.478
2
1305
.000
ANOVA
fare






平方和
自由度
平均平方和
F 檢定
顯著性
組間
1272985.888
2
636492.944
372.742
.000
組內
2228414.489
1305
1707.597


總和
3501400.377
1307



fare

pclass
個數
alpha = 0.05 的子集

1
2
3
Scheffe a
3
708
13.302889


2
277

21.179196

1
323


87.508992
顯著性

1.000
1.000
1.000
顯示的是同質子集中組別的平均數。
 a. 使用調和平均數樣本大小 = 369.526




參考資料: biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls

2015.10.27 更新

近日發現, 有些外國人已將最新的MedCalc 15.8制作成為綠色軟件 (http://www.up77.com/Ce357), 似乎界面是有些改變了...

2018.08.04 更新

MedCalc 18.2免安裝版
http://dl.downloadly.ir/Files/Software2/MedCalc_18.2.1_x86_Multilingual_Portable_Downloadly.ir.rar
Password: www.downloadly.ir  (其實試用時不用輸入密碼, 文件即可解壓)