An Epidemiologist + Health Statistician in Macao CHINA: 數據挖掘與Weka (Data mining and Weka…)

數據挖掘就是指在龐大的數據庫中, 應用一些技術或方法, 去找到數據之間的關係, 從而認識它們之間的規律, 形成有用的訊息或知識等 (這僅是我個人的認識)…

首先要指出的, 數據挖掘與大數據的關係. 當然, 在大數據之中, 人們很難用常用的統計軟件, 常用的統計方法去了解數據之間的關係, 所以大數據就常用數據挖掘. 但是其他中型的數據庫, 我想也可以數據挖掘方法, 尋找一些變項間有否新奇的關係及現象呢~

其次, 現在的數據挖掘主要有那些方法呢? 據我所知, 主要有: 分類法、聚類法、關聯法、預測法等(詳細的內容不說啦! 可在網頁上找到很多呢!)

咁… 數據挖掘常用的軟件有那些呢? 商業的軟件有SPSS Clementine (即PASW Modeler), SAS的EM模块; 免費軟件有Weka, RapidMiner(據聞它慢慢商業化了! 即要收錢, 就算是免費, 功能也有限制).

這是SPSS的Clementine的挖掘流操作介面

我曾用過Clementine, 它很好, 主要是在砌”數據流”後, 就可很快地出結果, 而分析的技術也較多, 使用上也較易呢… 但可惜的是它不是免費, 而且體積較龐大.

SAS的EM…雖然曾了解過, 但使用上據知不是太方便(雖然也是砌數據流), 而且除了它是收費外, 也很難取得, 所以並沒有細心用過…

Weka嘛... 我得知很久了, 近來學習著. 除免費外, 體積不是很大, 算算只有約60M; 它除提供了數據流方法外, 還提供了單個分析方法及實驗性的分析方法, 還是不錯啊!!! 當然也有不足之處, 就是要先安裝JAVA軟件, 其次是使用上較Clementine 稍難. 但稍為學習, 仍是較易的啦~~~