2015年3月22日 星期日

數據挖掘與Weka (Data mining and Weka…)



    數據挖掘就是指在龐大的數據庫中, 應用一些技術或方法, 去找到數據之間的關係, 從而認識它們之間的規律, 形成有用的訊息或知識等 (這僅是我個人的認識)…

    首先要指出的, 數據挖掘與大數據的關係. 當然, 在大數據之中, 人們很難用常用的統計軟件, 常用的統計方法去了解數據之間的關係, 所以大數據就常用數據挖掘. 但是其他中型的數據庫, 我想也可以數據挖掘方法, 尋找一些變項間有否新奇的關係及現象呢~

    其次, 現在的數據挖掘主要有那些方法呢? 據我所知, 主要有: 分類法聚類法關聯法、預測法等(詳細的內容不說啦! 可在網頁上找到很多呢!)

數據挖掘常用的軟件有那些呢? 商業的軟件有SPSS Clementine (PASW Modeler), SASEM模块; 免費軟件有Weka, RapidMiner(據聞它慢慢商業化了! 即要收錢, 就算是免費, 功能也有限制).
這是SPSS的Clementine的挖掘流操作介面
我曾用過Clementine, 它很好, 主要是在砌數據流, 就可很快地出結果, 而分析的技術也較多, 使用上也較易呢但可惜的是它不是免費, 而且體積較龐大

SASEM…雖然曾了解過, 但使用上據知不是太方便(雖然也是砌數據流), 而且除了它是收費外, 也很難取得, 所以並沒有細心用過

Weka... 我得知很久了, 近來學習著. 除免費外, 體積不是很大, 算算只有約60M; 它除提供了數據流方法外, 還提供了單個分析方法及實驗性的分析方法, 還是不錯啊!!! 當然也有不足之處, 就是要先安裝JAVA軟件, 其次是使用上較Clementine 稍難. 但稍為學習, 仍是較易的啦~~~

Weka的單項數據挖掘功能界面(Explorer)
參考資料:
Weka的挖掘流操作界面(Knowledge Flow), 與Clementine相比, 功能選項要多很多呢~

後記:
昨天閱讀了一篇文章:国外主要可视化数据挖掘开源软件的比较分析研究
它比較了Weka, RapidMiner, Orange及另一款開源數據挖掘軟件的功能, 提示RapidMiner是四種之中最好的... 有機會要學習一吓~~~(2015.03.28)  

An overview of free software tools for general data mining (2015.3.31)

沒有留言:

張貼留言