數據挖掘就是指在龐大的數據庫中, 應用一些技術或方法, 去找到數據之間的關係, 從而認識它們之間的規律, 形成有用的訊息或知識等 (這僅是我個人的認識)…
首先要指出的, 數據挖掘與大數據的關係. 當然, 在大數據之中, 人們很難用常用的統計軟件,
常用的統計方法去了解數據之間的關係, 所以大數據就常用數據挖掘. 但是其他中型的數據庫, 我想也可以數據挖掘方法, 尋找一些變項間有否新奇的關係及現象呢~
其次, 現在的數據挖掘主要有那些方法呢? 據我所知, 主要有: 分類法、聚類法、關聯法、預測法等(詳細的內容不說啦! 可在網頁上找到很多呢!)
咁… 數據挖掘常用的軟件有那些呢? 商業的軟件有SPSS Clementine (即PASW Modeler), SAS的EM模块; 免費軟件有Weka, RapidMiner(據聞它慢慢商業化了! 即要收錢, 就算是免費, 功能也有限制).
這是SPSS的Clementine的挖掘流操作介面 |
SAS的EM…雖然曾了解過, 但使用上據知不是太方便(雖然也是砌數據流), 而且除了它是收費外, 也很難取得, 所以並沒有細心用過…
Weka嘛... 我得知很久了, 近來學習著. 除免費外, 體積不是很大, 算算只有約60M; 它除提供了數據流方法外, 還提供了單個分析方法及實驗性的分析方法, 還是不錯啊!!! 當然也有不足之處,
就是要先安裝JAVA軟件, 其次是使用上較Clementine 稍難. 但稍為學習,
仍是較易的啦~~~
Weka的挖掘流操作界面(Knowledge Flow), 與Clementine相比, 功能選項要多很多呢~ |
後記:
昨天閱讀了一篇文章:国外主要可视化数据挖掘开源软件的比较分析研究
它比較了Weka, RapidMiner, Orange及另一款開源數據挖掘軟件的功能, 提示RapidMiner是四種之中最好的... 有機會要學習一吓~~~(2015.03.28)
沒有留言:
張貼留言