2015年3月29日 星期日

R在各種統計編程語言中的排名 (The rank of R in some Statistical languages)



    在90年代讀本科時, 就曾接觸過醫學統計; 但那時的醫學統計學是依附在衛生學內, 且只是很簡單地說說就是了. 而統計軟件的操作, 當時是集體到計算機大樓上的, 是用DOS版的SPSS… 那時感到不太好操作, 因為要編程的呢那時豈有R統計語言呢!
    
    直到2005代讀碩士時, 醫學統計學就已獨立成一門學科. 有自己的獨立教材, SPSS也已有Window版本的第13, 感到很是好用; 因為只是選單形式操作, 告別了編程但仍未知有R~
碩士畢業後, 隨著工作上的應用, 慢慢發覺SPSS... 是很好用的, 但欠缺了靈活性, 於是自己研究了些可編程的統計軟件, SASSTATAR.
    SAS在國際上是廣被承認, 但編程軟煩鎖, 不太直觀; 而且很難取得. 就算是得到了, 也要不斷地找它的破解文件, 程式的體積也是很巨牛, 動徹就是數G~
    STATA我也很喜歡用, 就算是最新的第13, 體積也只近250M左右; 它有Put down menu, 也可編程, 所編的程式也很簡潔和直觀, 另外, 它的圖比SAS更美!(個人觀點). 但也是一個商業軟件(即要購買使用執照), 雖然民間有很多破解方法, 其更新也很容易, 還是不好的
    R是近年漸喜愛的:
體積很小(原始的只有60M左右),
完全免費, 下載方便外;
其更新很快(約半年更新1);
編程簡潔直觀及靈活;
若配合R Studio及其他的packages, 也可有軟美觀的輸入版面.
昨天在網頁內看到它的排名, 穩佔第一; 當然這些排名有時是值得懷疑, 但也可作為一種了解吧!


參考資料:

2015年3月22日 星期日

數據挖掘與Weka (Data mining and Weka…)



    數據挖掘就是指在龐大的數據庫中, 應用一些技術或方法, 去找到數據之間的關係, 從而認識它們之間的規律, 形成有用的訊息或知識等 (這僅是我個人的認識)…

    首先要指出的, 數據挖掘與大數據的關係. 當然, 在大數據之中, 人們很難用常用的統計軟件, 常用的統計方法去了解數據之間的關係, 所以大數據就常用數據挖掘. 但是其他中型的數據庫, 我想也可以數據挖掘方法, 尋找一些變項間有否新奇的關係及現象呢~

    其次, 現在的數據挖掘主要有那些方法呢? 據我所知, 主要有: 分類法聚類法關聯法、預測法等(詳細的內容不說啦! 可在網頁上找到很多呢!)

數據挖掘常用的軟件有那些呢? 商業的軟件有SPSS Clementine (PASW Modeler), SASEM模块; 免費軟件有Weka, RapidMiner(據聞它慢慢商業化了! 即要收錢, 就算是免費, 功能也有限制).
這是SPSS的Clementine的挖掘流操作介面
我曾用過Clementine, 它很好, 主要是在砌數據流, 就可很快地出結果, 而分析的技術也較多, 使用上也較易呢但可惜的是它不是免費, 而且體積較龐大

SASEM…雖然曾了解過, 但使用上據知不是太方便(雖然也是砌數據流), 而且除了它是收費外, 也很難取得, 所以並沒有細心用過

Weka... 我得知很久了, 近來學習著. 除免費外, 體積不是很大, 算算只有約60M; 它除提供了數據流方法外, 還提供了單個分析方法及實驗性的分析方法, 還是不錯啊!!! 當然也有不足之處, 就是要先安裝JAVA軟件, 其次是使用上較Clementine 稍難. 但稍為學習, 仍是較易的啦~~~

Weka的單項數據挖掘功能界面(Explorer)
參考資料:
Weka的挖掘流操作界面(Knowledge Flow), 與Clementine相比, 功能選項要多很多呢~

後記:
昨天閱讀了一篇文章:国外主要可视化数据挖掘开源软件的比较分析研究
它比較了Weka, RapidMiner, Orange及另一款開源數據挖掘軟件的功能, 提示RapidMiner是四種之中最好的... 有機會要學習一吓~~~(2015.03.28)  

An overview of free software tools for general data mining (2015.3.31)