2015年5月13日 星期三

新版的Stata(14版)統計軟件 (A new version statistical package --- STATA 14)



    在我的日常工作中, 需要處理統計的工作時, 常首選SPSS; 因為當初學習統計軟體時就是使用它, 習慣了吧!(心知習慣是很壞的惡勢力...) 而且在思考分析方案時, 只需簡易地點數點, 就有很多結果出來, 然後從中撰取有用的資料, 即不用多費神去編程啊.
    SPSS軟體有其不足的, 就是操作欠靈活, 只能按固有的操作步驟; 而且僅能從一大堆的結果中撿出有用的結果呵~

    R也是另一個我喜歡的統計軟件, 主要是因免費、更新快、擴展統計功能強. 但是! 雖然也有輸入及點選界面, 郤需另行安裝, 可供選用的統計方法有時也不多吧~

    STATA是第三個我喜歡的, 它走中間路線, 即執行程式是商業軟件, 而統計的擴充包(*.ado), 所以它的統計方法可以更新得較快. 它既可在界面操作, 亦可用編程來處理統計數據.
    另外, 它的體積很小, 但內含的統計分析方法很多, 除常用的方法外, 據知新的第14版就添加了如下的方法(打-->的都是近10多年來, 統計方法研究的熱點)
-->貝氏分析Bayesian analysis
-->試題反應理論模型Item response theory (IRT) models
支援Unicode編碼
處理效果(Treatment effects
多層次混合效果模型
-->結構方程模式(Structural equation modeling
檢定力與樣本數分析
馬可夫轉換模型(Markov-switching models
-->調查統計(Survey statistics
Panel data存活模型
部分結果迴歸(Fractional outcome regression
邊際平均數與邊際效果

    再者, 不知為何原因, 它的新版本軟體很快就被人破解了. 就如第14, 剛面世不足半年, 國內就有它的破解版呵(链接: http://pan.baidu.com/s/1bnFCKn9 密码: 75is), 當然我不鼓勵用破解版呢~

 補充(2015.05.16):

1.研究過STATA 第14版, 哇~ 它改進了對中文的支援啊! 即現在輸入中文/或數據庫內含中文也沒有出現亂嗎了... 
2.這個破解版,應只能用到今年的12月最後一天的, 到時又有很多人進行破解了!? (中國人其實很聰明的, 但有時郤用錯了地方...)
3.原因有網上資料說, 用它的破解版, 在處理大量數據時, 容易出現數據掉失的情況(我本人未經證實呢)~

補充(2017.09.30):

在2017年6月, STATA出了第15版了, 隨後不久國民已破解了! 但這種破解並不是真的破解, 而是使用一種"時間控制軟件", 即讓每次開啟STATA15前, 先開啟該時間控制軟件, 讓電腦的時間調回到過期licence 前的日期, 騙取STATA誤以為軟件還沒有過期.
但這很容易影響其他程式, 且亦易中電腦病毒, 所以要慎重呵~~~ 

補充(2018.03.31)

今日在Youtube上見到, 有人放了一個Stata 15 免安裝版上去, http://q.gs/E5gQD
雖然是IC版, 但不用Rundate這個 "時間控制軟件", 可試試玩的...

2 則留言:

  1. 以下個人觀點,可能有些錯誤:

    SPSS當然是很不錯的,但是價格也很高。大部分人講的SPSS應該是在IBM 將spss改為 business analytics的工具之前的情況吧,現在應該不同了吧。

    SAS價格也不便宜,如果你的資料來源是Database,大概還是SAS比較能和Database銜接。如果你是租資料公司的資料庫,或是標準的股票交易的資料庫這種,當然就用SAS最好。

    如果你的資料是自己整理出來的,例如將網路原始資料下載下來做整理,那應該是Stata比較好。

    因為你整理資料的時候,最重要的是能記錄編輯的每個步驟,也就是說:雖然你手動整理資料,但是,應記錄成一個程式檔,其他人執行這個檔以後,會產生相同的結果,這是最重要的。否則跟作弊沒甚麼兩樣。

    其實用Stata整理好資料以後,你可以用matlab來跑矩陣,搞不好才是最快的。

    因為很多的convex optimization的運算,也就是找最小值的運算(統計不就是再找最小值嗎?),其實你要考慮矩陣的特性,有很多數學定理對特殊矩陣的運算有特殊解法,例如稀疏矩陣等等。這些定理的運用大部分都只有在matlab上實現,所以跑矩陣建議還是用matlab。

    統計模型不就是矩陣的運算嗎?何必要用甚麼統計軟體?很多統計軟體都是不能做擾動分析的,例如你可以告訴我,假設資料中的一個變數紀錄時有1%上下的錯誤,對估計值有多少影響?

    這類問題很多統計軟體都做不出來,因為統計公式的估計值,很多只是一個矩陣的多項式運算的公式,而不是用數值方法推算的結果。所以沒法做這類的擾動分析。

    如果要做business analytics,你可以將資料傳至主機伺服器,用網頁的方式進行視覺化分析,也不輸給SPSS (SAS也有analytics視覺化分析也很不錯)。當然將資料視覺化圖表是指以瀏覽器來檢視,必須要開發網站,需要花個5~10萬美金請工程師開發。但應該比用SPSS划算。畢竟開發出來可以讓所有人使用,不需按人頭計費。

    SAS我覺得還是金融機構的分析才會用吧!因為金融資料比較有結構性,也比較沒有錯誤或紀錄缺失。

    如果是microeconometrics的資料,例如公司的股東股權資料,家戶的所得與消費資料,進出口貿易資料,保險的保單資料,選舉的投票資料,政府官員的發言資料,報紙新聞稿上的內容,軍事武器設備資料,網頁瀏覽次數連結次數的資料,網路社群活動的資料,通話紀錄的資料。這類的資料如果先整理存成資料庫,然後再sql取出來分析,就是在做重複的工作了。

    因為你要存成資料庫,你的資料是要很結構化的,如果是非結構化的,當你存成資料庫時,可能已經把很多不乾淨的資料剃除了。但存成資料庫的人和分析的人可能是不同人,那就無法因應分析的條件與假設來分類與剔除資料,就會做重工。

    而且非結構化的資料有時資料量是很大的,硬要把100T的資料存成單一檔案(因為整個資料庫就是一個檔案)是有問題的。一般的檔案系統(如EXT4)只能存16T,所以你的資料庫如果大於16T,等於你就要花大錢在硬體上了。

    所以重點應該是要做一個分類資料、剔除資料、推算缺失資料的的代入值的模型。而不是要討論乾淨資料怎麼分析。

    統計的價值是建立一個將原始資料變成乾淨資料的模型。而不是在分析乾淨資料。說真的誰會在乎甚麼變數和甚麼變數之間有沒有顯著的因果關係?根本不重要。那只有學術價值。

    事實上有了乾淨資料後,用甚麼模型做分析不重要,因為你可以提出報告,如果A模型就有A預測,如果B模型就有B預測。

    事實上有乾淨資料後,其實你用視覺化的方法呈現資料,基本上就可做決策判斷了。

    當然這是microeconometrics的觀點。
    從這種觀點來看,Stata可能才是最合適的工具

    回覆刪除
  2. Serial: 10699393
    Code: 4gpp mkha 3yqe 3o9v g1m7 iu6j ou5j
    Authorization: tsrk

    回覆刪除