在我的日常工作中, 需要處理統計的工作時, 常首選SPSS; 因為當初學習統計軟體時就是使用它, 習慣了吧!(心知習慣是很壞的惡勢力...) 而且在思考分析方案時, 只需簡易地點數點, 就有很多結果出來, 然後從中撰取有用的資料, 即不用多費神去編程啊.
但SPSS軟體有其不足的, 就是操作欠靈活, 只能按固有的操作步驟; 而且僅能從一大堆的結果中撿出有用的結果呵~
STATA是第三個我喜歡的, 它走中間路線, 即執行程式是商業軟件, 而統計的擴充包(*.ado), 所以它的統計方法可以更新得較快. 它既可在界面操作, 亦可用編程來處理統計數據.
另外, 它的體積很小, 但內含的統計分析方法很多, 除常用的方法外, 據知新的第14版就添加了如下的方法(打-->的都是近10多年來, 統計方法研究的熱點):
支援Unicode編碼
處理效果(Treatment
effects)
多層次混合效果模型
-->結構方程模式(Structural equation modeling)
檢定力與樣本數分析
馬可夫轉換模型(Markov-switching
models)
-->調查統計(Survey statistics)
Panel data存活模型
部分結果迴歸(Fractional
outcome regression)
邊際平均數與邊際效果
再者, 不知為何原因, 它的新版本軟體很快就被人破解了.
就如第14版, 剛面世不足半年, 國內就有它的破解版呵(链接:
http://pan.baidu.com/s/1bnFCKn9 密码:
75is), 當然我不鼓勵用破解版呢~
補充(2015.05.16):
1.研究過STATA 第14版, 哇~ 它改進了對中文的支援啊! 即現在輸入中文/或數據庫內含中文也沒有出現亂嗎了...2.這個破解版,應只能用到今年的12月最後一天的, 到時又有很多人進行破解了!? (中國人其實很聰明的, 但有時郤用錯了地方...)
3.原因有網上資料說, 用它的破解版, 在處理大量數據時, 容易出現數據掉失的情況(我本人未經證實呢)~
補充(2017.09.30):
在2017年6月, STATA出了第15版了, 隨後不久國民已破解了! 但這種破解並不是真的破解, 而是使用一種"時間控制軟件", 即讓每次開啟STATA15前, 先開啟該時間控制軟件, 讓電腦的時間調回到過期licence 前的日期, 騙取STATA誤以為軟件還沒有過期.但這很容易影響其他程式, 且亦易中電腦病毒, 所以要慎重呵~~~
補充(2018.03.31)
今日在Youtube上見到, 有人放了一個Stata 15 免安裝版上去, http://q.gs/E5gQD雖然是IC版, 但不用Rundate這個 "時間控制軟件", 可試試玩的...
以下個人觀點,可能有些錯誤:
回覆刪除SPSS當然是很不錯的,但是價格也很高。大部分人講的SPSS應該是在IBM 將spss改為 business analytics的工具之前的情況吧,現在應該不同了吧。
SAS價格也不便宜,如果你的資料來源是Database,大概還是SAS比較能和Database銜接。如果你是租資料公司的資料庫,或是標準的股票交易的資料庫這種,當然就用SAS最好。
如果你的資料是自己整理出來的,例如將網路原始資料下載下來做整理,那應該是Stata比較好。
因為你整理資料的時候,最重要的是能記錄編輯的每個步驟,也就是說:雖然你手動整理資料,但是,應記錄成一個程式檔,其他人執行這個檔以後,會產生相同的結果,這是最重要的。否則跟作弊沒甚麼兩樣。
其實用Stata整理好資料以後,你可以用matlab來跑矩陣,搞不好才是最快的。
因為很多的convex optimization的運算,也就是找最小值的運算(統計不就是再找最小值嗎?),其實你要考慮矩陣的特性,有很多數學定理對特殊矩陣的運算有特殊解法,例如稀疏矩陣等等。這些定理的運用大部分都只有在matlab上實現,所以跑矩陣建議還是用matlab。
統計模型不就是矩陣的運算嗎?何必要用甚麼統計軟體?很多統計軟體都是不能做擾動分析的,例如你可以告訴我,假設資料中的一個變數紀錄時有1%上下的錯誤,對估計值有多少影響?
這類問題很多統計軟體都做不出來,因為統計公式的估計值,很多只是一個矩陣的多項式運算的公式,而不是用數值方法推算的結果。所以沒法做這類的擾動分析。
如果要做business analytics,你可以將資料傳至主機伺服器,用網頁的方式進行視覺化分析,也不輸給SPSS (SAS也有analytics視覺化分析也很不錯)。當然將資料視覺化圖表是指以瀏覽器來檢視,必須要開發網站,需要花個5~10萬美金請工程師開發。但應該比用SPSS划算。畢竟開發出來可以讓所有人使用,不需按人頭計費。
SAS我覺得還是金融機構的分析才會用吧!因為金融資料比較有結構性,也比較沒有錯誤或紀錄缺失。
如果是microeconometrics的資料,例如公司的股東股權資料,家戶的所得與消費資料,進出口貿易資料,保險的保單資料,選舉的投票資料,政府官員的發言資料,報紙新聞稿上的內容,軍事武器設備資料,網頁瀏覽次數連結次數的資料,網路社群活動的資料,通話紀錄的資料。這類的資料如果先整理存成資料庫,然後再sql取出來分析,就是在做重複的工作了。
因為你要存成資料庫,你的資料是要很結構化的,如果是非結構化的,當你存成資料庫時,可能已經把很多不乾淨的資料剃除了。但存成資料庫的人和分析的人可能是不同人,那就無法因應分析的條件與假設來分類與剔除資料,就會做重工。
而且非結構化的資料有時資料量是很大的,硬要把100T的資料存成單一檔案(因為整個資料庫就是一個檔案)是有問題的。一般的檔案系統(如EXT4)只能存16T,所以你的資料庫如果大於16T,等於你就要花大錢在硬體上了。
所以重點應該是要做一個分類資料、剔除資料、推算缺失資料的的代入值的模型。而不是要討論乾淨資料怎麼分析。
統計的價值是建立一個將原始資料變成乾淨資料的模型。而不是在分析乾淨資料。說真的誰會在乎甚麼變數和甚麼變數之間有沒有顯著的因果關係?根本不重要。那只有學術價值。
事實上有了乾淨資料後,用甚麼模型做分析不重要,因為你可以提出報告,如果A模型就有A預測,如果B模型就有B預測。
事實上有乾淨資料後,其實你用視覺化的方法呈現資料,基本上就可做決策判斷了。
當然這是microeconometrics的觀點。
從這種觀點來看,Stata可能才是最合適的工具
Serial: 10699393
回覆刪除Code: 4gpp mkha 3yqe 3o9v g1m7 iu6j ou5j
Authorization: tsrk