An Epidemiologist + Health Statistician in Macao CHINA: 新版的Stata(14版)統計軟件 (A new version statistical package --- STATA 14)

2015年5月13日星期三

新版的Stata(14版)統計軟件 (A new version statistical package --- STATA 14)

在我的日常工作中, 需要處理統計的工作時, 常首選SPSS; 因為當初學習統計軟體時就是使用它, 習慣了吧!(心知習慣是很壞的惡勢力...) 而且在思考分析方案時, 只需簡易地點數點, 就有很多結果出來, 然後從中撰取有用的資料, 即不用多費神去編程啊.

但SPSS軟體有其不足的, 就是操作欠靈活, 只能按固有的操作步驟; 而且僅能從一大堆的結果中撿出有用的結果呵~

R也是另一個我喜歡的統計軟件, 主要是因免費、更新快、擴展統計功能強. 但是! 雖然也有輸入及點選界面, 郤需另行安裝, 可供選用的統計方法有時也不多吧~

STATA是第三個我喜歡的, 它走中間路線, 即執行程式是商業軟件, 而統計的擴充包(*.ado), 所以它的統計方法可以更新得較快. 它既可在界面操作, 亦可用編程來處理統計數據.

另外, 它的體積很小, 但內含的統計分析方法很多, 除常用的方法外, 據知新的第14版就添加了如下的方法(打-->的都是近10多年來, 統計方法研究的熱點)：

-->貝氏分析（Bayesian analysis）

-->試題反應理論模型（Item response theory (IRT) models）

支援Unicode編碼

處理效果（Treatment effects）

多層次混合效果模型

-->結構方程模式（Structural equation modeling）

檢定力與樣本數分析

馬可夫轉換模型（Markov-switching models）

-->調查統計（Survey statistics）

Panel data存活模型

部分結果迴歸（Fractional outcome regression）

邊際平均數與邊際效果

再者, 不知為何原因, 它的新版本軟體很快就被人破解了. 就如第14版, 剛面世不足半年, 國內就有它的破解版呵(链接: http://pan.baidu.com/s/1bnFCKn9 密码: 75is), 當然我不鼓勵用破解版呢~

補充(2015.05.16):

1.研究過STATA 第14版, 哇~ 它改進了對中文的支援啊! 即現在輸入中文/或數據庫內含中文也沒有出現亂嗎了...
2.這個破解版,應只能用到今年的12月最後一天的, 到時又有很多人進行破解了!? (中國人其實很聰明的, 但有時郤用錯了地方...)
3.原因有網上資料說, 用它的破解版, 在處理大量數據時, 容易出現數據掉失的情況(我本人未經證實呢)~

補充(2017.09.30):

在2017年6月, STATA出了第15版了, 隨後不久國民已破解了! 但這種破解並不是真的破解, 而是使用一種"時間控制軟件", 即讓每次開啟STATA15前, 先開啟該時間控制軟件, 讓電腦的時間調回到過期licence 前的日期, 騙取STATA誤以為軟件還沒有過期.
但這很容易影響其他程式, 且亦易中電腦病毒, 所以要慎重呵~~~

補充(2018.03.31)

今日在Youtube上見到, 有人放了一個Stata 15 免安裝版上去, http://q.gs/E5gQD
雖然是IC版, 但不用Rundate這個 "時間控制軟件", 可試試玩的...

2 則留言:

Unknown2016年3月12日晚上7:01
以下個人觀點，可能有些錯誤:

SPSS當然是很不錯的，但是價格也很高。大部分人講的SPSS應該是在IBM 將spss改為 business analytics的工具之前的情況吧，現在應該不同了吧。

SAS價格也不便宜，如果你的資料來源是Database，大概還是SAS比較能和Database銜接。如果你是租資料公司的資料庫，或是標準的股票交易的資料庫這種，當然就用SAS最好。

如果你的資料是自己整理出來的，例如將網路原始資料下載下來做整理，那應該是Stata比較好。

因為你整理資料的時候，最重要的是能記錄編輯的每個步驟，也就是說:雖然你手動整理資料，但是，應記錄成一個程式檔，其他人執行這個檔以後，會產生相同的結果，這是最重要的。否則跟作弊沒甚麼兩樣。

其實用Stata整理好資料以後，你可以用matlab來跑矩陣，搞不好才是最快的。

因為很多的convex optimization的運算，也就是找最小值的運算(統計不就是再找最小值嗎?)，其實你要考慮矩陣的特性，有很多數學定理對特殊矩陣的運算有特殊解法，例如稀疏矩陣等等。這些定理的運用大部分都只有在matlab上實現，所以跑矩陣建議還是用matlab。

統計模型不就是矩陣的運算嗎?何必要用甚麼統計軟體?很多統計軟體都是不能做擾動分析的，例如你可以告訴我，假設資料中的一個變數紀錄時有1%上下的錯誤，對估計值有多少影響?

這類問題很多統計軟體都做不出來，因為統計公式的估計值，很多只是一個矩陣的多項式運算的公式，而不是用數值方法推算的結果。所以沒法做這類的擾動分析。

如果要做business analytics，你可以將資料傳至主機伺服器，用網頁的方式進行視覺化分析，也不輸給SPSS (SAS也有analytics視覺化分析也很不錯)。當然將資料視覺化圖表是指以瀏覽器來檢視，必須要開發網站，需要花個5~10萬美金請工程師開發。但應該比用SPSS划算。畢竟開發出來可以讓所有人使用，不需按人頭計費。

SAS我覺得還是金融機構的分析才會用吧!因為金融資料比較有結構性，也比較沒有錯誤或紀錄缺失。

如果是microeconometrics的資料，例如公司的股東股權資料，家戶的所得與消費資料，進出口貿易資料，保險的保單資料，選舉的投票資料，政府官員的發言資料，報紙新聞稿上的內容，軍事武器設備資料，網頁瀏覽次數連結次數的資料，網路社群活動的資料，通話紀錄的資料。這類的資料如果先整理存成資料庫，然後再sql取出來分析，就是在做重複的工作了。

因為你要存成資料庫，你的資料是要很結構化的，如果是非結構化的，當你存成資料庫時，可能已經把很多不乾淨的資料剃除了。但存成資料庫的人和分析的人可能是不同人，那就無法因應分析的條件與假設來分類與剔除資料，就會做重工。

而且非結構化的資料有時資料量是很大的，硬要把100T的資料存成單一檔案(因為整個資料庫就是一個檔案)是有問題的。一般的檔案系統(如EXT4)只能存16T，所以你的資料庫如果大於16T，等於你就要花大錢在硬體上了。

所以重點應該是要做一個分類資料、剔除資料、推算缺失資料的的代入值的模型。而不是要討論乾淨資料怎麼分析。

統計的價值是建立一個將原始資料變成乾淨資料的模型。而不是在分析乾淨資料。說真的誰會在乎甚麼變數和甚麼變數之間有沒有顯著的因果關係?根本不重要。那只有學術價值。

事實上有了乾淨資料後，用甚麼模型做分析不重要，因為你可以提出報告，如果A模型就有A預測，如果B模型就有B預測。

事實上有乾淨資料後，其實你用視覺化的方法呈現資料，基本上就可做決策判斷了。

當然這是microeconometrics的觀點。
從這種觀點來看，Stata可能才是最合適的工具
回覆刪除
回覆
匿名2016年6月30日下午1:07
Serial: 10699393
Code: 4gpp mkha 3yqe 3o9v g1m7 iu6j ou5j
Authorization: tsrk
回覆刪除
回覆

新增留言

2015年5月13日 星期三