2015年4月24日 星期五

大數據與傳統的統計學 (Big Data and traditional statistics)



    近日從網頁內搜到一篇可下載的文章, 是有關大數據時代的到來, 對傳統統計學的影響與挑戰吧! 它是由國內的著名統計學者---耿直先生撰寫的. 文中對大數據的概念、目的、研究方向和分析等, 作了宏觀的介紹.
    其中的結束語部份更是令我叫案拍絕, 他言賅意簡地將: 即將到來的大數據時代對傳統統計學的衝擊”; 以及現在統計學的限制與不足; 都寫得很細膩地描述出來!

“一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会象科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。现在其他学科和行业涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。
现今统计学的目标是通过获取数据和分析数据发现真理(总体的参数和性质)。因此,现今的统计方法和理论对数据有过高的要求。而当今的大数据充满了各种随机的、非随机的误差和偏倚,不能满足这些苛刻的要求。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究。我们在看到大数据给统计学带来了机遇的同时,也应该看到现在的统计方法普遍只适用于全部数据放在单个计算机内存的环境,分布式大数据和数据流的环境给统计学带来了挑战。统计学家不应该固守传统数据的环境,必须积极学习新生事物,适应新的大数据环境,扩展统计学的疆边领域,创造出迎合大数据的新统计方法。机遇挑战并存!”

參考文獻:
http://162.105.204.96/var/teacher_writings/20131226220131.pdf
http://blog.thomsonreuters.com/index.php/big-data-graphic-of-the-day/

沒有留言:

張貼留言