2016年8月18日 星期四

為什麼需要數據科學 (Why do we need Data Science?)

    兩天前在互聯網搜尋些內容時, 無意中發現了一篇有關數據科學的文章! 該文章是寫於2013年12月的, 發表於「中國計算機學會通訊」雜誌的吧!?
    基本地把數據科學作了系統性的介紹了. 現簡要撰錄如下, 以作分享! (當然最好全文品味)

数据科学将在未来30年中极大地影响和推动科学和经济的发展

數據科學的背景與意義

  • 數據的爆炸性增長

2003 年左右, 我们就曾指出,世界已经从一个依靠模型和假设、数据稀缺的时代,过渡到
一个模型和假设已逐渐清晰、数据冗余的新时代。现在的主要挑战是理解和探索数据...
  • 大數據帶來的影響

1. 尽管我们拥有大量数据方面的工作岗位,但显然我们准备得还不够...
2. 处理大数据需要一些当前数据分析师所不具备的编程和分析能力:包括需要
3. 较强的数学和统计分析背景,
4. 熟悉新的统计编程语言(如R 语言),
5. 了解分析建模技术以及具备在大数据上做实验的能力,
6. 了解数据架构(以搭建TB 级的数据库),
7. 以及能够管理诸如Hadoop 之类的软件框架等等。
8. 一些软技能,如商业头脑和交流能力

數據科學的機遇和挑戰

  • 大數據的特點

体量(volume), 速度(velocity), 多样性(variety), 真实性(veracity), 价值(value)
需要一整套科学、系统的理论、方法来指导大数据的分析和处理,这就是数据科学。准确地讲,数据科学通过系统性的研究数据的组织和使用,可以促进研究发现、改进关键决策过程等
  • 機遇和挑戰

从数据中挖掘价值。大多数情况下,价值以决策的形式出现
更大的挑战是数据的增长速度极快,甚至快于摩尔定律
解决快速增长的数据带来挑战的关键是,决策时我们并不总是需要完全精确的数据
只要误差足够小并且有界,近似的结果就可满足实际需求
由于收集的数据往往包含噪声和误差,准确的计算并不总能保证完美的结果
摩尔定律使得我们可以处理越来越大的数据集,并产生越来越小的误差
对于大数据来讲,摩尔定律意味着更好的决策

數據的數學, 成本與倫理

[摩爾定律是由英特爾創始人之一戈登·摩爾提出來的。其內容為:積體電路上可容納的電晶體(電晶體)數目,約每隔24個月便會增加一倍;經常被參照的「18個月」,是由英特爾執行長大衛·豪斯所說:預計18個月會將晶片的效能提高一倍(即更多的電晶體使其更快)。]

參考文獻:
http://www.ccf.org.cn/resources/1190201776262/2013/12/16/2.pdf
https://zh.wikipedia.org/wiki/摩尔定律
http://cpu.zol.com.cn/575/5752141_all.html

沒有留言:

張貼留言