2014年12月4日 星期四

大數據與公共衛生 (Big Data and Public Health)

昨晚讀了一篇相關的文章

    我並沒有正式地學過什麼是大數據 (Big Data)”;但這一兩年,當逛書店時也會發覺相關的書籍湧現,曾翻了一翻,但大多是說些相關內容外,很多就是談談現在很多大數據的來源,如:網絡的溝通軟件、購物數據等;更多地感到是小說形式地介紹。其次,我在學習某些統計軟件的內容及過程中,也偶有提及小許,如在學習SPSSClementine(Data mining)R軟件的機器學習(machine learning)SASEnterprise MinerPython
    據互聯網的資料介紹,大數據是:由巨型資料集組成,這些資料集大小常超出人類在可接受時間下的收集、使用、管理和處理能力。大數據的大小經常改變,截至2012年,單一資料集的大小從數兆位元組(TB)至數十兆億位元組(PB)不等
    據聞,現在有些溝通軟件,如:FaceBook;網路搜尋器,如:Google;網路購物站,如:淘寶等;動輒每天收集或處理的數據量,已是大數據。而在健康科學和/或公共衛生方面,人類基因庫資料、某些癌症的歷年數據等,都是大數據庫資料;我個人預言,隨著人類的溝通和聯繫方式漸趨發達,大數據時代已是來臨了,且只會越來越大呢~~~
    然而隨著大數據的收集及片刻使用過後,餘下來的數據又是如何處理?其餘這些都是很好的科研數據可以從中挖掘出很多有用的訊息來,以助人認識及了解某些新現象!如經典的例子就是:超市男人買嬰兒尿片及啤酒... 在生物醫學界,如癌症和基因靶位的確立等等
    大數據的分析,目前常用的軟件都是以上提及的為多,各軟件有其優點與不足之處,如處理數據的量及快慢、免費或商業軟件等;而分析的方法都不外符是:數據總結、分類、關聯性、聚類等
    有很多人都說:誰掌握了大數據,誰就掌握了未來!我部份認用,因為數據有助於決策,更了解現實,預測未來;然而大數據也有其注意之處,如:
1.大資料本身是觀察性資料,存在著很多偏倚,例如選擇偏倚、混雜變數和缺乏普遍性需要建立一個更強大的流行病學研究基礎
2.數據處理過程中獲得大量的知識,而同時也必須建立一種方法來整合這些知識
3.大資料只是一個形成假設的工具,即便證實了一個強有力的關聯,我們仍然需要圍繞著循證醫學的原則來開展這些檢驗工作
4.對大資料分析中的初期研究發現進行拓展。

    公共衛生本身是一門很講究科研方法的學科,除涉獵的範圍很廣外,要收集及處理的數據也很多,所以公共衛生將來也必會與大數據融合會有另一番要求和景象
 參考資料
1.Science:大数据遇上了公共卫生领域. http://www.bio360.net/news/show/12430.html
2.Muin J. Khoury and John P. A. Ioannidis. Big data meets public health. Science, 28 November 2014; DOI:10.1126/science.aaa2709

沒有留言:

張貼留言