2016年8月30日 星期二

對新加坡文化遊的感受1 (The feeling of Singapore's culture trip 1)

    雖然在6月下旬至7月初, 兩位小朋友考完期末考試, 而未開始延展課程時(...其實這是夏令班, 但不教課程內容, 改為興趣班, 如: 音樂班, 家政班等), 我已放了10多天的假期陪伴他們. 但沒有到外一遊~ 所以趁著將要開學的8月末, 一家四口到了新加坡旅遊吧! 當然他們的心態是去吃喝玩樂, 而我就因牙痛及感冒, 自然吃不下、嗅不香...
    我們由8月24日晚機去新加坡, 29日早機回澳門...

    據知正當我們是暑假的時候(7-8月), 新加坡的學生仍是上課天(他們只是在11月中-12月才是假期, 由於天氣仍熱, 所以仍叫暑假; 而我們就正值天冷呢~) 所以到新加坡的兒童遊玩地點時, 偶爾看到一些學童在此上著課, 但沒有出現擠迫感...
    而且他們放假, 很多時候都到了馬來西亞及馬六甲等地輕鬆, 據說是接觸大自然喎!?

    新加坡整體給我的感覺是: 思想是開放的, 文化是多元的, 行為是規範的!

思想是開放的: 

    他們很快就會使用新產品, 例如在超級市場, 已施行自動結帳及付款; 貨物的價錢牌亦都電子化!
超級市場部份的自動結帳及付款, 只有1個工作人員作指導!
貨物的電子價錢牌

文化是多元的:

   在乘坐MRT時與一位女士相談, 他們一般都會懂數種語言, 如: 馬拉文, 華語(普通話+廣東話), 英語(工作的主要語言)... 甚至有些人懂印尼話, 閩南話等等.
    隨便地走在街上, 都可以聽到這些語言呢! 也可隨意地見到東南亞的人種, 印度人, 歐美人等...

    據一位司機說: 新加坡小學教育都以各人的母語教育為主, 如: 馬來西亞小學以教馬來語為主, 華人小學教華語... 直到中學及以上就統一以英文為主要教學語言...

行為是規範的:

    初初的兩天, 仍很大郷里地將背囊放在胸前, 以免失竊!(每逢到內地都習慣性這樣做) 但慢慢發現當地人沒有這樣的. 呵~原來當地人是很守規則! 源自當地的法律很嚴厲:
    新加坡《刑法》保留鞭刑,包括性侵、吸毒與街頭塗鴉等35種罪行均可以處以鞭刑。另外,吃口香糖、亂丟垃圾、公共場所吸菸及使用公廁馬桶後不沖水都會被罰款。
    而且他們很有禮貌, 也樂於幫助途人, 試過數次途人走來問是否需要幫忙呢!

2016年8月20日 星期六

如何簡易地應用醫學統計學...(How to simply use medical statistics...)

    我碩士時候的指導老師, 他原本是統計學人, 較精通SAS的應用. 後來到了南方某大學, 任職於流行病學系! 而且他的研究興趣也改為: 將醫學統計學簡易地在Excel軟件內應用與推廣.
    作為行內人, 我始終對於Excel運行的結果是否適宜作統計之用, 仍持保留的態度, 因Excel盡其量是一個數據處理的軟件, 不是統計學軟件! 其次是它的結果與正統的統計軟件比較, 存有一定的誤差; 第三是簡易的統計處理仍可, 但去到較高級的統計, 只能望塵莫及.
    當然, 他提出Excel的普及性、易用性等, 是處理統計的好工具! 我是認同的...

    近來他的研究方向又改變了, 就是推廣如何簡易地應用醫學統計學!
    他提出了: “目的-数据库-变量类型-变量间关系” 這樣的概念 (PDTR教学模式)... 我覺得這不是一個"創造性"全新的概念, 而是應用性的經驗總結; 若你是作為研究生的導師, 尤其是統計範疇的! 基本都會慢慢的總結出這道理來.
    據他的一篇介紹文章, 這PDTR教学模式可歸納如下:


明確研究目的和研究設計


完整的科研設計包括專業設計統計設計兩部分
正確的統計學分析一定要建立在明確的研究目的和研究設計的基礎之上,那些事先沒有研究目的和研究設計,事後找來一堆資料進行統計分析都是不可取的

建好分析用的資料庫

是統計分析的需要, 還可以理清分析思路

分清楚指標(或變量)的性質和類型

變量可分為數值變、多項有序分類變、多項無序分類變、二項分類變四種。
此外,不同類別變可遵循下列順序轉化:
數值變-> 
多項有序分類變-> 
多項無序分類變-> 
二項分類變,稱為降級轉化,但這種轉化過程會不斷喪失蘊藏的資料資訊,導致統計分析過程中假陰性結果的不斷增加。

正確選用統計學方法

若符合條件, 可先選用有星號的統計方法, 否則可選用次一級的(沒帶星號的)方法(非參數檢驗的)

至於用什麼樣的統計軟件... 只是工具的選擇矣!

參考文獻: 陳青山...醫學科研中如何用好應用統計學的方法. 中華物理醫學與康復雜誌. 2004, 36(6), 483-485.

2016年8月18日 星期四

為什麼需要數據科學 (Why do we need Data Science?)

    兩天前在互聯網搜尋些內容時, 無意中發現了一篇有關數據科學的文章! 該文章是寫於2013年12月的, 發表於「中國計算機學會通訊」雜誌的吧!?
    基本地把數據科學作了系統性的介紹了. 現簡要撰錄如下, 以作分享! (當然最好全文品味)

数据科学将在未来30年中极大地影响和推动科学和经济的发展

數據科學的背景與意義

  • 數據的爆炸性增長

2003 年左右, 我们就曾指出,世界已经从一个依靠模型和假设、数据稀缺的时代,过渡到
一个模型和假设已逐渐清晰、数据冗余的新时代。现在的主要挑战是理解和探索数据...
  • 大數據帶來的影響

1. 尽管我们拥有大量数据方面的工作岗位,但显然我们准备得还不够...
2. 处理大数据需要一些当前数据分析师所不具备的编程和分析能力:包括需要
3. 较强的数学和统计分析背景,
4. 熟悉新的统计编程语言(如R 语言),
5. 了解分析建模技术以及具备在大数据上做实验的能力,
6. 了解数据架构(以搭建TB 级的数据库),
7. 以及能够管理诸如Hadoop 之类的软件框架等等。
8. 一些软技能,如商业头脑和交流能力

數據科學的機遇和挑戰

  • 大數據的特點

体量(volume), 速度(velocity), 多样性(variety), 真实性(veracity), 价值(value)
需要一整套科学、系统的理论、方法来指导大数据的分析和处理,这就是数据科学。准确地讲,数据科学通过系统性的研究数据的组织和使用,可以促进研究发现、改进关键决策过程等
  • 機遇和挑戰

从数据中挖掘价值。大多数情况下,价值以决策的形式出现
更大的挑战是数据的增长速度极快,甚至快于摩尔定律
解决快速增长的数据带来挑战的关键是,决策时我们并不总是需要完全精确的数据
只要误差足够小并且有界,近似的结果就可满足实际需求
由于收集的数据往往包含噪声和误差,准确的计算并不总能保证完美的结果
摩尔定律使得我们可以处理越来越大的数据集,并产生越来越小的误差
对于大数据来讲,摩尔定律意味着更好的决策

數據的數學, 成本與倫理

[摩爾定律是由英特爾創始人之一戈登·摩爾提出來的。其內容為:積體電路上可容納的電晶體(電晶體)數目,約每隔24個月便會增加一倍;經常被參照的「18個月」,是由英特爾執行長大衛·豪斯所說:預計18個月會將晶片的效能提高一倍(即更多的電晶體使其更快)。]

參考文獻:
http://www.ccf.org.cn/resources/1190201776262/2013/12/16/2.pdf
https://zh.wikipedia.org/wiki/摩尔定律
http://cpu.zol.com.cn/575/5752141_all.html

2016年8月14日 星期日

再來兩篇有關R統計軟件的閱讀材料 (Two reading materials of R statistical package more!)

    用R軟件的好處很多, 已說多了! 但也有其限制呢~ 如處理數據的滙入、整理時, 就不如表格式+下拉菜單式的統計軟件方便, 如SPSS, STATA等...
    其實在很久之前, 已想找有關這些方面的R文章, 來補習一下處理數據的滙入、整理等知識與技能, 但部份的書較著重在統計學方面的論述. 最近在偉大的互聯網上找到了...

    兩份的閱讀材料是免費的, 分為兩部份:

第一部份

是供初學者閱讀的, 主要的內容是安裝R、簡易的統計函數功能、基礎的R繪圖及編程. 由於我算是有一定的基礎, 所以這部份較容易; 另外, 較有用的是它列出了其他有用的資源...

第二部份:

是供有基礎的讀者的, 內容有數據文件的整理技巧(包括用了dplyr), 高級的製圖擴展包ggplot2的使用, 及在R內繪制統計地圖等... 對於我及統計地圖而言, 目前只能用簡易的方法, 所以其內裏的方法較高深呵...

能取閱讀材料的地址:

初學者           ---http://core0.staticworld.net/assets/2015/02/17/r4beginners.pdf

有基礎的讀者---http://core0.staticworld.net/assets/media-resource/106345/r_advbeginner_v5.pdf

2016年8月11日 星期四

簡簡單單地在R統計軟件劃圖 (Simple Drawing graphs in R statistical software)



      雖然科研界有個潛規則, 就是統計學指標較統計表好, 統計表較統計圖好!

我想主要原因有兩個:
1.      統計學指標較精確, 其次是統計表;
2.      統計學指標在科研文章內的佔位較小, 而統計圖就佔位較大; 並且刊印時為保效果, 常用特別的排版技術呢~
    但是, 一幅好的統計圖, 可勝過千言萬語!
   而很多統計軟件, 也是以其繪製的統計圖優美作買點誠言, SAS的圖是較差的SPSS一般STATA較好! (只為個人感觀). R! 它本身的繪圖與SAS差不多, 但隨著ggplot2等擴展包, 現在的繪圖效果已不錯呢.
    當然, 付出的是需要學習ggplot2! (若不要求太高, 也能較易應付的)

近來讀到這篇文章, 僅使用R基本的繪圖功能, 也能繪出不錯的統計圖呢!
 另外, R軟件內, 也找到1份不錯的ggplot2擴展包總結表, 好實用!

 
參考文獻
http://www.joyce-robbins.com/wp-content/uploads/2016/04/effectivegraphsmro1.pdf
https://www.rstudio.com/wp-content/uploads/2015/12/ggplot2-cheatsheet-2.0.pdf

2016年8月9日 星期二

傳染病預警預測 (The forecasting of infectious diseases)

     傳染病預測是根據傳染病的發生、發展規律及有關因素, 用分析判斷和數學模型等方法, 對可能發生的傳染病的發生、發展和流行趨勢作出預測, 是制定預防和控制傳染病的長遠或近期應對策略的前提.
  • 常用的預警預測方法
直接預警預測: (其實就是直接的個案通報呢~)
    例如: 現在很多地區都有的, 將新發現的個案在互聯網絡進行通報; 又或透過通報表的形式! 然後將數據整理後, 依據情況作出預測.

在澳門需要強制性申報傳染病的分類, 它有其專用的申報表!
    《傳染病防治法》將傳染病分成三類,並載於該法律的附件。
    第一類為國際衛生條例所規範的傳染病及其他具高度傳染性的疾病,包括霍亂、鼠疫、黃熱病、內伊波拉病毒病、嚴重急性呼吸道綜合症,以及其他冠狀病毒相關嚴重呼吸道感染。
    第二類為可在人與人之間傳播的疾病,包括人類免疫缺陷病毒(HIV)感染、輪狀病毒性腸炎、病毒性肝炎、結核病、百日咳、猩紅熱、登革熱、德國麻疹、水痘、流行性腮腺炎、狂犬病,以及流行性感冒等。
    第三類為一般不會在人與人之間傳播的疾病,包括細菌性食物中毒、破傷風、日本腦炎,以及流行性出血熱等。

而其他機構, 如教育機構等有其專用的申報表. 
 
推理...: (1)流行控制圖法
            (2)比數圖法
數理...: (1)時間序列分析: 移動平均法, 指數平滑法

            (2)灰色動態模型GM(1,1)
            (3)圓形分佈法 
綜合...: 用兩種和/或以上的方法進行綜合預

參考文獻
http://www.macaodaily.com/html/2015-02/25/content_977637.htm
http://bo.io.gov.mo/bo/i/2004/10/lei02_cn.asp
http://iasweb.ias.gov.mo/userfiles/videos/ias_ptvb_130111/ias_ptvb_130111.jsp