版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 第一節(jié)第一節(jié) 衛(wèi)生信息分析概述衛(wèi)生信息分析概述 第二節(jié)第二節(jié) 衛(wèi)生信息分析方法衛(wèi)生信息分析方法 第三節(jié)第三節(jié) 衛(wèi)生信息分析應(yīng)用:癥狀監(jiān)測(cè)衛(wèi)生信息分析應(yīng)用:癥狀監(jiān)測(cè) 信息分析的概念 信息分析(information analysis)的定義:信息分析是一種 以信息為研究對(duì)象,根據(jù)擬解決的特定問題的需要,收集與 之有關(guān)的信息進(jìn)行分析研究,旨在得出有助于解決問題的新 信息的科學(xué)勞動(dòng)過程。 信息分析的步驟 課題選擇 制訂課題研究計(jì)劃 信息收集 信息整理、鑒別與分析 報(bào)告編寫 一、時(shí)間序列分析 二、關(guān)聯(lián)規(guī)則挖掘 三、聚類分析 (一)時(shí)間序列分析概述 1. 時(shí)間序列數(shù)據(jù) 時(shí)間序列(time series
2、)又稱動(dòng)態(tài)數(shù)列或時(shí)間數(shù)列, 就是把所研究的事物在各個(gè)不同時(shí)間的統(tǒng)計(jì)指標(biāo)的數(shù)值, 按其發(fā)生時(shí)間先后順序排列起來(lái)所形成的數(shù)列。 全球霍亂發(fā)病例數(shù)報(bào)告 摘自Global Health Observatory Data Repository, /ghodata/?vid=2250 2. 時(shí)間序列數(shù)據(jù)的種類 傾向變動(dòng)/趨勢(shì)變動(dòng),用 T T (TrendTrend)表示,統(tǒng)計(jì)數(shù)據(jù)在長(zhǎng)時(shí)間長(zhǎng)時(shí)間內(nèi)表現(xiàn)出 的變化傾向,它按照某種規(guī)律持續(xù)上升或持續(xù)下降,或保持在某一水平上; 周期變動(dòng),用 C C (CyclicalCyclical)表示,指若干年若干年為周期的變化,周期長(zhǎng)短
3、不等,上下波動(dòng)大小也不一致,但明顯地呈現(xiàn)起伏變化; 季節(jié)變動(dòng),用 S S (SeasonalSeasonal)表示,指每年每年重復(fù)出現(xiàn)的周期變化,一般 以月或季度為一個(gè)周期; 不規(guī)則變動(dòng)/隨機(jī)變動(dòng),用I I(IrregularIrregular)表示,指由各種偶然偶然事件或影 響因素引起的上述三類變化以外的任何變化。 3. 時(shí)間序列分析的概念與原理 時(shí)間序列分析(time series analysis)就是根據(jù)系統(tǒng)觀 測(cè)得到的時(shí)間序列數(shù)據(jù),應(yīng)用數(shù)理統(tǒng)計(jì)方法(曲線擬合和參 數(shù)估計(jì))來(lái)建立數(shù)學(xué)模型,對(duì)時(shí)間序列數(shù)據(jù)加以分析處理, 以預(yù)測(cè)未來(lái)事物的發(fā)展。 時(shí)間序列分析的基本依據(jù)是: (1)承認(rèn)事物發(fā)
4、展的延續(xù)性。 (2)考慮到事物發(fā)展的隨機(jī)性。 4. 時(shí)間序列分析主要用途 系統(tǒng)描述。 系統(tǒng)分析。 預(yù)測(cè)未來(lái)。 決策和控制。 (二)時(shí)間序列分析方法的種類 (三)時(shí)間序列分析的基本步驟 收集數(shù)據(jù):用觀測(cè)、調(diào)查、統(tǒng)計(jì)、抽樣等方法取得被觀測(cè) 系統(tǒng)時(shí)間序列動(dòng)態(tài)數(shù)據(jù)。 整理數(shù)據(jù):根據(jù)動(dòng)態(tài)數(shù)據(jù)作相關(guān)圖。 分析數(shù)據(jù):對(duì)動(dòng)態(tài)數(shù)據(jù)進(jìn)行擬合或者修正。 (四)時(shí)間序列數(shù)據(jù)的修正 算術(shù)平均法 分段平均法 移動(dòng)平均法 指數(shù)平滑法 (五)時(shí)間序列數(shù)據(jù)的擬合 多項(xiàng)式曲線法 指數(shù)曲線法 生長(zhǎng)曲線法 (一)關(guān)聯(lián)規(guī)則挖掘概述 1. 關(guān)聯(lián)規(guī)則及關(guān)聯(lián)規(guī)則挖掘的定義 關(guān)聯(lián)規(guī)則(association rule)是指在同一個(gè)事件中出現(xiàn)的
5、不 同項(xiàng)的相關(guān)性,如顧客在商場(chǎng)購(gòu)物可以看作是一個(gè)事件,所 購(gòu)買各種的商品就是其中的項(xiàng),在這里的關(guān)聯(lián)規(guī)則就是指在 一次購(gòu)物中所購(gòu)商品的相關(guān)性。 關(guān)聯(lián)規(guī)則反映了一個(gè)事件和其他事件之間依賴或依存的關(guān) 系,如果我們確定兩項(xiàng)或多項(xiàng)屬性之間存在著關(guān)聯(lián),那么我 們就可以根據(jù)其中一項(xiàng)的屬性值來(lái)預(yù)測(cè)其他屬性的值。 關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出描述數(shù)據(jù)項(xiàng)之間 相互聯(lián)系有價(jià)值的知識(shí)。 2. 關(guān)聯(lián)規(guī)則挖掘的意義 購(gòu)物籃分析 3. 關(guān)聯(lián)規(guī)則的表現(xiàn)類型 關(guān)聯(lián)規(guī)則是一種形如X Y的規(guī)則,其中X 和Y 是項(xiàng)目 的集合。它說明如果X 在數(shù)據(jù)庫(kù)中發(fā)生,那么Y 也會(huì)以一 定的概率發(fā)生。 根據(jù)規(guī)則中所處理的值類型: 布爾關(guān)聯(lián)
6、規(guī)則(Boolean association rule):性別=“女” 職業(yè)=“秘 書” 量化關(guān)聯(lián)規(guī)則(quantitative association rule):性別=“女” avg( 收入)=2300 根據(jù)規(guī)則中涉及的數(shù)據(jù)維: 單維關(guān)聯(lián)規(guī)則(single dimensional association rule):啤酒 尿布 多維關(guān)聯(lián)規(guī)則(multi dimensional association rule):性別=“女” 職業(yè)=“秘書” 根據(jù)規(guī)則集所涉及的抽象層: 多層關(guān)聯(lián)規(guī)則(multilevel association rule): 臺(tái)式機(jī) Sony打印 機(jī) 單層次關(guān)聯(lián)規(guī)則(sin
7、gle-level association rule): IBM臺(tái)式機(jī) Sony打印機(jī) (二)關(guān)聯(lián)規(guī)則挖掘的基本過程 1. 找出所有頻繁項(xiàng)集 根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁 性至少和預(yù)定義的最小支持計(jì)數(shù)一樣。 2. 由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則 根據(jù)定義,這些規(guī)則必 須滿足最小支持度和最小置信度。 支持度: P(AB),即A和B這兩個(gè)項(xiàng)集在事務(wù)集D中同時(shí)出 現(xiàn)的概率。 置信度: P(BA),即在出現(xiàn)項(xiàng)集A的事務(wù)集D中,項(xiàng)集B也 同時(shí)出現(xiàn)的概率。 支持度描述一個(gè)規(guī)則的重要性,而可信度描述規(guī)則發(fā)生的 可能性。一般,我們用0和100之間的值表示支持度 和置信度。 (三)關(guān)聯(lián)規(guī)則挖掘的Apriori 算法
8、Apriori算法由Agrawal等人于1993年提出,它是挖掘頻 繁項(xiàng)集的基本算法。其核心方法是基于頻集理論的遞歸方 法,針對(duì)的是在單維單層次布爾關(guān)聯(lián)規(guī)則的挖掘,這是關(guān) 聯(lián)分析中最簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則挖掘。 具體做法就是:首先找出頻繁1-項(xiàng)集,記為L(zhǎng)1;然后利 用L1來(lái)挖掘L2,即頻繁2-項(xiàng)集;不斷如此循環(huán)下去直到 無(wú)法發(fā)現(xiàn)更多的頻繁K-項(xiàng)集為止。每挖掘一層LK就需要 掃描整個(gè)數(shù)據(jù)庫(kù)一遍。 (三)關(guān)聯(lián)規(guī)則挖掘的Apriori 算法 下面以超市商品的數(shù)據(jù)庫(kù)為例來(lái)說明Apriori 算法的基本操作。假設(shè) 有5位顧客購(gòu)買商品的清單如下表。 某超市5位顧客購(gòu)買商品清單 (三)關(guān)聯(lián)規(guī)則挖掘的Aprior
9、i 算法 候選1-項(xiàng)集 面包 4 牛奶 4 尿布 4 啤酒 3 雞蛋1 可樂 1 頻繁1-項(xiàng)集 面包 4 牛奶 4 尿布 4 啤酒 3 候選2-項(xiàng)集 面包 牛奶3 面包 尿布3 面包 啤酒2 牛奶 尿布3 牛奶 啤酒2 尿布 啤酒3 候選1-項(xiàng)集 面包 尿布 牛奶2 面包 尿布 啤酒 2 牛奶 尿布 啤酒 2 頻繁2-項(xiàng)集 面包 牛奶3 面包 尿布3 牛奶 尿布3 尿布 啤酒3 Apriori 算法的基本操作步驟舉例 (四)關(guān)聯(lián)規(guī)則的生成 同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則 稱為強(qiáng)規(guī)則。對(duì)于給定的一個(gè)事務(wù)集D,挖掘關(guān)聯(lián) 規(guī)則就是支持度和可信度分別大于用戶給定的最小 支持度和最小可信度
10、的強(qiáng)關(guān)聯(lián)規(guī)則。 (五)關(guān)聯(lián)規(guī)則挖掘在衛(wèi)生信息分析中的實(shí)例 (一)聚類分析的定義 聚類分析(cluster analysis)是將一組物理的或抽象的 對(duì)象,根據(jù)它們之間的相似程度,分為若干組,使得同一 個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度,而不同組中的數(shù)據(jù) 對(duì)象是不相似的。 聚類分析與分類不同: 對(duì)于分類問題,事先了解訓(xùn)練樣本的分類屬性,將數(shù)據(jù)對(duì)象分到不 同的已知類中,如在人口統(tǒng)計(jì)中將每個(gè)調(diào)查對(duì)象分類到老年組、中 年組等;而聚類分析,則是在劃分的分類體系未知的情況下,將數(shù) 據(jù)對(duì)象分組成不同類,需在訓(xùn)練樣本中找到這個(gè)分類屬性。 (二)聚類分析的基本步驟 1.計(jì)算對(duì)象間的相似性 2.將聚類對(duì)象分到各個(gè)類
11、別 1.計(jì)算對(duì)象間的相似性 通常就是利用(各對(duì)象間)距離來(lái)表示相似性。 常用距離度量公式有歐幾里得(Euclidean)距離公式。 1. 計(jì)算對(duì)象間的相似性 上述的數(shù)據(jù)矩陣經(jīng)過計(jì)算對(duì)象間的歐幾里得距離之后,得 到的是對(duì)象間的相似矩陣。 0.)2 ,() 1 ,( : )2 , 3() .ndnd 0dd(3,1 0d(2,1) 0 相似矩陣 2. 將聚類對(duì)象分到各個(gè)類別 層次方法(hierarchical method)就是通過分解所給定的 數(shù)據(jù)對(duì)象集來(lái)創(chuàng)建一個(gè)層次,直到滿足某種條件為止。 自底向上(凝聚):從每個(gè)對(duì)象均作為一個(gè)單獨(dú)的組開始 ,逐步將這些(對(duì)象)組進(jìn)行合并,直到組合并在層次頂
12、端或滿足終止條件為止; 自頂向下(分裂):從所有對(duì)象均屬于一個(gè)組開始,每一 次循環(huán)將其組分解為更小的組,直到每個(gè)對(duì)象構(gòu)成一組或 滿足終止條件為止。 2. 將聚類對(duì)象分到各個(gè)類別 四個(gè)廣泛使用的計(jì)算聚類間距離的度量方法如下: 其中|P-P|為兩個(gè)數(shù)據(jù)對(duì)象或點(diǎn)P和P之間的距離, mi是聚類Ci的平均值, ni 是聚類Ci中的對(duì)象個(gè)數(shù)。 3. 聚類分析在衛(wèi)生信息分析中的實(shí)例 某市各縣區(qū)8 類疾病的發(fā)病率指標(biāo) 輸入到SPSS中的數(shù)據(jù)矩陣 3. 聚類分析在衛(wèi)生信息分析中的實(shí)例 一、 癥狀監(jiān)測(cè)及相關(guān)概念 二、 癥狀監(jiān)測(cè)的基本步驟與方法 三、 重要疾病爆發(fā)與流行監(jiān)測(cè)系統(tǒng) 癥狀監(jiān)測(cè)的概念 目前,癥狀監(jiān)測(cè)(syndromic surveillance)被廣為接受的 定義是美國(guó)CDC給出的定義,即“癥狀監(jiān)測(cè)是對(duì)臨床確診前 的健康相關(guān)數(shù)據(jù)和疾病可能暴發(fā)的信號(hào)進(jìn)行監(jiān)測(cè),以利于作 出進(jìn)一步公共衛(wèi)生反應(yīng)”。 該定義體現(xiàn)了癥狀監(jiān)測(cè)與疾病監(jiān)測(cè)的區(qū)別,它是以監(jiān)測(cè)診斷 前的非特異性的癥狀和現(xiàn)象為基礎(chǔ)的。 癥狀監(jiān)測(cè)的基本步驟與方法 癥狀群定義和數(shù)據(jù)來(lái)源; 癥狀監(jiān)測(cè)數(shù)據(jù)的采集; 癥狀監(jiān)測(cè)數(shù)據(jù)的分析; 對(duì)異常信
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年人教部編版五年級(jí)語(yǔ)文上冊(cè)期末檢測(cè)題及答案(六)
- 帶有小括號(hào)的加減混合運(yùn)算應(yīng)用題
- 企業(yè)用工合同模板長(zhǎng)期
- 裝卸承包勞務(wù)合同模板
- 運(yùn)輸合同模板模塊
- 客戶采購(gòu)合同模板
- 雕塑類合同模板書
- 泥土買賣合同模板
- 運(yùn)輸合同終止合同模板
- 甘肅水上樂園租賃合同模板
- 幼兒園課件:《雷鋒的故事》
- GB/T 9119-2010板式平焊鋼制管法蘭
- GB/T 40946-2021海洋牧場(chǎng)建設(shè)技術(shù)指南
- GB/T 2912.1-2009紡織品甲醛的測(cè)定第1部分:游離和水解的甲醛(水萃取法)
- GB/T 10069.3-2008旋轉(zhuǎn)電機(jī)噪聲測(cè)定方法及限值第3部分:噪聲限值
- 電能質(zhì)量分析軟件詳細(xì)設(shè)計(jì)說明書
- DB31-T 397-2021醫(yī)源性織物清洗消毒衛(wèi)生要求
- 物流運(yùn)輸管理案例
- 化療消化道反應(yīng)防治-課件
- 部編人教版道德與法治六年級(jí)上冊(cè)《知法守法 依法維權(quán)》優(yōu)質(zhì)課件
- 五年級(jí)上冊(cè)數(shù)學(xué)課件-第5單元 4.方程的意義∣人教新課標(biāo) (共14張PPT)
評(píng)論
0/150
提交評(píng)論