



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、論證候研究中變量聚類(lèi)結(jié)果的詮釋張連文1,周雪忠2,何麗云2,劉保延2 1香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程學(xué)系,香港2中國(guó)中醫(yī)科學(xué)院,北京,100070Email:, , , 摘要: 近年來(lái)有不少學(xué)者利用變量聚類(lèi)方法研究西醫(yī)病種中中醫(yī)癥狀的分布規(guī)律,把所得的類(lèi)詮釋為證候,從而得到一些關(guān)于證候分布的結(jié)論。 本文剖析變量聚類(lèi)結(jié)果的統(tǒng)計(jì)學(xué)含義,并基于此討論把變量聚類(lèi)結(jié)果詮釋為證候的合理性。.1 引言變量聚類(lèi)也稱(chēng)指標(biāo)聚類(lèi),其目標(biāo)是要把相似的變量聚到同一類(lèi),不相似的變量聚到不同的類(lèi),從而揭示變量之間的關(guān)系。就具體算法而言,證候研究中用得最多的是系統(tǒng)聚類(lèi),也稱(chēng)歸并層次聚類(lèi)。系統(tǒng)聚類(lèi)首先計(jì)算變量?jī)蓛芍g的相似系數(shù)
2、,把每一個(gè)變量看成一類(lèi),并以變量之間的相似系數(shù)作為類(lèi)之間的相似系數(shù);然后開(kāi)始逐步將類(lèi)進(jìn)行合并,每次將相似系數(shù)最大的兩個(gè)類(lèi)并成一個(gè)新類(lèi),并計(jì)算新類(lèi)與其它類(lèi)之間的相似系數(shù),這樣每次減少一個(gè)類(lèi),直到所有變量都聚成一類(lèi)為止1。系統(tǒng)聚類(lèi)的過(guò)程可以表述為一張冰柱圖。最后在冰柱圖的適當(dāng)位置截取,而得數(shù)個(gè)變量類(lèi)。.近年來(lái)有不少學(xué)者利用系統(tǒng)變量聚類(lèi)方法對(duì)西醫(yī)病種中中醫(yī)癥狀的分布情況進(jìn)行研究。例如,麻曉慧等2通過(guò)對(duì)739例膽病病案進(jìn)行分析,得到9個(gè)類(lèi),并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊(yùn)熱證、肝膽氣郁證、血瘀證、脾失健運(yùn)證、陽(yáng)虛寒濕證、陰虛內(nèi)熱證和熱毒亡陽(yáng)證。其它被研究的西醫(yī)病種有子宮肌瘤3、月經(jīng)過(guò)多
3、4、胃癌5、胸痹心痛6、冠心病7等等。.本文剖析系統(tǒng)變量聚類(lèi)結(jié)果的統(tǒng)計(jì)學(xué)含義,并基于此討論把它們?cè)忈尀樽C候的合理性。 我們的結(jié)論是,變量聚類(lèi)的結(jié)果不能詮釋為證候。.2 變量聚類(lèi)結(jié)果的統(tǒng)計(jì)學(xué)含義在麻曉慧等2分析的膽病數(shù)據(jù)中,癥狀變量全部是二值的。 分析所得的變量類(lèi)之一如下:.類(lèi)1:發(fā)熱寒戰(zhàn)、右上腹壓痛拒按、黃疸、右上腹疼痛、惡心嘔吐、大便秘結(jié)、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。.本節(jié)以這個(gè)類(lèi)為例,剖析系統(tǒng)變量聚類(lèi)結(jié)果的含義。要準(zhǔn)確把握這個(gè)類(lèi)的含義,需要考慮三個(gè)因素,即變量與事件這兩個(gè)概念的區(qū)別、變量間相似系數(shù)的定義、以及變量類(lèi)間相似系數(shù)的定義。下面逐一討論這三個(gè)因素。.2.1 變量與事件變
4、量是刻畫(huà)事物某方面特征的指標(biāo),它的每一個(gè)取值對(duì)應(yīng)一個(gè)事件。先拿概率論中常用的拋擲硬幣試驗(yàn)為例來(lái)解釋這兩概念。拋擲硬幣試驗(yàn)可以從多個(gè)方面來(lái)看:使用的硬幣是否質(zhì)地均勻、拋擲方式如何、拋擲結(jié)果是什么、等等。拋擲結(jié)果這個(gè)指標(biāo)刻畫(huà)試驗(yàn)一個(gè)方面的特征,因此它是一個(gè)變量。這個(gè)變量有兩個(gè)可能的取值,即正面朝上和反面朝上。于是有兩個(gè)事件,即拋擲結(jié)果正面朝上和拋擲結(jié)果反面朝上。.接下來(lái)看一個(gè)中醫(yī)的例子。有無(wú)口苦是反映病人身體一個(gè)方面特征的指標(biāo),因此它是一個(gè)變量,稱(chēng)為癥狀變量。它有兩個(gè)可能的取值,即有和無(wú)。于是有兩個(gè)癥狀事件, 即(病人)有口苦和(病人)無(wú)口苦。如果要考慮不同輕重程度,相應(yīng)的變量是口苦程度。 一般情
5、況下,程度變量有4個(gè)可能的取值,即無(wú)、輕、中和重。于是有4個(gè)癥狀事件,即無(wú)口苦、有輕度口苦、有中度口苦和有重度口苦。為了統(tǒng)一 二值和多值情況下癥狀變量的稱(chēng)謂,可以用口苦情況 來(lái)替代有無(wú)口苦和口苦程度。.有口苦這個(gè)詞通常被簡(jiǎn)化為口苦。同時(shí),口苦情況也被簡(jiǎn)化為口苦。這樣,口苦時(shí)而指 口苦情況這個(gè)變量,時(shí)而又指有口苦這個(gè)事件。在下一節(jié)讀者將會(huì)看到,這種歧義性造成了對(duì)變量聚類(lèi)結(jié)果之含義的誤解。 .顧名思義,變量聚類(lèi)的對(duì)象是變量而不是事件,其結(jié)果是變量的類(lèi)而不是事件的類(lèi)。所以,類(lèi)1的成員是口苦情況等癥狀變量,而不是有口苦等癥狀事件。為了避免誤解,我們把類(lèi)1的定義改寫(xiě)如下:.類(lèi)1:發(fā)熱寒戰(zhàn)情況、右上腹壓痛
6、拒按情況、黃疸情況、右上腹疼痛情況、惡心嘔吐情況、大便秘結(jié)情況、小便色黃情況、苔黃情況、苔膩情況、脈滑情況、脈弦情況、口苦情況。.2.2 變量類(lèi)相似系數(shù)口苦情況等12個(gè)癥狀變量為什么會(huì)被聚成一類(lèi)呢?它們被聚成一類(lèi)這件事的含義是什么?一個(gè)粗略的回答是,這意味著口苦情況等12個(gè)癥狀變量之間的相似度高。如果要準(zhǔn)確回答這個(gè)問(wèn)題,則需要考慮如何基于變量之間的相似系數(shù)定義類(lèi)之間的相似系數(shù)。.常用的方法有最大相似系數(shù)法、最小相似系數(shù)法和平均相似系數(shù)法。在計(jì)算兩個(gè)類(lèi)A和B間的相似系數(shù)時(shí),考慮A中變量與B中變量間的相似系數(shù)。最大相似系數(shù)法取其最大者,最小相似系數(shù)法取其最小者,而平均相似系數(shù)法取平均數(shù)。 1 .如
7、果類(lèi)1是用最大相似系數(shù)法獲得的,那么對(duì)類(lèi)中任意一個(gè)變量V,類(lèi)中有另外一個(gè)變量U使得V和U間的相似系數(shù)不低于某個(gè)閾值。如果類(lèi)1是用最小相似系數(shù)法獲得的,那么類(lèi)中任意兩個(gè)變量間的相似系數(shù)不低于某個(gè)閾值。如果類(lèi)1是用平均相似系數(shù)法獲得的,那么類(lèi)中變量間的相似系數(shù)的平均值不低于某個(gè)閾值。 1 .上面提到閾值是怎樣決定的呢?在獲得類(lèi)1的過(guò)程中,需要合并多對(duì)變量類(lèi),而每對(duì)類(lèi)之間都有一個(gè)相似系數(shù)。這些相似系數(shù)的最小者就是上面說(shuō)的閾值。一般說(shuō),最大相似系數(shù)法的閾值最大,平均相似系數(shù)法的閾值次之,最小相似系數(shù)法的閾值最小。.2.3 變量相似系數(shù)變量間相似系數(shù)的高低的直觀含義是什么?這個(gè)問(wèn)題的答案依賴所選用的相似
8、系數(shù)是什么。相似系數(shù)有各種各樣的類(lèi)型 1 。 作為例子,這里只討論Jaccard相似度和相關(guān)系數(shù)。.Jaccard相似度只適用于二值變量。下面用一個(gè)例子來(lái)說(shuō)明它的定義和直觀含義。用d記脈弦和口苦同時(shí)出現(xiàn)的樣本數(shù),b記脈弦出現(xiàn)而口苦不出現(xiàn)的樣本數(shù),c記脈弦不出現(xiàn)而口苦出現(xiàn)的樣本數(shù)。脈弦情況和口苦情況這兩個(gè)變量的Jaccard相似度定義為。Jaccard相似度的取值在0-1之間,可以視為是癥狀出現(xiàn)的同步率。它的值越高,脈弦和口苦出現(xiàn)時(shí)的同步率就越高,即脈弦和口苦的出現(xiàn)更接近如下情況:要么兩者都不出現(xiàn),要么兩者都出現(xiàn)。.相關(guān)系數(shù)是統(tǒng)計(jì)學(xué)中用來(lái)度量數(shù)字變量間關(guān)聯(lián)程度的一個(gè)指標(biāo)。如果把癥狀的出現(xiàn)表示為1
9、,不出現(xiàn)表示為0,那么就可以定義脈弦情況和口苦情況間的相關(guān)系數(shù)。相關(guān)系的取值在0-1之間。當(dāng)兩個(gè)變量的可能取值相同時(shí),它們之間的相關(guān)系數(shù)也可視為是一種同步率。脈弦情況和口苦情況間的相關(guān)系數(shù)越高,脈弦和口苦同時(shí)出現(xiàn)或同時(shí)不出現(xiàn)的次數(shù)也就越多, 反之亦然。.2.4 類(lèi)1的含義在分析數(shù)據(jù)時(shí),麻曉慧等2用的是SAS軟件。由于他們未提及軟件設(shè)置,所使用的變量相似系數(shù)應(yīng)該是SAS默認(rèn)的Jaccard相似度, 而所使用的變量類(lèi)相似系數(shù)應(yīng)該是SAS默認(rèn)的平均相似系數(shù)。 所以,類(lèi)1是一個(gè)由口苦情況等12個(gè)癥狀變量組成的集合,其含義是這12變量?jī)蓛芍g的Jaccard相似度平均不低于某個(gè)閾值, 即口苦等12個(gè)癥狀
10、兩兩同步出現(xiàn)的頻率平均不低于某個(gè)閾值。.3 證候的含義證候是一個(gè)具爭(zhēng)議性的概念。但是,在詮釋變量聚類(lèi)結(jié)果時(shí)人們所使用的證候其意義基本是統(tǒng)一的、清楚的。例如,在把類(lèi)1詮釋為肝膽濕熱證時(shí),肝膽濕熱證對(duì)應(yīng)由口苦等12個(gè)癥狀(事件)組成的癥狀群,其意義如下:.1. 如果這些癥狀全部(或其大多數(shù))在某病人身上同時(shí)出現(xiàn),那么該病人有肝膽濕熱證,2. 如果這些癥狀中許多不在一病人身上出現(xiàn),那么該病人無(wú)肝膽濕熱證。4 變量聚類(lèi)結(jié)果的詮釋現(xiàn)在我們以類(lèi)1為例討論變量聚類(lèi)的詮釋問(wèn)題。 在2中,類(lèi)1被詮釋為肝膽濕熱證。這是由于類(lèi)1被認(rèn)為是由有口苦等12個(gè)癥狀事件組成的集合,進(jìn)而其意義被理解為口苦等12個(gè)癥狀同時(shí)出現(xiàn)。
11、在把類(lèi)1詮釋為肝膽濕熱之后,2進(jìn)一步得出結(jié)論:肝膽濕熱證是肝膽病中的中醫(yī)證候之一。這就是說(shuō),肝膽濕熱證存在于研究涉及的739個(gè)樣本中,即有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)。為方便討論,我們將這一段文字涉及的幾件事按邏輯順序整理如下:.1. 把類(lèi)1認(rèn)為是由有口苦等12個(gè)癥狀事件組成的集合。2. 把類(lèi)1的意義理解為口苦等12個(gè)癥狀同時(shí)出現(xiàn),從而把它詮釋為肝膽濕熱證。3. 在2的基礎(chǔ)上,得出肝膽病中有肝膽濕熱證的結(jié)論,即有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)。根據(jù)第2節(jié)的結(jié)論,類(lèi)1是癥狀變量的集合而不是癥狀事件的集合。所以,上述第1步是不正確的。再根據(jù)第2節(jié)的結(jié)論,類(lèi)1的意義不是
12、口苦等12個(gè)癥狀同時(shí)出現(xiàn)。實(shí)際上,句子“口苦等12個(gè)癥狀同時(shí)出現(xiàn)”本身是一個(gè)病句。顯然,口苦等12癥狀不可能在每一個(gè)樣本中都同時(shí)出現(xiàn)。那么它們究竟在哪些樣本中出現(xiàn)呢?句子沒(méi)有指明,因此意義不清。所以,第2步也是錯(cuò)誤的。最后,第3步從“口苦等12個(gè)癥狀同時(shí)出現(xiàn)”這個(gè)含義不清的命題推出“有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)”。這是不合邏輯的。.上述三步都有問(wèn)題。那么有沒(méi)可能不通過(guò)它們,而直接從類(lèi)1的含義出發(fā)得出“有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)”這個(gè)結(jié)論呢?回答是否定的。類(lèi)1的含義只是說(shuō)口苦等12個(gè)癥狀兩兩以一定頻率在樣本中同時(shí)出現(xiàn)。這并不意味著所有12個(gè)癥狀同時(shí)出現(xiàn)在某些
13、樣本中。在邏輯上,從兩兩雙邊關(guān)系是無(wú)法推出多邊關(guān)系的。打一個(gè)比方:青年A 與一對(duì)好朋友B和C談三角戀愛(ài),A和B常常一起出現(xiàn),A和C常常一起出現(xiàn),B和C常常一起出現(xiàn), 但這些并不意味著他們?nèi)藭?huì)同時(shí)出現(xiàn)。.上面的討論以2為例。但是,所指出的問(wèn)題是其它用變量聚類(lèi)研究證候分布工作共有的。問(wèn)題的根源在于研究目的與研究方法不匹配。 這些工作是要通過(guò)分析一組關(guān)于西醫(yī)某病種的樣本,揭示該病種中中醫(yī)證候的分布規(guī)律,這其實(shí)是揭示該組樣本中中醫(yī)證候的分布情況。簡(jiǎn)而言之,這就是要揭示樣本某方面的特征和性質(zhì)。變量聚類(lèi)方法只考慮變量間的關(guān)系,完全不分析樣本的特征和性質(zhì)。既然如此,它又怎么能揭示樣本中中醫(yī)證候的分布規(guī)律呢
14、?.5 結(jié)束語(yǔ)變量聚類(lèi)所得到的不是癥狀事件的類(lèi),而是癥狀變量的類(lèi),其含義不是一些癥狀同時(shí)出現(xiàn)于一些病人,從而不能詮釋為證候。變量聚類(lèi)不分析樣本的特征和性質(zhì),從而不可能揭示證候在樣本中的分布規(guī)律。.致謝本項(xiàng)研究得到香港研究資助局項(xiàng)目622105、北京市科委重大計(jì)劃項(xiàng)目H1和中國(guó)博士后科學(xué)基金2005037106的資助。.參考文獻(xiàn)1. 張堯庭,方開(kāi)泰,多元統(tǒng)計(jì)引論,科學(xué)出版社,北京,1999。2. 麻曉慧,王弘午,何裕民,膽病癥狀學(xué)聚類(lèi)研究,中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2000年第6卷第12期,59-61。.3. 李冬華,何裕民,子宮肌瘤患者的證候分布規(guī)律研究,上海中醫(yī)藥大學(xué)學(xué)報(bào),第17卷第2期,30-33,2003。.4. 李秀昌,張紅,周吉吉等, 月經(jīng)過(guò)多證候?qū)W的系統(tǒng)聚類(lèi)分析J . 長(zhǎng)春中醫(yī)學(xué)院學(xué)報(bào),1999 ,15 (3) :33.5. 劉鶯,朱文峰,盧芳國(guó)等,152 例胃癌患者術(shù)前病證聚
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 球隊(duì)更換合同協(xié)議書(shū)模板
- 重慶中興花園項(xiàng)目銷(xiāo)售策劃和銷(xiāo)售代理投標(biāo)書(shū)58p
- 紅色簡(jiǎn)約風(fēng)感動(dòng)中國(guó)十大人物介紹
- 黑龍江省哈爾濱市道外區(qū)2024-2025學(xué)年高一下學(xué)期期中考試數(shù)學(xué)試卷(解析)
- 2025年大數(shù)據(jù)展現(xiàn)平臺(tái)項(xiàng)目合作計(jì)劃書(shū)
- 2025年微波暗室設(shè)備項(xiàng)目建議書(shū)
- 心衰患者中醫(yī)護(hù)理
- 抖音短視頻內(nèi)容創(chuàng)作者激勵(lì)方案合同
- 電商平臺(tái)倉(cāng)儲(chǔ)動(dòng)線智能化物流方案設(shè)計(jì)與實(shí)施合同
- 微信視頻號(hào)美妝教程制作與推廣服務(wù)合同
- 三年級(jí)數(shù)學(xué)下冊(cè)計(jì)算題大全(每日一練共18份)
- 2024年高級(jí)衛(wèi)生專(zhuān)業(yè)技術(shù)資格考試傳染性疾病控制(087)(副高級(jí))復(fù)習(xí)試題及解答
- HSE管理體系與保證措施
- EDI工程手冊(cè)中文
- 高二語(yǔ)文九日齊山登高省公開(kāi)課金獎(jiǎng)全國(guó)賽課一等獎(jiǎng)微課獲獎(jiǎng)?wù)n件
- 廣東省廣州大學(xué)附中2021-2022年初二12月大聯(lián)盟物理在線考試題
- 食品工程系畜產(chǎn)品加工技術(shù)教案
- 醫(yī)保政策培訓(xùn)知識(shí)普及課件
- 入股合作的協(xié)議書(shū)(2024版)
- 廣東省深圳市南山區(qū)2023-2024學(xué)年七年級(jí)下學(xué)期期末英語(yǔ)試題
- 福建省寧德市霞浦縣2024屆九年級(jí)上學(xué)期期中階段性訓(xùn)練數(shù)學(xué)試卷(含答案)
評(píng)論
0/150
提交評(píng)論