論證候研究中變量聚類結(jié)果的詮釋_第1頁
論證候研究中變量聚類結(jié)果的詮釋_第2頁
論證候研究中變量聚類結(jié)果的詮釋_第3頁
論證候研究中變量聚類結(jié)果的詮釋_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、論證候研究中變量聚類結(jié)果的詮釋張連文1,周雪忠2,何麗云2,劉保延2 1香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程學(xué)系,香港2中國中醫(yī)科學(xué)院,北京,100070Email:lzhangcse.ust.hk, HYPERLINK mailto:zxz zxz, heliyun, liuby摘要: 近年來有不少學(xué)者利用變量聚類方法研究西醫(yī)病種中中醫(yī)癥狀的分布規(guī)律,把所得的類詮釋為證候,從而得到一些關(guān)于證候分布的結(jié)論。 本文剖析變量聚類結(jié)果的統(tǒng)計(jì)學(xué)含義,并基于此討論把變量聚類結(jié)果詮釋為證候的合理性。引言變量聚類也稱指標(biāo)聚類,其目標(biāo)是要把相似的變量聚到同一類,不相似的變量聚到不同的類,從而揭示變量之間的關(guān)系。就具體

2、算法而言,證候研究中用得最多的是系統(tǒng)聚類,也稱歸并層次聚類。系統(tǒng)聚類首先計(jì)算變量兩兩之間的相似系數(shù),把每一個(gè)變量看成一類,并以變量之間的相似系數(shù)作為類之間的相似系數(shù);然后開始逐步將類進(jìn)行合并,每次將相似系數(shù)最大的兩個(gè)類并成一個(gè)新類,并計(jì)算新類與其它類之間的相似系數(shù),這樣每次減少一個(gè)類,直到所有變量都聚成一類為止 REF _Ref140460246 r h * MERGEFORMAT 1。系統(tǒng)聚類的過程可以表述為一張冰柱圖。最后在冰柱圖的適當(dāng)位置截取,而得數(shù)個(gè)變量類。近年來有不少學(xué)者利用系統(tǒng)變量聚類方法對(duì)西醫(yī)病種中中醫(yī)癥狀的分布情況進(jìn)行研究。例如,麻曉慧等 REF _Ref143999403 r

3、 h * MERGEFORMAT 2通過對(duì)739例膽病病案進(jìn)行分析,得到9個(gè)類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊(yùn)熱證、肝膽氣郁證、血瘀證、脾失健運(yùn)證、陽虛寒濕證、陰虛內(nèi)熱證和熱毒亡陽證。其它被研究的西醫(yī)病種有子宮肌瘤 REF _Ref144000081 r h * MERGEFORMAT 3、月經(jīng)過多 REF _Ref144000099 r h * MERGEFORMAT 4、胃癌 REF _Ref144000116 r h * MERGEFORMAT 5、胸痹心痛 REF _Ref144000128 r h * MERGEFORMAT 6、冠心病 REF _Ref144000

4、141 r h * MERGEFORMAT 7等等。本文剖析系統(tǒng)變量聚類結(jié)果的統(tǒng)計(jì)學(xué)含義,并基于此討論把它們?cè)忈尀樽C候的合理性。 我們的結(jié)論是,變量聚類的結(jié)果不能詮釋為證候。變量聚類結(jié)果的統(tǒng)計(jì)學(xué)含義在麻曉慧等 REF _Ref143999403 r h 2分析的膽病數(shù)據(jù)中,癥狀變量全部是二值的。 分析所得的變量類之一如下:類1:發(fā)熱寒戰(zhàn)、右上腹壓痛拒按、黃疸、右上腹疼痛、惡心嘔吐、大便秘結(jié)、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。本節(jié)以這個(gè)類為例,剖析系統(tǒng)變量聚類結(jié)果的含義。要準(zhǔn)確把握這個(gè)類的含義,需要考慮三個(gè)因素,即變量與事件這兩個(gè)概念的區(qū)別、變量間相似系數(shù)的定義、以及變量類間相似系數(shù)的定義

5、。下面逐一討論這三個(gè)因素。變量與事件變量是刻畫事物某方面特征的指標(biāo),它的每一個(gè)取值對(duì)應(yīng)一個(gè)事件。先拿概率論中常用的拋擲硬幣試驗(yàn)為例來解釋這兩概念。拋擲硬幣試驗(yàn)可以從多個(gè)方面來看:使用的硬幣是否質(zhì)地均勻、拋擲方式如何、拋擲結(jié)果是什么、等等。拋擲結(jié)果這個(gè)指標(biāo)刻畫試驗(yàn)一個(gè)方面的特征,因此它是一個(gè)變量。這個(gè)變量有兩個(gè)可能的取值,即正面朝上和反面朝上。于是有兩個(gè)事件,即拋擲結(jié)果正面朝上和拋擲結(jié)果反面朝上。接下來看一個(gè)中醫(yī)的例子。有無口苦是反映病人身體一個(gè)方面特征的指標(biāo),因此它是一個(gè)變量,稱為癥狀變量。它有兩個(gè)可能的取值,即有和無。于是有兩個(gè)癥狀事件, 即(病人)有口苦和(病人)無口苦。如果要考慮不同輕重

6、程度,相應(yīng)的變量是口苦程度。 一般情況下,程度變量有4個(gè)可能的取值,即無、輕、中和重。于是有4個(gè)癥狀事件,即無口苦、有輕度口苦、有中度口苦和有重度口苦。為了統(tǒng)一 二值和多值情況下癥狀變量的稱謂,可以用口苦情況 來替代有無口苦和口苦程度。有口苦這個(gè)詞通常被簡化為口苦。同時(shí),口苦情況也被簡化為口苦。這樣,口苦時(shí)而指 口苦情況這個(gè)變量,時(shí)而又指有口苦這個(gè)事件。在下一節(jié)讀者將會(huì)看到,這種歧義性造成了對(duì)變量聚類結(jié)果之含義的誤解。 顧名思義,變量聚類的對(duì)象是變量而不是事件,其結(jié)果是變量的類而不是事件的類。所以,類1的成員是口苦情況等癥狀變量,而不是有口苦等癥狀事件。為了避免誤解,我們把類1的定義改寫如下:

7、類1:發(fā)熱寒戰(zhàn)情況、右上腹壓痛拒按情況、黃疸情況、右上腹疼痛情況、惡心嘔吐情況、大便秘結(jié)情況、小便色黃情況、苔黃情況、苔膩情況、脈滑情況、脈弦情況、口苦情況。變量類相似系數(shù)口苦情況等12個(gè)癥狀變量為什么會(huì)被聚成一類呢?它們被聚成一類這件事的含義是什么?一個(gè)粗略的回答是,這意味著口苦情況等12個(gè)癥狀變量之間的相似度高。如果要準(zhǔn)確回答這個(gè)問題,則需要考慮如何基于變量之間的相似系數(shù)定義類之間的相似系數(shù)。常用的方法有最大相似系數(shù)法、最小相似系數(shù)法和平均相似系數(shù)法。在計(jì)算兩個(gè)類A和B間的相似系數(shù)時(shí),考慮A中變量與B中變量間的相似系數(shù)。最大相似系數(shù)法取其最大者,最小相似系數(shù)法取其最小者,而平均相似系數(shù)法取

8、平均數(shù)。 REF _Ref140460246 r h * MERGEFORMAT 1 如果類1是用最大相似系數(shù)法獲得的,那么對(duì)類中任意一個(gè)變量V,類中有另外一個(gè)變量U使得V和U間的相似系數(shù)不低于某個(gè)閾值。如果類1是用最小相似系數(shù)法獲得的,那么類中任意兩個(gè)變量間的相似系數(shù)不低于某個(gè)閾值。如果類1是用平均相似系數(shù)法獲得的,那么類中變量間的相似系數(shù)的平均值不低于某個(gè)閾值。 REF _Ref140460246 r h * MERGEFORMAT 1 上面提到閾值是怎樣決定的呢?在獲得類1的過程中,需要合并多對(duì)變量類,而每對(duì)類之間都有一個(gè)相似系數(shù)。這些相似系數(shù)的最小者就是上面說的閾值。一般說,最大相似系

9、數(shù)法的閾值最大,平均相似系數(shù)法的閾值次之,最小相似系數(shù)法的閾值最小。變量相似系數(shù)變量間相似系數(shù)的高低的直觀含義是什么?這個(gè)問題的答案依賴所選用的相似系數(shù)是什么。相似系數(shù)有各種各樣的類型 REF _Ref140460246 r h * MERGEFORMAT 1 。 作為例子,這里只討論Jaccard相似度和相關(guān)系數(shù)。Jaccard相似度只適用于二值變量。下面用一個(gè)例子來說明它的定義和直觀含義。用d記脈弦和口苦同時(shí)出現(xiàn)的樣本數(shù),b記脈弦出現(xiàn)而口苦不出現(xiàn)的樣本數(shù),c記脈弦不出現(xiàn)而口苦出現(xiàn)的樣本數(shù)。脈弦情況和口苦情況這兩個(gè)變量的Jaccard相似度定義為。Jaccard相似度的取值在0-1之間,可以

10、視為是癥狀出現(xiàn)的同步率。它的值越高,脈弦和口苦出現(xiàn)時(shí)的同步率就越高,即脈弦和口苦的出現(xiàn)更接近如下情況:要么兩者都不出現(xiàn),要么兩者都出現(xiàn)。相關(guān)系數(shù)是統(tǒng)計(jì)學(xué)中用來度量數(shù)字變量間關(guān)聯(lián)程度的一個(gè)指標(biāo)。如果把癥狀的出現(xiàn)表示為1,不出現(xiàn)表示為0,那么就可以定義脈弦情況和口苦情況間的相關(guān)系數(shù)。相關(guān)系的取值在0-1之間。當(dāng)兩個(gè)變量的可能取值相同時(shí),它們之間的相關(guān)系數(shù)也可視為是一種同步率。脈弦情況和口苦情況間的相關(guān)系數(shù)越高,脈弦和口苦同時(shí)出現(xiàn)或同時(shí)不出現(xiàn)的次數(shù)也就越多, 反之亦然。類1的含義在分析數(shù)據(jù)時(shí),麻曉慧等 REF _Ref143999403 r h * MERGEFORMAT 2用的是SAS軟件。由于他

11、們未提及軟件設(shè)置,所使用的變量相似系數(shù)應(yīng)該是SAS默認(rèn)的Jaccard相似度, 而所使用的變量類相似系數(shù)應(yīng)該是SAS默認(rèn)的平均相似系數(shù)。 所以,類1是一個(gè)由口苦情況等12個(gè)癥狀變量組成的集合,其含義是這12變量兩兩之間的Jaccard相似度平均不低于某個(gè)閾值, 即口苦等12個(gè)癥狀兩兩同步出現(xiàn)的頻率平均不低于某個(gè)閾值。證候的含義證候是一個(gè)具爭議性的概念。但是,在詮釋變量聚類結(jié)果時(shí)人們所使用的證候其意義基本是統(tǒng)一的、清楚的。例如,在把類1詮釋為肝膽濕熱證時(shí),肝膽濕熱證對(duì)應(yīng)由口苦等12個(gè)癥狀(事件)組成的癥狀群,其意義如下:如果這些癥狀全部(或其大多數(shù))在某病人身上同時(shí)出現(xiàn),那么該病人有肝膽濕熱證,

12、如果這些癥狀中許多不在一病人身上出現(xiàn),那么該病人無肝膽濕熱證。變量聚類結(jié)果的詮釋現(xiàn)在我們以類1為例討論變量聚類的詮釋問題。 在 REF _Ref143999403 r h * MERGEFORMAT 2中,類1被詮釋為肝膽濕熱證。這是由于類1被認(rèn)為是由有口苦等12個(gè)癥狀事件組成的集合,進(jìn)而其意義被理解為口苦等12個(gè)癥狀同時(shí)出現(xiàn)。在把類1詮釋為肝膽濕熱之后, REF _Ref143999403 r h * MERGEFORMAT 2進(jìn)一步得出結(jié)論:肝膽濕熱證是肝膽病中的中醫(yī)證候之一。這就是說,肝膽濕熱證存在于研究涉及的739個(gè)樣本中,即有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)。為方便討論,

13、我們將這一段文字涉及的幾件事按邏輯順序整理如下:把類1認(rèn)為是由有口苦等12個(gè)癥狀事件組成的集合。把類1的意義理解為口苦等12個(gè)癥狀同時(shí)出現(xiàn),從而把它詮釋為肝膽濕熱證。在2的基礎(chǔ)上,得出肝膽病中有肝膽濕熱證的結(jié)論,即有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)。根據(jù)第2節(jié)的結(jié)論,類1是癥狀變量的集合而不是癥狀事件的集合。所以,上述第1步是不正確的。再根據(jù)第2節(jié)的結(jié)論,類1的意義不是口苦等12個(gè)癥狀同時(shí)出現(xiàn)。實(shí)際上,句子“口苦等12個(gè)癥狀同時(shí)出現(xiàn)”本身是一個(gè)病句。顯然,口苦等12癥狀不可能在每一個(gè)樣本中都同時(shí)出現(xiàn)。那么它們究竟在哪些樣本中出現(xiàn)呢?句子沒有指明,因此意義不清。所以,第2步也是錯(cuò)誤的

14、。最后,第3步從“口苦等12個(gè)癥狀同時(shí)出現(xiàn)”這個(gè)含義不清的命題推出“有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)”。這是不合邏輯的。上述三步都有問題。那么有沒可能不通過它們,而直接從類1的含義出發(fā)得出“有一部份樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)”這個(gè)結(jié)論呢?回答是否定的。類1的含義只是說口苦等12個(gè)癥狀兩兩以一定頻率在樣本中同時(shí)出現(xiàn)。這并不意味著所有12個(gè)癥狀同時(shí)出現(xiàn)在某些樣本中。在邏輯上,從兩兩雙邊關(guān)系是無法推出多邊關(guān)系的。打一個(gè)比方:青年A 與一對(duì)好朋友B和C談三角戀愛,A和B常常一起出現(xiàn),A和C常常一起出現(xiàn),B和C常常一起出現(xiàn), 但這些并不意味著他們?nèi)藭?huì)同時(shí)出現(xiàn)。上面的討論以 R

15、EF _Ref143999403 r h * MERGEFORMAT 2為例。但是,所指出的問題是其它用變量聚類研究證候分布工作共有的。問題的根源在于研究目的與研究方法不匹配。 這些工作是要通過分析一組關(guān)于西醫(yī)某病種的樣本,揭示該病種中中醫(yī)證候的分布規(guī)律,這其實(shí)是揭示該組樣本中中醫(yī)證候的分布情況。簡而言之,這就是要揭示樣本某方面的特征和性質(zhì)。變量聚類方法只考慮變量間的關(guān)系,完全不分析樣本的特征和性質(zhì)。既然如此,它又怎么能揭示樣本中中醫(yī)證候的分布規(guī)律呢?結(jié)束語變量聚類所得到的不是癥狀事件的類,而是癥狀變量的類,其含義不是一些癥狀同時(shí)出現(xiàn)于一些病人,從而不能詮釋為證候。變量聚類不分析樣本的特征和性質(zhì),從而不可能揭示證候在樣本中的分布規(guī)律。致謝本項(xiàng)研究得到香港研究資助局項(xiàng)目622105、北京市科委重大計(jì)劃項(xiàng)目H020920010031和中國博士后科學(xué)基金2005037106的資助。參考文獻(xiàn)張堯庭,方開泰,多元統(tǒng)計(jì)引論,科學(xué)出版社,北京,1999。麻曉慧,王弘午,何裕民,膽病癥狀學(xué)聚類研究,中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2000年第6卷第12期,59-61。李冬華,何裕民,子宮肌瘤患者的證候分布規(guī)律研究,上海中醫(yī)藥大學(xué)學(xué)報(bào),第17卷第2期,30-33,2003。李秀昌,張紅

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論