



版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、論證候研究中變量聚類結果的詮釋張連文1,周雪忠2,何麗云2,劉保延2 1香港科技大學計算機科學及工程學系,香港2中國中醫(yī)科學院,北京,100070Email:, , , 摘要: 近年來有不少學者利用變量聚類方法研究西醫(yī)病種中中醫(yī)癥狀的分布規(guī)律,把所得的類詮釋為證候,從而得到一些關于證候分布的結論。 本文剖析變量聚類結果的統(tǒng)計學含義,并基于此討論把變量聚類結果詮釋為證候的合理性。.1 引言變量聚類也稱指標聚類,其目標是要把相似的變量聚到同一類,不相似的變量聚到不同的類,從而揭示變量之間的關系。就具體算法而言,證候研究中用得最多的是系統(tǒng)聚類,也稱歸并層次聚類。系統(tǒng)聚類首先計算變量兩兩之間的相似系數(shù)
2、,把每一個變量看成一類,并以變量之間的相似系數(shù)作為類之間的相似系數(shù);然后開始逐步將類進行合并,每次將相似系數(shù)最大的兩個類并成一個新類,并計算新類與其它類之間的相似系數(shù),這樣每次減少一個類,直到所有變量都聚成一類為止1。系統(tǒng)聚類的過程可以表述為一張冰柱圖。最后在冰柱圖的適當位置截取,而得數(shù)個變量類。.近年來有不少學者利用系統(tǒng)變量聚類方法對西醫(yī)病種中中醫(yī)癥狀的分布情況進行研究。例如,麻曉慧等2通過對739例膽病病案進行分析,得到9個類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊熱證、肝膽氣郁證、血瘀證、脾失健運證、陽虛寒濕證、陰虛內(nèi)熱證和熱毒亡陽證。其它被研究的西醫(yī)病種有子宮肌瘤3、月經(jīng)過多
3、4、胃癌5、胸痹心痛6、冠心病7等等。.本文剖析系統(tǒng)變量聚類結果的統(tǒng)計學含義,并基于此討論把它們詮釋為證候的合理性。 我們的結論是,變量聚類的結果不能詮釋為證候。.2 變量聚類結果的統(tǒng)計學含義在麻曉慧等2分析的膽病數(shù)據(jù)中,癥狀變量全部是二值的。 分析所得的變量類之一如下:.類1:發(fā)熱寒戰(zhàn)、右上腹壓痛拒按、黃疸、右上腹疼痛、惡心嘔吐、大便秘結、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。.本節(jié)以這個類為例,剖析系統(tǒng)變量聚類結果的含義。要準確把握這個類的含義,需要考慮三個因素,即變量與事件這兩個概念的區(qū)別、變量間相似系數(shù)的定義、以及變量類間相似系數(shù)的定義。下面逐一討論這三個因素。.2.1 變量與事件變
4、量是刻畫事物某方面特征的指標,它的每一個取值對應一個事件。先拿概率論中常用的拋擲硬幣試驗為例來解釋這兩概念。拋擲硬幣試驗可以從多個方面來看:使用的硬幣是否質地均勻、拋擲方式如何、拋擲結果是什么、等等。拋擲結果這個指標刻畫試驗一個方面的特征,因此它是一個變量。這個變量有兩個可能的取值,即正面朝上和反面朝上。于是有兩個事件,即拋擲結果正面朝上和拋擲結果反面朝上。.接下來看一個中醫(yī)的例子。有無口苦是反映病人身體一個方面特征的指標,因此它是一個變量,稱為癥狀變量。它有兩個可能的取值,即有和無。于是有兩個癥狀事件, 即(病人)有口苦和(病人)無口苦。如果要考慮不同輕重程度,相應的變量是口苦程度。 一般情
5、況下,程度變量有4個可能的取值,即無、輕、中和重。于是有4個癥狀事件,即無口苦、有輕度口苦、有中度口苦和有重度口苦。為了統(tǒng)一 二值和多值情況下癥狀變量的稱謂,可以用口苦情況 來替代有無口苦和口苦程度。.有口苦這個詞通常被簡化為口苦。同時,口苦情況也被簡化為口苦。這樣,口苦時而指 口苦情況這個變量,時而又指有口苦這個事件。在下一節(jié)讀者將會看到,這種歧義性造成了對變量聚類結果之含義的誤解。 .顧名思義,變量聚類的對象是變量而不是事件,其結果是變量的類而不是事件的類。所以,類1的成員是口苦情況等癥狀變量,而不是有口苦等癥狀事件。為了避免誤解,我們把類1的定義改寫如下:.類1:發(fā)熱寒戰(zhàn)情況、右上腹壓痛
6、拒按情況、黃疸情況、右上腹疼痛情況、惡心嘔吐情況、大便秘結情況、小便色黃情況、苔黃情況、苔膩情況、脈滑情況、脈弦情況、口苦情況。.2.2 變量類相似系數(shù)口苦情況等12個癥狀變量為什么會被聚成一類呢?它們被聚成一類這件事的含義是什么?一個粗略的回答是,這意味著口苦情況等12個癥狀變量之間的相似度高。如果要準確回答這個問題,則需要考慮如何基于變量之間的相似系數(shù)定義類之間的相似系數(shù)。.常用的方法有最大相似系數(shù)法、最小相似系數(shù)法和平均相似系數(shù)法。在計算兩個類A和B間的相似系數(shù)時,考慮A中變量與B中變量間的相似系數(shù)。最大相似系數(shù)法取其最大者,最小相似系數(shù)法取其最小者,而平均相似系數(shù)法取平均數(shù)。 1 .如
7、果類1是用最大相似系數(shù)法獲得的,那么對類中任意一個變量V,類中有另外一個變量U使得V和U間的相似系數(shù)不低于某個閾值。如果類1是用最小相似系數(shù)法獲得的,那么類中任意兩個變量間的相似系數(shù)不低于某個閾值。如果類1是用平均相似系數(shù)法獲得的,那么類中變量間的相似系數(shù)的平均值不低于某個閾值。 1 .上面提到閾值是怎樣決定的呢?在獲得類1的過程中,需要合并多對變量類,而每對類之間都有一個相似系數(shù)。這些相似系數(shù)的最小者就是上面說的閾值。一般說,最大相似系數(shù)法的閾值最大,平均相似系數(shù)法的閾值次之,最小相似系數(shù)法的閾值最小。.2.3 變量相似系數(shù)變量間相似系數(shù)的高低的直觀含義是什么?這個問題的答案依賴所選用的相似
8、系數(shù)是什么。相似系數(shù)有各種各樣的類型 1 。 作為例子,這里只討論Jaccard相似度和相關系數(shù)。.Jaccard相似度只適用于二值變量。下面用一個例子來說明它的定義和直觀含義。用d記脈弦和口苦同時出現(xiàn)的樣本數(shù),b記脈弦出現(xiàn)而口苦不出現(xiàn)的樣本數(shù),c記脈弦不出現(xiàn)而口苦出現(xiàn)的樣本數(shù)。脈弦情況和口苦情況這兩個變量的Jaccard相似度定義為。Jaccard相似度的取值在0-1之間,可以視為是癥狀出現(xiàn)的同步率。它的值越高,脈弦和口苦出現(xiàn)時的同步率就越高,即脈弦和口苦的出現(xiàn)更接近如下情況:要么兩者都不出現(xiàn),要么兩者都出現(xiàn)。.相關系數(shù)是統(tǒng)計學中用來度量數(shù)字變量間關聯(lián)程度的一個指標。如果把癥狀的出現(xiàn)表示為1
9、,不出現(xiàn)表示為0,那么就可以定義脈弦情況和口苦情況間的相關系數(shù)。相關系的取值在0-1之間。當兩個變量的可能取值相同時,它們之間的相關系數(shù)也可視為是一種同步率。脈弦情況和口苦情況間的相關系數(shù)越高,脈弦和口苦同時出現(xiàn)或同時不出現(xiàn)的次數(shù)也就越多, 反之亦然。.2.4 類1的含義在分析數(shù)據(jù)時,麻曉慧等2用的是SAS軟件。由于他們未提及軟件設置,所使用的變量相似系數(shù)應該是SAS默認的Jaccard相似度, 而所使用的變量類相似系數(shù)應該是SAS默認的平均相似系數(shù)。 所以,類1是一個由口苦情況等12個癥狀變量組成的集合,其含義是這12變量兩兩之間的Jaccard相似度平均不低于某個閾值, 即口苦等12個癥狀
10、兩兩同步出現(xiàn)的頻率平均不低于某個閾值。.3 證候的含義證候是一個具爭議性的概念。但是,在詮釋變量聚類結果時人們所使用的證候其意義基本是統(tǒng)一的、清楚的。例如,在把類1詮釋為肝膽濕熱證時,肝膽濕熱證對應由口苦等12個癥狀(事件)組成的癥狀群,其意義如下:.1. 如果這些癥狀全部(或其大多數(shù))在某病人身上同時出現(xiàn),那么該病人有肝膽濕熱證,2. 如果這些癥狀中許多不在一病人身上出現(xiàn),那么該病人無肝膽濕熱證。4 變量聚類結果的詮釋現(xiàn)在我們以類1為例討論變量聚類的詮釋問題。 在2中,類1被詮釋為肝膽濕熱證。這是由于類1被認為是由有口苦等12個癥狀事件組成的集合,進而其意義被理解為口苦等12個癥狀同時出現(xiàn)。
11、在把類1詮釋為肝膽濕熱之后,2進一步得出結論:肝膽濕熱證是肝膽病中的中醫(yī)證候之一。這就是說,肝膽濕熱證存在于研究涉及的739個樣本中,即有一部份樣本同時包含口苦等12個癥狀或其大多數(shù)。為方便討論,我們將這一段文字涉及的幾件事按邏輯順序整理如下:.1. 把類1認為是由有口苦等12個癥狀事件組成的集合。2. 把類1的意義理解為口苦等12個癥狀同時出現(xiàn),從而把它詮釋為肝膽濕熱證。3. 在2的基礎上,得出肝膽病中有肝膽濕熱證的結論,即有一部份樣本同時包含口苦等12個癥狀或其大多數(shù)。根據(jù)第2節(jié)的結論,類1是癥狀變量的集合而不是癥狀事件的集合。所以,上述第1步是不正確的。再根據(jù)第2節(jié)的結論,類1的意義不是
12、口苦等12個癥狀同時出現(xiàn)。實際上,句子“口苦等12個癥狀同時出現(xiàn)”本身是一個病句。顯然,口苦等12癥狀不可能在每一個樣本中都同時出現(xiàn)。那么它們究竟在哪些樣本中出現(xiàn)呢?句子沒有指明,因此意義不清。所以,第2步也是錯誤的。最后,第3步從“口苦等12個癥狀同時出現(xiàn)”這個含義不清的命題推出“有一部份樣本同時包含口苦等12個癥狀或其大多數(shù)”。這是不合邏輯的。.上述三步都有問題。那么有沒可能不通過它們,而直接從類1的含義出發(fā)得出“有一部份樣本同時包含口苦等12個癥狀或其大多數(shù)”這個結論呢?回答是否定的。類1的含義只是說口苦等12個癥狀兩兩以一定頻率在樣本中同時出現(xiàn)。這并不意味著所有12個癥狀同時出現(xiàn)在某些
13、樣本中。在邏輯上,從兩兩雙邊關系是無法推出多邊關系的。打一個比方:青年A 與一對好朋友B和C談三角戀愛,A和B常常一起出現(xiàn),A和C常常一起出現(xiàn),B和C常常一起出現(xiàn), 但這些并不意味著他們?nèi)藭瑫r出現(xiàn)。.上面的討論以2為例。但是,所指出的問題是其它用變量聚類研究證候分布工作共有的。問題的根源在于研究目的與研究方法不匹配。 這些工作是要通過分析一組關于西醫(yī)某病種的樣本,揭示該病種中中醫(yī)證候的分布規(guī)律,這其實是揭示該組樣本中中醫(yī)證候的分布情況。簡而言之,這就是要揭示樣本某方面的特征和性質。變量聚類方法只考慮變量間的關系,完全不分析樣本的特征和性質。既然如此,它又怎么能揭示樣本中中醫(yī)證候的分布規(guī)律呢
14、?.5 結束語變量聚類所得到的不是癥狀事件的類,而是癥狀變量的類,其含義不是一些癥狀同時出現(xiàn)于一些病人,從而不能詮釋為證候。變量聚類不分析樣本的特征和性質,從而不可能揭示證候在樣本中的分布規(guī)律。.致謝本項研究得到香港研究資助局項目622105、北京市科委重大計劃項目H1和中國博士后科學基金2005037106的資助。.參考文獻1. 張堯庭,方開泰,多元統(tǒng)計引論,科學出版社,北京,1999。2. 麻曉慧,王弘午,何裕民,膽病癥狀學聚類研究,中國中醫(yī)基礎醫(yī)學雜志,2000年第6卷第12期,59-61。.3. 李冬華,何裕民,子宮肌瘤患者的證候分布規(guī)律研究,上海中醫(yī)藥大學學報,第17卷第2期,30-33,2003。.4. 李秀昌,張紅,周吉吉等, 月經(jīng)過多證候學的系統(tǒng)聚類分析J . 長春中醫(yī)學院學報,1999 ,15 (3) :33.5. 劉鶯,朱文峰,盧芳國等,152 例胃癌患者術前病證聚
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 華師大版數(shù)學八年級下冊《小結》聽評課記錄4
- Unit 2 My school(說課稿)-2023-2024人教新起點版英語三年級下冊
- 初中7年級數(shù)學試卷
- 人教版八年級地理下冊《干旱的寶地-塔里木盆地》聽課評課記錄2
- 普通自行車的車輪半徑(范文5篇)
- 人教版地理七年級下冊《第一節(jié) 位置和范圍》聽課評課記錄4
- 無錫蘇教版三年級數(shù)學下冊《認識面積》聽評課記錄
- 部編道德與法治七年級上冊第四單元第十課《綻放生命之花第2課時 活出生命的精彩》聽課評課記錄
- 2025年度護工服務滿意度評價合同
- 2025年度跨境電子商務平臺運營咨詢合同范本
- 2022年高考湖南卷生物試題(含答案解析)
- GB/T 20909-2007鋼門窗
- GB/T 17854-1999埋弧焊用不銹鋼焊絲和焊劑
- GB/T 15593-2020輸血(液)器具用聚氯乙烯塑料
- 直線加速器專項施工方案
- 聯(lián)苯二氯芐生產(chǎn)工藝及產(chǎn)排污分析
- 儲能設備項目采購供應質量管理方案
- 2022年全國卷高考語文答題卡格式
- 美國房地產(chǎn)市場特征、框架與周期演變
- 復旦大學簡介 (課堂PPT)
- CKD馬達使用說明
評論
0/150
提交評論