巨無霸與特征因子不要讓相關系數欺騙了我們_第1頁
巨無霸與特征因子不要讓相關系數欺騙了我們_第2頁
巨無霸與特征因子不要讓相關系數欺騙了我們_第3頁
巨無霸與特征因子不要讓相關系數欺騙了我們_第4頁
巨無霸與特征因子不要讓相關系數欺騙了我們_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

BigMacsandEigenfactorScores:Don’tLetCorrelation

CoefficientsFoolYou巨無霸與特征因子:不要讓相關系數欺騙了我們YW相關概念

Pagerank

特征因子實際工資

相關系數

偽相關Pagerank

Pagerank是Google排名運算法則(排名公式)的一部分,是Google用于用來標識網頁的等級/重要性的一種方法,是Google用來衡量一個網站的好壞的唯一標準。在揉合了諸如Title標識和Keywords標識等所有其它因素之后,Google通過PageRank來調整結果,使那些更具“等級/重要性”的網頁在搜索結果中另網站排名獲得提升,從而提高搜索結果的相關性和質量。計算公式:R(A)=(1-d)+d(PR(Ti)/C(Ti)+...+PR(Tn)/C(Tn))

注:PR(A):網頁A頁的PageRank值;PR(Ti):鏈接到A頁的網頁Ti的PageRank值;C(Ti):網頁Ti的出站鏈接數量;d

:阻尼系數,0<d<1。Pagerank根據以上公式,我們可以看出,影響一個網頁的因素有以下幾個:該網頁的鏈入數量。該網頁的鏈入網頁本身的PR。該網頁的鏈入網頁本身的鏈出數量。

某網頁有較多的鏈入網頁,則說明較多的其他網頁認為該網頁是重要的;較高的PR的網頁指向某網頁,表明更重要的網頁認為該網頁是重要的,這種“更權威的認為”更可以表明該網頁的重要性;如果其他網頁只有一個鏈出指向該網頁,那么說明其他網頁認為只有該網頁是最重要的,所以這種推薦程度就更大。特征因子湯姆森路透科技集團于2009年1月22日推出了JCR的增強功能,2007版的JCR報告除了增加五年影響因子、五年影響因子趨勢圖、影響因子箱線圖、分類排名表等功能外,還新增了兩個評價指標:EigenfactorScore和ArticleInfluenceScore。

基本思路是:影響因子在計算期刊的引用次數時,將來自所有刊物的引用都平等看待,而實際上,對于像Nature和Science這樣有影響力的大刊,來自它們的引用顯然比一些小刊的引用分量要大得多。特征因子的制定就是考慮到不同層次期刊的引用權重,通過引文構建起文獻引用網絡,對期刊的影響力進行評價。實際工資(RealWage)以工人所得的貨幣工資實際上能夠買多少生活消費品、開銷多少服務費做標準來衡量的工資?!懊x工資”的對稱。用貨幣工資額所能換得的生活資料和服務的數量。在貨幣工資不變的條件下,其水平決定于物價因素。如物價上漲則實際工資水平下降??梢院饬柯毠さ膶嶋H收入水平。實際工資是反映工人實際生活水平的一個重要標志。相關系數相關系數,又稱皮(爾生)氏積矩相關系數,是變量之間相關程度的指標。樣本相關系數用r表示,總體相關系數用ρ表示,相關系數的取值范圍為[-1,1]。|r|值越大,誤差Q越小,變量之間的線性相關程度越高;|r|值越接近0,Q越大,變量之間的線性相關程度越低。偽相關

兩變量間之往往會出現偽相關關系,尤其它們都存在一種相同的變化趨勢,或者說存在起著將兩變量聯系在一起的橋梁作用的第三變量的情況下。

舉例

提出質疑檢驗分析

實踐證明結論

統(tǒng)計上偽相關

Davis的偽相關實踐一實踐二

結論一

結論二

結論三

Davis的論點

提出疑問本文觀點實踐三漢堡例子表一是22個國家的兩組數據:一份巨無霸在當地的價格和當地每小時平均的工資。漢堡價格與當地每小時平均工資之間的皮爾遜相關系數為0.99。有人認為我們可以準確的用每小時平均工資來預測漢堡的價格。也有人提出質疑:既然每小時工資率已經知道了,為什么還有人浪費時間去調查漢堡價格呢?請看看“實際工資”這一欄。實際工資—漢堡價格與每小時工資的比率—是經濟利益的變量,它代表一個工人的購買力。我們看到不同國家的實際工資發(fā)生了戲劇性的變化。在丹麥一個工人只需要工作七分鐘就可以賺到一個漢堡,在中國則需要工作2個小時買一個漢堡。表一

舉例

提出質疑檢驗分析

實踐證明結論

Davis的論點

提出疑問本文觀點

Davis的分析

Davis用特征因子、影響因子、引文頻次指標對期刊排序進行比較。Davis研究的目的是在165種醫(yī)學期刊的總引文的基礎上確定“人氣指標”影響因子、引文頻次指標與“威望指標”期刊pagerank、特征因子之間是否有實質性的區(qū)別。Davis的報告指出2006年特征因子與總引頻次的相關系數ρ為0.9493。

基于此,Davis得出以下結論:至少對于醫(yī)學類期刊來說,特征因子對期刊的排名與原被引次數對期刊的排名之間并無太大的差別,也即兩者提供了相似的期刊影響度信息。提出疑問

Davis說的對嗎?!如果知道了引文頻次再去計算特征因子分值就是浪費時間,是真的嗎?本文觀點

首先,Davis犯了一個KarlPearson(1897)提出的經典的統(tǒng)計學的錯誤:使用了具有公因數的變量來比較此變量之間的相關關系。其次,Davis認為如果相關系數很高那就說明兩個指標之間沒有很明顯的差別。這明顯是不對的,下面我們依次來討論這些問題。

舉例

提出質疑

檢驗分析

實踐證明結論

統(tǒng)計上偽相關

Davis的偽相關

Davis的論點

提出疑問本文觀點統(tǒng)計上的偽相關1897年,在統(tǒng)計學先驅KarlPearson提出積差相關系數兩年后,Pearson在向英國皇家協會提交的一篇文章中,他注意到,生物統(tǒng)計學家W.F.R.Weldon恰恰在分析甲殼蟲身體規(guī)模時犯了這個錯誤。為了解釋這個錯誤,Pearson這樣寫到:假設u=f1(x,y)andv=f2(z,y)是關于xyz三個變量的函數,三個變量賦予任意值使xy,yz,zx之間沒有關系,然而仍然可以發(fā)現u和v之間的關系。因此,當統(tǒng)計生物學家確定u,v之間關系時就產生了真正的危險。皮爾遜把這種危險叫做偽相關。統(tǒng)計上的偽相關

就在10年以后,數學統(tǒng)計學界的發(fā)展史上另外一個重要人物,G.U.Yule指出如果兩個變量擁有公因數,則會影響指標或比率的問題。假設我們結合任意兩個指標Z1和Z2,如死亡率,另外任意找到一變量如人口X3。Z1,Z2與X3在取樣的限制下相關系數為0。但是現在假設我們證明出死亡數X1=Z1X3和X2=Z2X3;X1和X2的相關系數r12就不為0。而且是正相關。Davis的偽相關我們用公式來表示Davis的關于特征因子與總引文數的回歸分析。

log(EFi)versuslog(CTi)注:EFi是指i期刊的特征因子分值,CTi是i期刊的總引文。AIi是i期刊的引文影響分值,Ni,5是指過去5年期刊i發(fā)表的論文總數。然后定義

log(EFi)=log(C1*AIi*Ni,5)=log(C1+logAIi+logN

i,5)

注:C1是一個使AI值規(guī)范的度量常數,以使JCR中平均每篇文章的AI值為1。Davis的偽相關

log(CTi)≈log(C2

×IFi×Ni,2)≈log(C2C3×IFi

×Ni,5)=logC2C3+logIFi+logNi,5

注:C2,C3是另外兩個度量常數,C2的說明了Davis比較的是所有年份的引文,而不只是兩年以內的。C3是兩年發(fā)表的論文數與五年發(fā)表論文數的相關度(大概是5/2)回歸方程最終為:

log(AI)+log(TotalArticles)與

log(IF)+log(TotalArticles)式子兩邊都有)log(TotalArticles),而且它比其它兩組指標變化更大。這說明“人氣指標”與“威望指標”這兩個變量之間的關系更加模糊不清。Davis的偽相關

Davis的分析中屬于典型的偽相關。每篇文章的普及度通過IF來測量,設Z1=IF值,每篇文章的威望由AI分值來代表,設Z2=AI值。文章總數代表Yule的X3。即使IF和AI完全不相關,Davis仍然會觀測特征因子與總引文回歸分析中的高的相關系(ρ=0.6)因為把文章總數作為公因數。

舉例

提出質疑檢驗分析

實踐證明結論

統(tǒng)計上偽相關

Davis的偽相關

實踐一

實踐二

Davis的論點

提出疑問本文觀點實踐三實踐證明一

本文認為Davis其實發(fā)現的不是人氣和威望指標是同樣的指標。他發(fā)現的是越有人氣的期刊越有威望,越沒有人氣的期刊越沒有威望。因為期刊排序有很大差異,我們也應該注意到總引文與頁數之間有很大的相關性,盡管少數人爭論說前者足以代表后者。為避免這個問題,我們要去看看每篇文章的“人氣指標”和“威望指標”的相關系數。圖一

2006年JCR中231類別的IF與AI之間的相關系數的直方圖。所有領域的平均值為0.853,標準差為0.099。相關系數最低的領域為通信(ρ=0.478)。船舶工程的相關系數最高(ρ=0.986)。davis研究的醫(yī)學領域ρ=0.954,在231類中排名第90。某一典型領域的相關系數超過所有期刊總的相關系數。7611種期刊總的相關系數ρ=0.818。這個低于個別領域的平均值ρ=0.853。圖一實踐證明二

在漢堡和期刊這兩個例子中需要注意的是如果你對A與B的比感興趣,而且A=ax,B=bx,x相對于a、b來說有很大的變異性,等你B回歸到A時你將得到很高的ρ值。然而,如果你真的對A/B感興趣,你會注意掉x的約分,A/B=ax/bx=a/b。因此,變量x對于表達a/b的意義是無關的。你會從B與A的相關性中得出當a/b是恒量還是不斷變化的結論。實踐證明二

根據Davis所說,如果特征因子與總引文數沒有很大不同,那么不管期刊中類別是否相同,EF/TC的比應該是恒量。為了鑒定他的觀點我們觀察社會期刊的EF/TC比,科學期刊的EF/TC比以及被JCR遺漏的期刊。科學期刊的EF/TC比的平均值為1.42×10?5,社會期刊的平均值為2.12×10?5。則樣本非參數檢驗顯示他們的差異非常顯著p<10?167。表二實踐證明三因此,如果相關系數誤導了人們,其它的選擇呢?首先我們探討一個數據的更深層次的檢驗。表3就是一個例子。將期刊按這樣的方式列表,我們很快發(fā)現存在于高度相關數據間的不同。這種典型的圖形展示說明了在簡要的統(tǒng)計學中如相關系數我們往往會迷失。表3表明醫(yī)學期刊前50%都被用到Davis的研究中,在左邊的一列,通過總引文數進行排列的醫(yī)學子領域的期刊。在右邊欄里,是通過特征因子來排序的期刊。綠色線連接排名上升的期刊,紅色代表下降,黑色代表不動。這個表的重點是測量值的不同。例如,航空學和環(huán)境醫(yī)學下降了30位,然而公共科學圖書館醫(yī)學上升了30位。Davis聲稱在他的研究中期刊的順序變化不是很大。表3可不這么認為。表三實踐證明三表4表明了84種期刊的IF、AI的排序,在davis的研究中這是最優(yōu)的一半。前幾位期刊的位次改變并不明顯。后面的改變較大。前10名的期刊在位次上只改變了一兩位。比如內科醫(yī)學從18位到了19位,而疼痛醫(yī)學從35到了80位。且在醫(yī)學這個領域的相關系數為0.955。這些大的改變當然應該得到編輯們的注意。表四

舉例

提出質疑檢驗分析

實踐證明

結論

統(tǒng)計上偽相關

Davis的偽相關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論