下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精品文檔(實驗項目)DBLP數(shù)據(jù)集包括100萬篇發(fā)表在計算機(jī)科學(xué)會議和雜志上的論文項。在這些項中,很多作者都有合著關(guān)系。(a)提出一種方法,JS掘密切相關(guān)的(即,經(jīng)常一起合寫文章)合著者關(guān)系。解決問題的大致過程:1. DBLP數(shù)據(jù)集是一個XML文件,先對XML文件解析,得到一個超過1G的TXT 文件,處理文件數(shù)據(jù)格式,并截取前 20000行數(shù)據(jù),格式如下圖:fLllcr,%CiatkEr 就*上知 LdnerLdzatidiSj Slde PettovSlci,力nw弓.osspt 白.Kcng, f.yli 墳眼3 Jur;也 Ksj.erid*oii List, test 笈Hi羽uiir
2、 1忙山 Korea,也riig 儂二口打:占£口上口上占?D-lLlhg 比已也 ChfiE-Tje Tsair Yaz-Nn Chen, Ku-,Chlifl <3ituF tJlu二-Llarg L. 士人叫-日的 Tsa Kjau-R-i WaH Yli-比匕叫 Ckou, C-utc-Yi Li, ifei- UfiKaDdru Niculesai-Hiulr CUudLi Perlidij Ctzegori Swluscz* Vllus dindbnuir Ym Liif Pn 皿yille. Doog Ku)g,Jiig XiH> Jluyin .iiiji
3、ji iie, Viit iria ?.kjvar地占;比 州 _ Jtcpli*;1i;ang Liatg, Eric Sie41f Valery k. retnisiia, Jiddhai:k Pal, :a:b SpoelstraMldUBl趾UHf TtfyzlierTsduelle Guyuru Vint-.nt Launi Mm Ml電 Guinn DftcrJ David wgelJiitrm 必:虹匚士roil,融:式士叫 皿* Cirss udLifg一力把其叫汽,品加上明口白二irn 匕上船1% d;;二口虹. z配.空emd ;邇iLciael .'atrir,
4、Ar.irtas TscAtr阿belt Busa-RiE% 3】虹!i 奮g】Sung-Yi Lfit Eai-tki 二3立 E匕叫-T非 Chen, iMung-肥i±n 二h:明,"JiLSi-Sung Rrngf Cht Jiii 也iwit, Yi-Kii=ng Kt, Tsung-Ting R5 Hng. rJkladimr Hi如lin, Seofirej J- McLdcfclJti歐加 獨配小Tianqi 曰能,物tUji甘七 Li明tng fang猶口1,g明 丸2.使用FP-Tree算法,設(shè)置支持度為3,得到的滿足條件的頻繁項集如下圖:Hans-Pe
5、ter Kriegel null null Erich Schubert 3CTalal Mahmud Jeffrey Nichols i7ohn 0T Donovan 3Vai Tannen Todd J. Grumu3Wei Han Ling Liu Wei Ting 3Guido Hoerkatte Thortis Neumann COOL 4Marees也:艮二茅Gg莽Wer Fan Haixun Wang 3 _ ' a.aIves Plvel Calado Yuxin Chen 3Qcnzalc Navarro Antonio Faiga3Evunarift Terzi K
6、un Liu3Ran Kohavi Dan Sorauerfield3Jiliang Tang Xia Hu 3Confl Yu Siherr. Aner-Yahia javtarr Das Senjuti Basu Roy3David A. Ge口smma門 Ophir Friad&r Abdur Chowdhuz/ Staves M* BeitzelQifan Wang Luo Si Zhiwei Zhang3Mana Lui3a Spxno K Seljuk Candan Yan Qi 00023Xueqi Cheng Bin Wanj 3Ophir Frieder null &
7、#163;ric C, Jensen 7null Alan J. Demers 5Minlie Huang Weichang Li3Wei Wang 0010 Jlong Yang3Gusfei Jiang Kenj i Yosbihira 3Giuseppe Rizzo 0002 Ja茅工ui呂 Redondo- Garcftla3Wenfei Fan Shuai Ma 3kick N, Choudhary ¥i Cheng Dtniel Hanbo tfen-Syan Li iSang-Pi二 Ms二ung Oliver PdWynne Hsu Bing Liu 0301 Vis
8、ing Ma 6 Jian-Tao Sun Dou She Matthew O. Ward Di Yancf33_HacigBr.'.JSsMatthew o. Hird D二 YangYun Chi Shenghuo Zhu HakanHiroyuJcl KitQawa Toshiynkri Magasa 3Fei Wang Wenwu Zhu 00013OjLmg He Xiaoming Li Hongfei Yaji3Hozigyv好 Sha G。工 Hon 5gTEnine Yilnei Evangelc3 Kanoulas63. Sudarahan 0001 Arvind J
9、iulaeri 3Jfenfei Fan Floris Geeits5Cavrlee Michelle ¥ Zhou 3 Cclm O'Ricrdan Gabriella Pasi A Ni Nang COO 9 Jideng dien 3Caetano Tzaina Jr * Rofcson Le nard.0 Ferreira CcrdeiroEclle L, Taeng Xiaodan 5ong Ming-Iiag 5on 3 H - V. Jgadisti Dive ah Srivastava La k:s V. S. LaEmurananK5i-We Sorrier
10、 Manfred HauswiTth. Reman SchiLidu 3Ning Liu null Bstitu Zhang 3Maicc Czristti Weigua Fan Ed'Waid A. Pcx. Yu_xin. CThen 3Enhong Chen Huanhxian Cao5Chri3tor?icr R茅 Ce Zhan?3Shinichi Hon5hira Takeshi TofcuyaicaqJun Yan Lei Ji7David Maier David Scott Warren42cra* 0E土皂壯白中2。 Vladari Radflsavlj*vie 3S
11、fvfel Tec Xiaokui Kia口6說明:以上結(jié)果只是一部分,由于數(shù)據(jù)集很龐大,限于篇幅,不便全部展示(b)根據(jù)挖掘結(jié)果和本章討論的模式評估度量,討論哪種度量可能比其他度量更令人信服地揭示緊密合作模式關(guān)于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2>2的相依表(顯示期望 值)Yufei Tao非(Yufei Tao )和DimitrisPapadias26(0.0045)60(86)86非(DimitrisPapadias)59(84.9955)1609994(1609968)1610053和85161005416101391 .使用提升度的相
12、關(guān)分析P(A) = 86/1610139 = 5.28e -5P(B) = 85/1610139 = 5.28e -5P(A,B) = 26/1610139 = 1.61e -5提 升度為 P(A,B)/(P(A)>P(B)=1.61e -5/(5.28e-5 >5.28e-5)=57752 .使用I進(jìn)行相關(guān)分析X = (26-0.0045 ) 2/0.0045 + (60-86) 2/86 + (59-84.9955 ) 2/84.9955+ (1609994-1609968) 2/1609968 = 1502383 .全置信度P(A|B) = 26/85 = 0.306P(B|
13、A) = 26/86 = 0.302all_conf(A,B) = minP(A|B),P(B|A) = 0.3024 .最大置信度max_conf(A,B) = maxP(A|B),P(B|A) = 0.3065 . KulczynskiKulc(A,B) = 1/2 *(P(A|B)+P(B|A) = 0.3046 .余弦Cosine(A,B) =P(A|B) >P(B|A) = 0.304比較6種模式評估度量:上述6種模式評估中,提升度和 。的計算受零事務(wù)的影響很大,在上面的 例子中,AB表示零事務(wù)的個數(shù)。一般,零事務(wù)的個數(shù)可能大大超過個體購買的 個數(shù),因為,A和B發(fā)表過的論文相對
14、于整個數(shù)據(jù)庫中的論文總數(shù),是很小的一 部分。其他四個度量很好地消除了 AB的所h由于上述例子中P(A|B)和P(B|A) 近似相等,導(dǎo)致四種評估度量(全置信度,最大置信度,Kulczynski ,余弦)結(jié)果 3歡在下載精品文檔也近似相等,但如果P(A|B)和P(B|A)相差很大,例如P(A|B)>>P(B|A),則根 據(jù)全置信度的結(jié)果,得出的結(jié)論可能是負(fù)相關(guān),根據(jù)最大置信度的結(jié)果,得出的 結(jié)論卻是正相關(guān),而根據(jù) Kulczynski和余弦的結(jié)果,則兩者被視為中性。(c)基于以上研究,開發(fā)一種方法,它能粗略地預(yù)估導(dǎo)師和學(xué)生的關(guān)系,以及這種指導(dǎo)的周期1 .根據(jù)經(jīng)驗,我們知道,學(xué)生發(fā)表的論文上往往會署導(dǎo)師的名字,而導(dǎo)師的論 文上卻不一定有學(xué)生的署名,或者說導(dǎo)師發(fā)表過的論文要遠(yuǎn)比學(xué)生多,我們可以設(shè)置兩個參數(shù)30和5,例如,作者A和B滿足頻繁項集的要求,并且 A發(fā)表過 的論文不小于30篇,B發(fā)表過的論文不超過5篇,則我們可以認(rèn)定A為導(dǎo)師,B 為學(xué)生。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省吉安市遂川縣2024年中考模擬數(shù)學(xué)試題附答案
- 部編小學(xué)語文-一年級下全冊教案
- 科學(xué)育種技術(shù)提升作物光合作用效率
- 園林景觀工程施工組織設(shè)計技術(shù)標(biāo)
- 高一化學(xué)二專題化學(xué)科學(xué)與人類文明練習(xí)
- 2024屆北京海淀外國語高三(最后沖刺)化學(xué)試卷含解析
- 2024屆江蘇鹽城市時楊中學(xué)高考臨考沖刺化學(xué)試卷含解析
- 2024高中地理第2章區(qū)域生態(tài)環(huán)境建設(shè)第1節(jié)第2課時荒漠化的人為原因和防治學(xué)案新人教版必修3
- 2024高中物理第三章相互作用5力的分解課后作業(yè)含解析新人教版必修1
- 2024高中語文第7單元韓非子蚜第1課鄭人有且買履者練習(xí)含解析新人教版選修先秦諸子蚜
- 2025年度愛讀書學(xué)長策劃的讀書講座系列合同2篇
- 廣東省深圳市寶安區(qū)2024-2025學(xué)年八年級英語上學(xué)期1月期末英語試卷(含答案)
- 《設(shè)備房管理標(biāo)準(zhǔn)》課件
- 《招標(biāo)投標(biāo)法》考試題庫200題(含答案)
- 《交通運輸行業(yè)安全生產(chǎn)監(jiān)督檢查工作指南 第2部分:道路運輸》
- 初二生物期末質(zhì)量分析及整改措施
- 公交車站臺服務(wù)規(guī)范與安全意識
- 云南省楚雄彝族自治州2024屆高三上學(xué)期期末考試數(shù)學(xué)試題(解析版)
- 蘇州工業(yè)園區(qū)ESG發(fā)展白皮書
- 《邊緣計算單元與交通信號控制機(jī)的數(shù)據(jù)通信標(biāo)準(zhǔn)編制說明》
- 《安防攝像機(jī)智能化指標(biāo)要求和評估方法》
評論
0/150
提交評論