數(shù)據(jù)挖掘頂級會議KDD簡介_第1頁
數(shù)據(jù)挖掘頂級會議KDD簡介_第2頁
數(shù)據(jù)挖掘頂級會議KDD簡介_第3頁
數(shù)據(jù)挖掘頂級會議KDD簡介_第4頁
數(shù)據(jù)挖掘頂級會議KDD簡介_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1ACM SIGKDD數(shù)據(jù)挖掘及知識發(fā)現(xiàn)會議清華大學(xué)計算機系 王建勇1、KDD概況ACM SIGKDD國際會議(簡稱 KDD )是由ACM的數(shù)據(jù)挖掘及知識發(fā)現(xiàn)專委會主辦的數(shù)據(jù)挖掘研究領(lǐng)域的頂級年會。它為來自學(xué)術(shù)界、企業(yè)界和政府部門的研究人員和數(shù)據(jù)挖掘從業(yè)者進(jìn)行學(xué)術(shù)交流和展示研究成果提供了一個理想場所,并涵蓋了特邀主題演講(keynote presentations)、論文口頭報告( oral paper presentations)、論文展板展示( poster sessio ns)、研討會(workshops )、短期課程(tutorials )、專題討論會(pan els)、展覽(exhi

2、bits )、 系統(tǒng)演示(demonstrations)、KDD CUP賽事以及多個獎項的頒發(fā)等眾多內(nèi)容。由于KDD的交叉學(xué)科性和廣泛應(yīng)用性,其影響力越來越大,吸引了來自統(tǒng)計、機器學(xué)習(xí)、數(shù)據(jù)庫、萬維 網(wǎng)、生物信息學(xué)、多媒體、自然語言處理、人機交互、社會網(wǎng)絡(luò)計算、高性能計算及大數(shù)據(jù) 挖掘等眾多領(lǐng)域的專家、學(xué)者。KDD可以追溯到從1989年開始組織的一系列關(guān)于知識發(fā)現(xiàn) 及數(shù)據(jù)挖掘(KDD)的研討會。自1995年以來,KDD已經(jīng)以大會的形式連續(xù)舉辦了17屆,論文的投稿量和參會人數(shù)呈現(xiàn)出逐年增加的趨勢。2011年的KDD會議(即第17屆KDD年會)共收到提交的研究論文(Research paper)

3、714篇和應(yīng)用論文(Industrial and Governmentpaper) 73篇,參會人數(shù)也達(dá)到 1070人。下面我們將就會議的內(nèi)容、歷年論文投稿及接收情 況以及設(shè)置的獎項情況進(jìn)行綜合介紹。此外,由于第18屆KDD年會將于2012年8月12日至16日在北京舉辦,我們還將簡單介紹一下KDD 124的有關(guān)情況。2、會議內(nèi)容自1995年召開第1屆KDD年會以來,KDD的會議內(nèi)容日趨豐富且變的相對穩(wěn)定。其 核心內(nèi)容是以論文報告和展版(poster)的形式進(jìn)行數(shù)據(jù)挖掘同行之間的學(xué)術(shù)交流和成果展 示。KDD錄用的論文以研究論文為主、輔以一定數(shù)量的應(yīng)用論文,以及少量的系統(tǒng)演示論 文。依附于KDD年

4、會的KDD CUP競賽也是會議的一項重要內(nèi)容。此外,會議還包括特邀 主旨報告(keynote prese ntati on s)、輔導(dǎo)報告(tutorials )、專題討論(pan els)、研討會(workshops) 以及工業(yè)實踐及展覽(In dustrial practice expo track、等內(nèi)容。1. 研究主題(Research Track每年的KDD年會結(jié)束后不久,來年的會議組織者會發(fā)布論文征文通知。征文通知中會列出論文的各種投稿要求,包括會議感興趣的主題、評價標(biāo)準(zhǔn)以及格式等。從KDD 12官方網(wǎng)站的征文通知 5可以了解到, KDD 12感興趣的研究類主題主要包括關(guān)聯(lián)分析(a

5、ssociation analysis)、分類與回歸分析算法( classification and regression methods )、半監(jiān) 督式學(xué)習(xí)(semi-supervised learning )、聚類(clustering )、因式分解(factorization )、遷移學(xué) 習(xí)和多任務(wù)學(xué)習(xí)(transfer and multi-task learning )、特征選擇(feature selection)、社會網(wǎng)絡(luò)(social networks )、圖數(shù)據(jù)挖掘 (mining of graph data )、時空數(shù)據(jù)分析 (temporal and spatial dat

6、a analysis)、可擴展性(scalability )、隱私保護(hù)(privacy )、安全性(security )、可視化(visualization )、文本分析(text analysis )、萬維網(wǎng)挖掘(Web mining )、移動數(shù)據(jù)挖掘(mining mobile data )、推薦系統(tǒng)(recommender systems) > 生物信息學(xué)( bioinformatics )、電子商務(wù)1注:本文的一個縮短版本(參見以下鏈接:于中國計算機學(xué)會通訊2011年的第12期。(e-commerce )、在線廣告(on li ne advertis ing )、異常檢測(ano

7、 maly detect ion )、以及針對 大數(shù)據(jù)的知識發(fā)現(xiàn)( knowledge discovery from big data )等。論文的評價標(biāo)準(zhǔn)主要包括新穎 性( novelty) 、技術(shù)質(zhì)量( technical quality )、影響力( potential impact )、論文表達(dá)的清晰度( clarity of writing )等指標(biāo)。會議期間,KDD研究論文報告按照主題會被分成了若干個分會(session),被錄用論文的作者在相應(yīng)的分會做報告。以KDD 20116 為例,該年會的分會主題包括分類( Classification )、矩陣分解( Matrix fact

8、orization )、圖分析( Graph analysis)、 Web 用戶建 模( Web user modeling )、用戶建模( User modeling )、在線數(shù)據(jù)和數(shù)據(jù)流( Online data and streams)、文本挖掘(Text mining )、隱私保護(hù)(Privacy)、社會網(wǎng)絡(luò)(Social networks )、理 論(Theory)、頻繁集(Freque nt sets)、非監(jiān)督式學(xué)習(xí) (Un supervised learni ng )、圖挖掘(Graph mining )、可擴展性( Scalability )和可預(yù)測建模( Predictive

9、 modeling )。2. 應(yīng)用主題( Industrial and Government Track)應(yīng)用主題類論文的發(fā)表和作者的與會報告是 KDD 年會的重要組成部分, 也是 KDD 相對于很多其他會議的特色之一。由于數(shù)據(jù)挖掘的廣泛應(yīng)用性,應(yīng)用主題類論文受到數(shù)據(jù)挖 掘研究人員和開發(fā)者的重視。 相對于很多其他會議, KDD 應(yīng)用主題類論文的征文啟事和錄 取更為規(guī)范。從 KDD'12 官方網(wǎng)站的征文通知 5可以看出,該年會的企業(yè)及政府應(yīng)用主題 征求描述針對企業(yè)和政府部門數(shù)據(jù)挖掘解決方案的論文投稿,并特別歡迎某些在數(shù)據(jù)挖掘 技術(shù)應(yīng)用過程中能夠促進(jìn)某些實際問題的理解或提出新的挑戰(zhàn)性研究問

10、題的論文。KDD 應(yīng)用主題類論文涉及的應(yīng)用領(lǐng)域主要包括電子商務(wù)、醫(yī)療、國防、公共政策、財務(wù)、工程、 環(huán)境、制造業(yè)、電信、政務(wù)等。被 KDD 錄用的應(yīng)用主題類論文又被分為以下 3 大類:對企業(yè)、政府或其他機構(gòu)帶來實際價值的數(shù)據(jù)挖掘系統(tǒng) 對企業(yè)、政府或其他用戶(例如科學(xué)研究或醫(yī)療行業(yè))帶來顯著價值的知識發(fā)現(xiàn) 有潛力帶來價值的前沿應(yīng)用和技術(shù)3. KDD CUP 競賽KDD CUP 是 ACM SIGKDD 1組織的有關(guān)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域的年度賽事。作為 KDD 年會的重要組成部分, 自 1997 年以來已經(jīng)連續(xù)舉辦了 15 屆,目前是數(shù)據(jù)挖掘領(lǐng)域最 有影響力的賽事。 通常每年在 KDD 會議網(wǎng)站

11、上會公布當(dāng)年的 KDD CUP 主題及各個子任 務(wù)、數(shù)據(jù)集、考核指標(biāo)等。全世界的數(shù)據(jù)挖掘參賽者在規(guī)定時間內(nèi)提交解決方案和結(jié)果。 優(yōu)勝者名單會在 KDD CUP 網(wǎng)站公布,并在會議期間頒獎。縱觀歷年的 KDD CUP 賽事, 我們不難發(fā)現(xiàn)其主題的多樣性。往屆的 KDD CUP 任務(wù)涉及到面向利潤(升力曲線)優(yōu)化 的直接營銷、計算機網(wǎng)絡(luò)入侵檢測、在線零售網(wǎng)站點擊流分析、分子生物活性和現(xiàn)場蛋白 質(zhì)預(yù)測、生物醫(yī)學(xué)文檔和基因角色分類、網(wǎng)絡(luò)挖掘與用戶日志分析、粒子物理學(xué)和同調(diào)蛋 白質(zhì)預(yù)測、互聯(lián)網(wǎng)用戶搜索查詢分類、基于圖像數(shù)據(jù)的肺栓塞檢測、客戶推薦、乳腺癌、 客戶關(guān)系預(yù)測、學(xué)生成績評估、以及基于雅虎音樂數(shù)據(jù)

12、集的音樂推薦等眾多領(lǐng)域。在往屆 的 KDD CUP 競賽中,某些華人組成的參賽隊伍也曾取得了不俗的成績。例如,KDDCUP史上首次包攬了全部子項目冠軍的團隊就來自香港科大,其隊員包括Dou Shen (沈抖)、Rong Pan、Jiantao Sun、Junfeng Pan、Kangheng Wu、Jie Yin、Qiang Yang (楊強)。4. 系統(tǒng)演示( Exhibit and Demo Track)KDD 會議設(shè)有一個系統(tǒng)演示分會場,用于讓數(shù)據(jù)挖掘研究人員或從業(yè)者以交互的方式 向與會者展示他們所開發(fā)的數(shù)據(jù)挖掘軟件系統(tǒng) (或組件) 的設(shè)計理念、 實現(xiàn)技巧以及功能等。5. 工業(yè)實踐展(I

13、ndustry Practice Expo Track工業(yè)實踐展是 KDD從2011年開始新增加的一部分會議內(nèi)容,主要由特邀報告和專題 討論組成。其主要目的是召集一流的業(yè)界或政府部門的數(shù)據(jù)挖掘?qū)嵺`者和與會者共享他們的 一些有關(guān)數(shù)據(jù)挖掘應(yīng)用的體會和經(jīng)驗。6. 專題研討會(Workshops)同其它會議類似,KDD也設(shè)有專題研討會,其目的是就某些熱門或前沿主題讓數(shù)據(jù)挖 掘研究人員有機會來交流新穎的研究想法。KDD 11共設(shè)了 16個主題研討會。7. 專題討論會(pan elsKDD專題討論會是就數(shù)據(jù)挖掘領(lǐng)域的某個重要的話題邀請幾個相關(guān)的知名專家闡述自 己的觀點,并通過與參會者的互動來對該話題開展深

14、入的研討。KDD 11的專題討論主題為 來自數(shù)據(jù)挖掘競賽的經(jīng)驗教訓(xùn)”(Less ons Learned from Con tests in Data Mi ning )。8. 短期課程(tutorials)每年的KDD年會都會就幾個數(shù)據(jù)挖掘主題邀請這些領(lǐng)域的知名專家細(xì)致地講解與該主 題相關(guān)的問題、研究背景、主要的解決方案等內(nèi)容。通常每個課程的時間是半天或一天。9. 特邀主題報告(keynote presentation9每年的KDD年會都會邀請在某些數(shù)據(jù)挖掘領(lǐng)域做出卓越成績的專家學(xué)者做主題報告。 以KDD 116為例,會議共邀請了 4位特邀主題發(fā)言人,他們分別是:美國斯坦福大學(xué)電子 工程系教授

15、Stephen Boyd、Google公司研究主管 Peter Norvig、美國加州大學(xué)圣克魯茲分校 分子生物工程系教授 David Haussler以及加州大學(xué)洛杉磯分校計算機系教授Judea Pearl。表1、2003-2011年期間KDD研究論文投稿及錄取情況(注:自2007年以來論文不再區(qū)分長、短文,表中2007年以后的長、短文對應(yīng)的分別是長報告和短報告)年份投稿長文長文錄取率短文短文錄取率總錄取率20032583413.2%3613.9%27.1%120043374011.9%4413.0%24.9%12005465408.6%367.7%16.3%20064575011.0%55

16、12.0%23.0%20075139217.9%N/AN/A17.9%12008510509.8%458.8%18.6%2009537509.3%5510.2%19.5%120105787713.3%244.1%17.4%12011714567.8%709.8%17.6%綜合436948911.2%3658.3%19.5%3、歷年論文投稿及接收情況我們對2003年以來KDD的研究類論文和應(yīng)用類論文的投稿、錄取率等進(jìn)行了統(tǒng)計(注:數(shù)據(jù)來自歷年 KDD會議的論文集)。發(fā)現(xiàn)研究類論文的投稿量呈現(xiàn)逐年增加的趨勢,而論 文總的錄取率(即包括長、短文所有被錄取論文的錄取率)相對穩(wěn)定,基本在17%至19%左

17、右徘徊。具體的分析結(jié)果見表1。相對于研究類論文,應(yīng)用類論文的投稿量少且相對穩(wěn)定,其錄取率相對更高,基本在 30%左右。具體統(tǒng)計結(jié)果見表 2。此外,圖1和圖2分別對比了 KDD研究類論文和應(yīng)用類論文的總錄取率和投稿量。表2、2003-2011年期間KDD應(yīng)用(In dustrial and Governme nt )論文投稿及錄取情況年份投稿長文長文錄取率短文短文錄取率總錄取率2003401230.0%1025.0%55.0%2004471430.0%1328.0%58.0%2005731419.2%1115.0%34.2%20067479.4%810.8%20.2%2007601118.3%8

18、13.3%31.6%2008831315.7%1012.0%27.7%2009122129.8%2218%27.8%20101011110.9%98.9%19.8%2011732635.6%N/AN/A35.6%綜合67312017.8%9113.5%31.3%年份ResearchIndustrial/Government率取錄總圖1、2003年-2011年期間KDD的研究論文、應(yīng)用論文各自的總錄取比率+ Research In dustrial/Gover nment量 稿 投年份圖2、2003年-2011年期間KDD的研究論文、應(yīng)用論文投稿情況4、設(shè)置的獎項情況在每年的 KDD 年會上頒發(fā)

19、的主要獎項包括 SIGKDD 創(chuàng)新獎(SIGKDD Inn ovation Award )、SIGKDD 服務(wù)獎(SIGKDD Service Award )、SIGKDD 最佳研究論文獎(SIGKDD Best Research Paper Award)、SIGKDD 最佳應(yīng)用論文獎(SIGKDD Best Application Paper Award )、 SIGKDD 博士論文獎(SIGKDD Doctoral Dissertation Award)以及 SIGKDD 學(xué)生差旅獎(SIGKDD Student Travel Award )。1、SIGKDD 創(chuàng)新獎(SIGKDD Inn

20、 ovation Award )該獎主要用于獎勵對數(shù)據(jù)挖掘及知識發(fā)現(xiàn)領(lǐng)域作出重大技術(shù)貢獻(xiàn)的研究人員,獲獎人員的研究工作通常在數(shù)據(jù)挖掘理論或商業(yè)數(shù)據(jù)挖掘系統(tǒng)開發(fā)上產(chǎn)生了持久的影響。自2000年以來已有11位數(shù)據(jù)挖掘研究人員獲此殊榮,其中來自UIUC的韓家煒教授位列其中。2、SIGKDD 服務(wù)獎(SIGKDD Service Award)該獎主要獎勵對數(shù)據(jù)挖掘及知識發(fā)現(xiàn)領(lǐng)域作出重大服務(wù)貢獻(xiàn)的個人或團隊,考察的因素主要包括主持學(xué)術(shù)團體、主辦會議等服務(wù)性工作、數(shù)據(jù)挖掘教學(xué)、財務(wù)贊助等。 自2000年以來已產(chǎn)生了 10位獲獎?wù)?,其中包括來自美國佛蒙特大學(xué)的吳信東教授。3、SIGKDD 最佳研究論文獎(S

21、IGKDD Best Research Pap er Award該獎主要用于獎勵從每年的KDD年會所錄用的研究論文中挑選出來的、對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域有基礎(chǔ)性的推動作用的論文。KDD的研究論文獎包括最佳研究論文獎(Best Research Pap er Award)和最佳學(xué)生論文獎(Best Stude nt Paper Award) 兩類。4、SIGKDD 最佳應(yīng)用論文獎(SIGKDD Best Application Pap er Award該獎主要用于獎勵從每年的KDD年會所錄用的應(yīng)用論文中挑選出來的、能較好體現(xiàn)在數(shù)據(jù)挖掘應(yīng)用中反映出挑戰(zhàn)性的研究問題和經(jīng)驗教訓(xùn)的論文。5、SIGKDD

22、 博士論文獎(SIGKDD Doctoral Dissertation Award)該獎項是從2008年開始設(shè)立,用于獎勵在數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域作出出色研究 工作的博士生。本科畢業(yè)于清華大學(xué)、來自美國UIUC的Xiaoxin Yin博士(導(dǎo)師為韓家煒教授)曾獲得首屆SIGKDD博士論文獎。6、SIGKDD 學(xué)生差旅獎( SIGKDD Student Travel Award)該獎項主要用于資助部分參會學(xué)生的差旅開銷。5、關(guān)于 KDD 2012KDD 2012 年會將于 2012年 8月 12 日至 16 日在北京舉辦, 這也是 KDD 首次在亞太地 區(qū)舉辦。 中國近年來的快速發(fā)展舉世矚目。數(shù)

23、據(jù)挖掘作為一個各個行業(yè)發(fā)展不可缺少的技 術(shù)支持,在中國得到了長足發(fā)展。KDD 2012對KDD以及中國的數(shù)據(jù)挖掘都是具有重大意義的里程碑。海內(nèi)外數(shù)據(jù)挖掘領(lǐng)域的華人學(xué)者在KDD'12 的組織工作中扮演了重要角色。 例如,大會主席是香港科技大學(xué)的楊強教授, 大會榮譽主席為中科院的陸汝鈐院士和清華大學(xué)的張 鈸院士,大會指導(dǎo)委員會主席為中國電子工程系統(tǒng)研究所的李德毅院士,大會副主席為CityGrid Media的沈抖博士,加拿大西蒙弗雷澤大學(xué)(SFU)的裴健教授、美國羅格斯大學(xué)(Rutgers University )的熊輝教授和微軟的 Ying Li 博士分別擔(dān)任大會程序委員會聯(lián)合主席、 企業(yè)及政府應(yīng)用分會程序委員會聯(lián)合主席和工業(yè)實踐展程序委員會聯(lián)合主席。專題研討會聯(lián)合主席包括南京大學(xué)的周志華教授, 會議會務(wù)主席

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論