美國信息檢索技術研究會議sigir簡介_第1頁
美國信息檢索技術研究會議sigir簡介_第2頁
美國信息檢索技術研究會議sigir簡介_第3頁
美國信息檢索技術研究會議sigir簡介_第4頁
美國信息檢索技術研究會議sigir簡介_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

美國信息檢索技術研究會議sigir簡介

1sigir對新的基礎理論的研究西吉r是美國計算機協(xié)會的一個特殊組織,負責信息存儲、研究策略、計劃和評估系統(tǒng)。隨著科技的飛速發(fā)展,SIGIR又擴展到對新的基礎理論的研究如全球計算機信息網(wǎng)絡定位技術、數(shù)字圖書館以及如何整合信息檢索系統(tǒng)與其他應用系統(tǒng)。從1973年開始,SIGIR每年都舉行一次國際信息檢索技術研究會議,截至2006年共舉辦了29屆。全球的研究組織都通過這個會議來展示自己的研究成果。因此,SIGIR可以說是當今信息檢索研究的一面旗幟。在2006年年會上SIGIR共收到了超過35個國家的399篇論文。有超過74%的論文被接受。從地區(qū)來看,49%來自美洲,11%來自歐洲,14%來自亞洲,可以說匯集了當今信息檢索最尖端的研究課題和研究方向。本次會議上的研究內(nèi)容分布在24個不同的研究方向上,下面簡要介紹其中的一些研究方向。2sigir的最新研究趨勢2.1簡化的檢索流程由于音頻數(shù)據(jù)(基于內(nèi)容和語義)與傳統(tǒng)的文本數(shù)據(jù)(基于文本)不同,文本檢索中的相關技術不能簡單地應用到音頻信息檢索中。即:用戶提交的檢索要求往往是對于音頻數(shù)據(jù)的語義描述,從原始數(shù)據(jù)中抽取檢索項的這種用于文本檢索的方法并不適用于音頻數(shù)據(jù)這樣的數(shù)字信號。通常,我們可以將音頻數(shù)據(jù)分為語音、音樂和噪聲等類型,而不同類型的音頻數(shù)據(jù)可以用不同的方式進行處理和索引。2.1.1語音識別系統(tǒng)的適用性將語音識別成文本,再利用文本檢索技術就可以初步實現(xiàn)對語音內(nèi)容的檢索。語音識別的研究已經(jīng)經(jīng)歷了比較長的時間,技術發(fā)展也相對成熟,已經(jīng)達到實用的階段,如IBM公司推出的ViaVoice語音識別系統(tǒng)。實踐證明,盡管在一些比較特殊的條件下(如背景噪音很低,說話人語音很清晰、標準等),語音識別系統(tǒng)可以得到很好的結果,但對于大詞匯量和自然情況下的語音識別,其效果還不是十分理想,即使是美國最先進的大詞匯連續(xù)語音識別系統(tǒng),其產(chǎn)生的錯誤率都高達30%以上。正如當今廣為應用的語音服務,我們從呼叫中心的語音資料庫中進行資料檢索,而這個資料是自動錄音系統(tǒng)記錄的,語音質(zhì)量或者通話質(zhì)量不佳等都可能導致音質(zhì)比較低,最終影響語音檢索的效果。因此,先進的語音檢索系統(tǒng)應該不僅能夠輸出文本,還應該能夠進行錯誤識別和糾錯,如何減少錯誤并且提高檢索效率成為未來所要攻克的重點。2.1.2關于所使用的調(diào)式音頻壓縮由于人們對于人類的聽覺系統(tǒng)認識有限,并且音樂是組成最復雜的音頻類型,因此相對語音來說,音樂在基于語義檢索的技術方面還有相當?shù)牟罹?還處在比較初級的階段。目前主要有兩種解決方式:其一,基于音調(diào)的音樂檢索。由于音樂的每個音符都由它的音調(diào)表示,檢索時以查詢音樂和每個存儲音樂片段相應的音調(diào)串之間的相似性為基礎。常用的查詢請求形式是哼唱,再利用字串匹配技術將音符映射成字符,然后進行檢索。但是,這種性能的好壞依賴于哼唱輸入信號的音調(diào)跟蹤的準確性;其二,針對結構化音樂進行檢索。最常見的結構化音樂是MIDI,它是一種合成音樂,把音樂表示成大量的音符和控制指令。由于結構化音樂的特性,可以比較直接地從音頻信號中抽取特征,因此結構化音頻更便于檢索。2.2空間通信聯(lián)當前主流的反垃圾郵件技術包括:黑名單技術、白名單技術、郵件過濾器技術、客戶端反垃圾郵件技術、貝葉斯過濾技術。黑名單過濾技術:將已知的垃圾郵件地址存放在一個列表(黑名單)中,系統(tǒng)會自動過濾黑名單中的郵件。白名單過濾技術:將可靠的郵件地址存放在一個列表(白名單)中,系統(tǒng)會自動對其進行接受。由于白名單技術花費時間相對較短,所以白名單過濾一般在黑名單過濾執(zhí)行后,其他過濾方法執(zhí)行前進行。郵件過濾器技術:針對未知地址的郵件進行過濾。按照一定的規(guī)則把垃圾郵件過濾掉,主要過濾發(fā)件人、收件人、郵件頭、郵件主題、郵件這五部分內(nèi)容。貝葉斯IBayes過濾技術(貝葉斯過濾系統(tǒng)需維護下列三個表):正常哈希表(goodhashtable):存儲已出現(xiàn)的單元串在正常郵件中的出現(xiàn)次數(shù)。垃圾哈希表(badhashtable):存儲已出現(xiàn)的單元串在垃圾郵件中的出現(xiàn)次數(shù)。概率哈希表(probabilityhashtable):存儲在郵件中出現(xiàn)過的單元串在垃圾郵件中出現(xiàn)的概率值?;谪惾~斯技術來實現(xiàn)反垃圾郵件系統(tǒng)是當今趨勢。在2006年年會上就有一篇論文提到了基于本技術開發(fā)的一套垃圾郵件過濾系統(tǒng),它整合了其他簡單的過濾方式來達到遠遠超過任何一個單獨過濾器的過濾效果。在TREC(TextRetrievalConference),美國國家技術標準局(NationalInstituteofStandardsandTechnology,簡稱NIST)和美國國防部高等研究計劃署(DefenseAdvancedResearchProjectsAgency,簡稱DARPA)共同舉辦的文本檢索會議,2005年的垃圾郵件過濾研究項目中,一共收到了53個過濾器研究作品,而該作者的作品在評估中獲得了最佳的成績。2.3設計一種多語言信息系統(tǒng)跨語言信息檢索(CrossLanguageInformationRetrieval,簡稱CLIR)是指用某一種語言提出檢索要求,計算機在其他不同語種的信息資料中進行自動搜索,得到的檢索結果甚至可以翻譯成用戶指定的特定語種??缯Z言信息檢索結合了傳統(tǒng)文本信息檢索技術和機器翻譯(MachineTranslation,簡稱MT)技術。設計一套多語言信息系統(tǒng),必須考慮下列四項要素:(1)數(shù)據(jù)輸入:數(shù)據(jù)輸入的方法;(2)數(shù)據(jù)表現(xiàn)和傳輸方式:牽涉到字符集合,編碼系統(tǒng)和傳輸規(guī)范;(3)數(shù)據(jù)運算:例如信息檢索;(4)數(shù)據(jù)輸出:信息的呈現(xiàn)。在這四項要素中,數(shù)據(jù)輸入、表現(xiàn)和輸出技術上都已經(jīng)很成熟,可以直接引用現(xiàn)有的系統(tǒng)。在跨語言信息檢索中需要面對和解決的幾個主要的問題有:(1)詢問與文件分屬不同語言。這是跨語言信息檢索的主要特征,因此詢問與文件之間,必須有一個對應,翻譯是重要的運算之一。(2)詢問中的詞可能是多義。原始詢問的歧義性,必須輔以歧義性分析機制。(3)詢問通常很簡短。由于使用者的習慣,輸入的詢問一般比較簡短,這樣就增大了歧義性分析和翻譯的困難度,進而影響檢索的效率。適度的詢問擴張是可能考慮的方向。(4)詢問中如何斷詞。一些語言例如中文、日文、韓文等,詞與詞之間沒有明顯的分隔符號,斷詞也是一個難題。(5)文件的多語性。由于目標文件的多語言特征,提供語言識別是跨語言檢索的基本工作。(6)輸出結果的呈現(xiàn)。如何合并所得的多語言文件的檢索結果,呈現(xiàn)在使用者面前,也是跨語言檢索必須面對的挑戰(zhàn)。2.4分布式控制模塊分布式信息檢索(DistributedInformationRetrieva1)是信息檢索的一種類型,它是針對網(wǎng)絡環(huán)境下信息分布存儲而產(chǎn)生的一種檢索形式,常見的有跨庫和跨服務器檢索。在網(wǎng)絡環(huán)境下,信息資源往往存儲在地理上分散的多個不同場地(即結點)中。這些結點具有資源建設的自主性和獨立性,如果將其相互連接,形成一個彼此協(xié)調(diào)的系統(tǒng),便成為分布式處理系統(tǒng)(DistributedProcessingSystem)。而分布式系統(tǒng)已經(jīng)越來越頻繁地應用于當今的社會中,因此基于分布式系統(tǒng)的檢索將是一個非常重要的課題。下面簡要介紹兩個主要的研究方向:2.4.1測量集的測量本身計算公式與實驗物測試集合是指一種在規(guī)范化環(huán)境中測試系統(tǒng)效能的機制,包括測試問題、測試文件集及相關判斷等三個部分。其研究設計的概念是假設在給定的查詢問句與文件集中,某些文件是與查詢問句相關的。系統(tǒng)研究的目的是檢索出相關的文件,并拒絕不相關的文件,通常采用回收率及精確率作為測量準則?,F(xiàn)代分布式的信息檢索技術需要準確地掌握測試集合的大小。在一個分布式的環(huán)境中統(tǒng)計出詳細的測試集幾乎是不可能的,雖然已經(jīng)有一些估算測試集合大小的方法,但是實驗分析證明這些方法的準確率還是比較低的。2006年SIGIR就有研究成果建議了兩種方法來估算測試集合的大小,并且作者在其文章中證明了自己的方法比其他方法能提供更準確的精度,能更有效地利用資源。2.4.2p2p搜索技術P2P(PeerToPeer)計算技術出現(xiàn)的目的就是希望能夠充分利用互聯(lián)網(wǎng)中所蘊含的潛在計算資源。P2P中文稱為對等網(wǎng)絡,是指分布式系統(tǒng)中的各個節(jié)點是邏輯對等的(與目前互聯(lián)網(wǎng)上比較流行的C/S計算模型不同,P2P計算模型中不再區(qū)分服務器以及客戶端),系統(tǒng)中的各個節(jié)點之間可以直接進行數(shù)據(jù)通信而不需要通過中間的服務器。采用P2P的搜索技術可以有效地跟蹤數(shù)據(jù)的更新速度、提高訪問的有效性以及檢索的效率。隨著如Emule及Napster等P2P信息共享應用程序的流行,P2P計算技術受到人們越來越多的關注,因此基于P2P的信息檢索技術也是研究的熱點。而其主要的搜索方式有:(1)基于DHT網(wǎng)絡(結構化P2P網(wǎng)絡)的搜索技術。(2)非結構化P2P網(wǎng)絡的搜索技術:Flooding搜索方法、Modified-BFS方法、IterativeDeepening搜索方法、RandomWalk搜索方法、Gnutella2搜索方法、基于移動Agent的搜索方法及QueryRouting方法。2.5新主題及其應用2.5.1檢索內(nèi)容的問題信息圖形是我們現(xiàn)在運用到的用來描述屬性或者實體關系的圖片如餅狀圖、柱狀圖及線圖等。這種信息圖形能從直觀上表示各種統(tǒng)計信息的結果并有廣泛的應用,因此它逐漸形成了一種語言,也應該能在數(shù)字圖書館中檢索到這些寶貴的知識資源。但是這個基于信息圖形檢索的技術還沒有運用到現(xiàn)在的數(shù)字圖書館檢索中。如果要做到這一點,必須正確理解信息圖形所表達的內(nèi)容。有研究者提出了用貝葉斯系統(tǒng)來識別簡單的餅狀圖的關聯(lián)信息并且指出了用來檢索這些信息圖形的潛在的應用及解決方案。2.5.2廣告投放成本與效益的關系網(wǎng)絡廣告的泛濫給我們提出了一些新的研究課題。舉個例子,如何設計一個排名機制來讓網(wǎng)站經(jīng)營者及廣告商們知道他們的哪個廣告點擊率高而且能給他們帶來經(jīng)濟效益,這樣,廣告商就能有的放矢地去投放廣告,降低成本,同時也可以適當?shù)販p少廣告數(shù)量,凈化我們的網(wǎng)絡環(huán)境。已有研究針對網(wǎng)上廣告提出一個新的基于GeneticPogramming(GP)的框架,旨在優(yōu)化整體排名的準確性以及最小程度地減小誤差等。由于運用真實的廣告數(shù)據(jù)以及真實的網(wǎng)頁信息作為測試集,這個框架的準確度已獲得了很高的評價。2.5.3從遠超前沿的身份關聯(lián)起來在網(wǎng)絡世界中,人們樂于展現(xiàn)出自己的不同方面:你可能會用一個假名在一個你的Blog上面措辭激烈地評價一部電影,當然你也可能會用你的真實姓名參加一個學術討論,不過將這些不同的身份聯(lián)系起來是極有可能的。因為在你提到的電影、雜志或者作者等信息中,總是有些蛛絲馬跡可以將他們關聯(lián)起來確定你的身份。但是這些動作違背了人們的意愿,侵犯了人們的隱私,并且有著消極的影響。現(xiàn)在就有研究分析如何來保證我們的隱私不受到侵犯。2.5.4跨網(wǎng)站鏈接的隨機補充技術網(wǎng)站是網(wǎng)絡中最重要的組織結構,如何有效地進行網(wǎng)站排名對于一些網(wǎng)絡程序來說是很重要的。為了得到網(wǎng)站的排名,研究者過去習慣用一種叫做HostGraph的結構圖來描述跨網(wǎng)站鏈接。在這個結構圖中節(jié)點表示網(wǎng)站,交界則表示鏈接是跨網(wǎng)站的,再采用隨機模型對這個結構圖進行評估。但是,這種隨機的模型是不合理的,因為它不符合網(wǎng)民的真實瀏

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論