項目初步計劃書_第1頁
項目初步計劃書_第2頁
項目初步計劃書_第3頁
項目初步計劃書_第4頁
項目初步計劃書_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

WBIA項目初步計劃報告 TomorrowActivityPAGEPAGE4項目初步計劃書項目名稱基于時間的活動分類搜索項目單位北京大學(xué)計算機科學(xué)技術(shù)系項目成員歐陽錦林羅慶軍葉萍胡雅杰

目錄TOC\o"1-3"\h\z第1章項目綜述 31.1項目背景 31.2系統(tǒng)簡介 41.2.1功能概況 41.2.2目標與意義 4第2章項目分析 52.1技術(shù)分析 52.1.1系統(tǒng)基本架構(gòu) 52.1.2基本技術(shù)分析 62.1.3技術(shù)難點分析 62.2商業(yè)分析 72.2.1活動與搜索的當(dāng)前狀況 72.2.2商業(yè)模型 7第3章項目實施 83.1實施階段 83.2任務(wù)安排 8

項目綜述項目背景“當(dāng)這個世界正在慢慢的改變,世界不再是圓的,網(wǎng)絡(luò)讓世界變成平的,所有的資訊來源非常方便”,托馬斯·弗里德曼在《世界是平的》這樣寫道。爆炸性發(fā)展的網(wǎng)絡(luò)信息、越來越便捷的通訊與交通方式,似乎加快了地球的旋轉(zhuǎn),也加快了人們的生活節(jié)奏。然而,Web是一個龐大的信息資源庫。自從Web產(chǎn)生以來,其承載的信息量急劇的增長,使得Web的使用者找到對自己有用的信息的難度越來越大。在這樣的環(huán)境下,搜索引擎應(yīng)運而生。它就像網(wǎng)絡(luò)信息資源的過濾與組織者,將用戶需要的信息返回,屏蔽掉用戶不關(guān)心的信息。同時,快節(jié)奏的生活要求人們努力提高時間的利用效率,但是,隨著世界變得越來越平,人們社會關(guān)系網(wǎng)也日趨復(fù)雜,人們對于未來活動的安排和選擇也越來越多的與別人甚至陌生人相關(guān),在這樣的背景下,如何在復(fù)雜的活動中選擇了有效的安排,成了當(dāng)今時代的又一個課題。我們正是在上述兩個大的背景下,產(chǎn)生了我們這個項目最初的想法。我們的系統(tǒng)基于如下理念:立足于Web的海量數(shù)據(jù),以搜索分類為核心技術(shù),對以時間為基準,以活動為主要內(nèi)容的信息進行搜索、分類,最后提供給用戶一個統(tǒng)一、清晰的活動信息,讓人們更快捷的找到自己感興趣的活動,以高效安排自己的日程。我們的信念是:抓住世界的明天!系統(tǒng)簡介功能概況本系統(tǒng)分兩期工程,第一期實現(xiàn)一個基于Web信息的活動搜索、分類與查詢;第二期建立網(wǎng)絡(luò)日歷日程安排平臺,并建立平臺內(nèi)部活動的搜索。計劃在WBIA項目安排的時間內(nèi),務(wù)必完成第一期工程。第二期工程視第一期工程的時間、效果和需求再做安排。第一期工程的功能有:簡單搜索:只需要給出一個時間段,便可得到此時間段的所有活動情況。條件搜索:提供活動內(nèi)容的分類的條件搜索:如報告、通知。提供活動范圍的分類的條件搜索:如北京大學(xué)、信息科學(xué)技術(shù)學(xué)院高級搜索:提供關(guān)鍵字查詢搜索。并對關(guān)鍵字進行語義分析,確定關(guān)鍵字所屬類別(可能是多個),對關(guān)鍵字匹配結(jié)果做選擇、加權(quán)排序并輸出。目標與意義“明天是可以抓住的,世界的明天就在你手中。”這是所有人的夢想。而讓用戶實現(xiàn)這個夢想,正是我們團隊和項目所有的目標與意義所在。

項目分析技術(shù)分析系統(tǒng)基本架構(gòu)下面是第一項目第一期工程系統(tǒng)模塊圖:Web數(shù)據(jù)抓取Web數(shù)據(jù)抓取Crawler信息過濾Filter邏輯處理Plan界面、交互Interface分析后數(shù)據(jù)存儲、索引信息分析與分類Analyzer信息檢索Searcher原數(shù)據(jù)存儲圖表SEQ圖表\*ARABIC1:TomorrowActivity第一期項目模塊圖基本技術(shù)分析數(shù)據(jù)抓取Crawler實際上是一個爬蟲,先計劃在北京大學(xué)校內(nèi)搜索。主要針對新聞發(fā)布、報告轉(zhuǎn)會BBS等幾個主要的版面進行搜索。信息過濾Filter網(wǎng)頁信息過慮器,過慮一些無關(guān)網(wǎng)頁與模板。并將其存儲在原始數(shù)據(jù)庫中。原數(shù)據(jù)存儲存儲過慮和規(guī)整后的信息。信息分析與分類Analyzer使用恰當(dāng)?shù)姆诸愃惴▽σ?guī)整化的網(wǎng)頁進行分類分析分析后的數(shù)據(jù)存儲存儲和索引分類好的信息信息檢索Searcher執(zhí)行查詢命令,并根據(jù)查詢結(jié)果對不同分類,不同的條件進行加權(quán)排序輸出。邏輯處理Plan根據(jù)界面搜索條件與查詢語句生成邏輯查詢計劃界面、交互WebInterface提供簡單、條件與高級搜索,供用戶查詢搜索。技術(shù)難點分析在上述的基本模塊中,比較復(fù)雜的是:信息分析與分類Analyzer和信息檢索Searcher。對于信息的分類,我們的設(shè)想是先人工的定義好幾個分類,以及這幾個分類的關(guān)鍵詞,然后對文本進行分析后自動聚類到某個分類中去。這是整個項目搜索準確度與效率的關(guān)鍵。另外,我們還考慮未來系統(tǒng)的可擴充性,計劃提供一個機制,以應(yīng)對分類的增加。基本的想法是定義一個接口和數(shù)據(jù)結(jié)構(gòu),以增加分類和這個分類的關(guān)鍵詞,同時也可以提供一個訓(xùn)練集來描述和增加新的分類。對于信息檢索Searcher,主要涉及對結(jié)果的排序算法。這也是提高系統(tǒng)準確性和可用性的關(guān)鍵技術(shù)。商業(yè)分析活動與搜索的當(dāng)前狀況活動安排的重要性在現(xiàn)代人生活中顯而易見,從手機日歷、Google日歷和各位日程安排軟件的盛行便可略見一斑。而Google的生活搜索和酷訊搜索只是針對某一行業(yè)信息的內(nèi)容搜索。而基于時間的活動搜索卻沒有見到一個市面上的產(chǎn)品來提供此服務(wù)。因此,基于時間的活動搜索還具有巨大的市場潛力。商業(yè)模型在第一期工程結(jié)束后,如果有了一定的用戶群,我們便可以推出形如Google日歷平臺,讓用戶注冊并將搜索到的活動便易的加入日歷當(dāng)中,這樣平臺數(shù)據(jù)的準確性與Web數(shù)據(jù)的海量性便可以相互補充,以提供人們更多的、更準確的活動選擇。除了利用兩期工程相互配合以吸引用戶的模型之外,還可以對搜索結(jié)果進行競價排名的贏利模式。比如,我們將某付過費的商場的打折活動信息加權(quán)排序。另外,此系統(tǒng)還有結(jié)伴活動、交友等市場潛力,當(dāng)然,這一切的基礎(chǔ)是,有足夠的用戶認可和使用我們的產(chǎn)品。

項目實施實施階段項目預(yù)計在一個月內(nèi)完成基本模型系統(tǒng)的實現(xiàn),以周為單位大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論