下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、電子政務中的網(wǎng)絡(luò)數(shù)據(jù)挖掘作者:華南理工文章來源:計算機世界華南版點擊數(shù):蚤485更新時間:2005-1-26收藏此頁隨著電子政務的進一步發(fā)展,政府部門內(nèi)部及政府部門之間的大量政務信息,經(jīng)過前兩年電子政務基礎(chǔ)資源的大規(guī) 模建設(shè),海量的政務信息資源挖掘和電子政務知識管理等深層次應用將逐步進入電子政務舞臺,在優(yōu)化決策流程、改進 決策方式、加快決策速度、提高決策質(zhì)量等方面發(fā)揮越來越重要的作用 使電子政務的應用領(lǐng)域向知識共享、決策輔助 等縱深方向發(fā)展。如何在未來的建設(shè)中提高電子政務系統(tǒng)的層次,增強系統(tǒng)的功能,從而達到優(yōu)化決策流程、改進決策方式、加快決 策速度、提高決策質(zhì)量的目的?筆者認為,網(wǎng)絡(luò)數(shù)據(jù)挖掘技
2、術(shù)是一種首選的技術(shù)。電子政務需要數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)是人們對數(shù)據(jù)庫技術(shù)不斷研究和開發(fā)的結(jié)果,是繼寬帶網(wǎng)絡(luò)之后的又一個技術(shù)熱點。自1989年出 現(xiàn)以來,經(jīng)過十多年的發(fā)展,數(shù)據(jù)挖掘技術(shù)已趨于成熟,并已投入商業(yè)應用。世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有: SPSS 公司的C lementine,IBM 公司的 IntelligentMiner,SGI 公司的 SetMi ner,SAS 公司的 EnterpriseMiner,RuleQuestResearch 公司的 See5,還 有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMi ner、Qu
3、est等。知名的GartnerGroup的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來3 5年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)之首”。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,抽取隱含在其中的、人們事先不 知道的,但又是潛在有用的信息和知識的過程。從更廣義的角度來講,數(shù)據(jù)挖掘就是在一些事實或觀察數(shù)據(jù)的集合中尋 找模式的決策支持過程。因此,挖掘的對象不僅是數(shù)據(jù)庫,還可以是任何組織在一起的數(shù)據(jù)集合。數(shù)據(jù)挖掘最初針對的 是大型數(shù)據(jù)庫,而電子政務中的數(shù)據(jù)挖掘技術(shù)是基于網(wǎng)絡(luò)的,即所謂的網(wǎng)絡(luò)數(shù)據(jù)挖掘,它除了處理傳統(tǒng)數(shù)據(jù)庫中的數(shù)值 型的結(jié)構(gòu)化數(shù)據(jù)外,處理更多的是文本、圖形
4、、圖像、WWW信息資源等半結(jié)構(gòu)、非結(jié)構(gòu)的數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)挖掘幾個步驟和所需人才有人認為,網(wǎng)絡(luò)數(shù)據(jù)挖掘就是利用數(shù)據(jù)挖掘技術(shù),自動地從網(wǎng)絡(luò)文檔以及服務中發(fā)現(xiàn)和抽取信息的過程??梢詫⒕W(wǎng)絡(luò)數(shù)據(jù)挖掘分為四個步驟:確定業(yè)務對象。雖然網(wǎng)絡(luò)數(shù)據(jù)挖掘的最后結(jié)構(gòu)是不可預測的 但對要探索的問題應該有所預見,不能盲目地 為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘。清晰地定義出業(yè)務問題 認清數(shù)據(jù)挖掘的目的是網(wǎng)絡(luò)數(shù)據(jù)挖掘的重要一步。數(shù)據(jù)準備。網(wǎng)絡(luò)數(shù)據(jù)挖掘的數(shù)據(jù)來自兩個方面:一方面是客戶的背景信息,主要來源于客戶登記表;而另外 一部分數(shù)據(jù)主要來自瀏覽者的點擊流(Click-stream),人們主要用這部分數(shù)據(jù)考察客戶的行為表現(xiàn)。由 于客戶的背景
5、信息涉及個人隱私,因此客戶不愿意把個人信息如實填寫在登記表上,這給數(shù)據(jù)分析和挖掘帶來困難。在 這種情況下,不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中推測客戶的背景信息,進而再加以利用。數(shù)據(jù)準備首先檢索所需的網(wǎng)絡(luò)文檔, 發(fā)現(xiàn)資源;然后進行數(shù)據(jù)預處理,從發(fā)現(xiàn)的網(wǎng)絡(luò)資源中自動挑選和預處理得到專門的信息。網(wǎng)絡(luò)數(shù)據(jù)挖掘。從單個的Web站點以及多個站點之間的網(wǎng)絡(luò)資源中發(fā)現(xiàn)普遍的模式。結(jié)果分析。對挖掘出的結(jié)果,即普遍模式進行確認或者解釋(不同公司有不同的標準)。在整個網(wǎng)絡(luò)數(shù)據(jù)挖掘的過程中,被研究的業(yè)務對象是挖掘過程的基礎(chǔ),它驅(qū)動整個網(wǎng)絡(luò)數(shù)據(jù)挖掘的全過程,同時, 也是檢驗挖掘結(jié)果和引導分析人員完成挖掘的依據(jù)。數(shù)據(jù)挖掘的過程并
6、非自動的,許多工作需要人工完成。數(shù)據(jù)挖掘?qū)?數(shù)據(jù)有著嚴格的要求,先期的數(shù)據(jù)準備工作要占用60%的時間,且對數(shù)據(jù)挖掘的成敗至關(guān)重要。網(wǎng)絡(luò)數(shù)據(jù)挖掘離不開專業(yè)人員。由于網(wǎng)絡(luò)數(shù)據(jù)挖掘的若干工作需要人工完成,并且數(shù)據(jù)挖掘過程是分步實現(xiàn)的,因 此不同步驟的工作需要具有不同專長的人員,大體可以將他們分為三類:業(yè)務分析人員:精通業(yè)務能夠解釋業(yè)務對象并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù)并較熟練地掌握統(tǒng)計學方法能夠把業(yè)務需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作 并為每步操作選擇合適的技術(shù)。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù)能從數(shù)據(jù)庫、數(shù)據(jù)倉庫和各種網(wǎng)絡(luò)資源中檢索、收集適于挖掘的數(shù)
7、據(jù)。由此 可見數(shù)據(jù)挖掘是一個多種專家合作的過程也是一個在資金上和技術(shù)上高投入,同時獲得高回報的過程。網(wǎng)絡(luò)數(shù)據(jù)挖掘分類網(wǎng)絡(luò)數(shù)據(jù)挖掘形式多樣。根據(jù)不同的網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)ο?,人們將網(wǎng)絡(luò)數(shù)據(jù)挖掘分為網(wǎng)絡(luò)內(nèi)容挖掘(Webcont entmining)、網(wǎng)絡(luò)結(jié)構(gòu)挖掘(Webstructuremining)以及網(wǎng)絡(luò)用法挖掘(Webusa gemining)o網(wǎng)絡(luò)信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的數(shù)據(jù)組成的。網(wǎng)絡(luò)內(nèi)容挖掘就是一個從網(wǎng)絡(luò)信 息內(nèi)容中發(fā)現(xiàn)有用信息的過程。由于網(wǎng)絡(luò)信息內(nèi)容有很多是多媒體數(shù)據(jù),因此網(wǎng)絡(luò)內(nèi)容挖掘也將是一種多媒體數(shù)據(jù)挖掘 形式。網(wǎng)絡(luò)結(jié)構(gòu)挖掘就是挖掘Web潛在的鏈接結(jié)構(gòu)模式。通
8、過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立W eb自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。網(wǎng) 絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點。網(wǎng)絡(luò)用法挖掘、網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)結(jié)構(gòu)挖掘的挖掘?qū)ο笫蔷W(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘面對的則是在 用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手數(shù)據(jù),包括網(wǎng)絡(luò)服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、 用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。通過網(wǎng)絡(luò)用法挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具 有的意義。網(wǎng)絡(luò)數(shù)據(jù)挖掘有利于提高信息化水平電子政務位于世界各國積極倡導的“信息高速公路”五個領(lǐng)
9、域(電子政務、電子商務、遠程教育、遠程醫(yī)療、電子 娛樂)之首,說明政府信息化是社會信息化的基礎(chǔ)。電子政務包括政府的信息服務、電子貿(mào)易、電子化政府、政府部門重構(gòu)、群眾參與政府五個方面的內(nèi)容。將網(wǎng)絡(luò)數(shù) 據(jù)挖掘技術(shù)引入電子政務中,可以大大提高政府信息化水平,促進整個社會的信息化。具體體現(xiàn)在以下幾個方面:政府的電子貿(mào)易在服務器以及瀏覽器端日志記錄的數(shù)據(jù)中隱藏著模式信息,運用網(wǎng)絡(luò)用法挖掘技術(shù)可以自動 發(fā)現(xiàn)系統(tǒng)的訪問模式和用戶的行為模式,從而進行預測分析。目前,這項技術(shù)已經(jīng)有效地運用在政府電子貿(mào)易中。網(wǎng)站設(shè)計通過對網(wǎng)站內(nèi)容的挖掘,主要是對文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息,如采用自動歸類技 術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;同時可以結(jié)合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網(wǎng)站 信息推送服務以及個人信息的定制服務,吸引更多的用戶。搜索引擎網(wǎng)絡(luò)數(shù)據(jù)挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個關(guān)鍵。如通過對網(wǎng)頁內(nèi)容挖掘,可以實現(xiàn)對網(wǎng)頁的聚 類、分類,實現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;同時,通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進行提 問擴展,提高用戶的檢索效果;另外,運用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進關(guān)鍵詞加權(quán)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 通信設(shè)備可靠性研究-洞察分析
- 應用心理學應用領(lǐng)域競爭態(tài)勢-洞察分析
- 虛擬現(xiàn)實圖形渲染-洞察分析
- 2025年冀教版九年級數(shù)學下冊月考試卷含答案
- 2025年岳麓版七年級化學上冊階段測試試卷含答案
- 舞臺藝術(shù)行業(yè)國際化趨勢-洞察分析
- 2025年滬科版九年級地理下冊階段測試試卷含答案
- 2025年中圖版九年級生物下冊階段測試試卷
- 2025年度初中生安全行為規(guī)范及管理合同范本4篇
- 2025年人教版九年級生物上冊階段測試試卷
- GB/T 33629-2024風能發(fā)電系統(tǒng)雷電防護
- 劍橋國際少兒英語“第三級”單詞默寫表
- (精心整理)高中生物必修二非選擇題專題訓練
- 小學二年級100以內(nèi)進退位加減法混合運算
- 福建省流動人口信息登記表
- 市委組織部副部長任職表態(tài)發(fā)言
- HXD1D客運電力機車轉(zhuǎn)向架培訓教材
- 超星爾雅學習通【西方文論原典導讀(吉林大學)】章節(jié)測試附答案
- 【培訓教材】外貿(mào)會計PPT
- 《門店運營管理手冊》
- 應征公民體格檢查表(征兵)
評論
0/150
提交評論