電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第1頁
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第2頁
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第3頁
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第4頁
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第5章電子政務(wù)資源的加工與使用5.1概述政務(wù)信息資源(GovernmentInformation)是指政務(wù)部門為履行管理國家行政事務(wù)和社會公共事務(wù)的職責(zé)而采集、加工、使用的信息資源,政務(wù)部門在業(yè)務(wù)過程中產(chǎn)生和生成的信息資源,由政務(wù)部門投資建設(shè)的信息資源以及由政務(wù)部門采集、管理和使用的信息資源。5.2數(shù)據(jù)、信息與知識

5.2.1政務(wù)系統(tǒng)中的資源形態(tài)電子政務(wù)系統(tǒng)設(shè)計(jì)者在需求分析時會碰到兩個問題,一是如何區(qū)分政務(wù)系統(tǒng)中的數(shù)據(jù)、信息和知識,二是弄清三者間的關(guān)系及政務(wù)應(yīng)用所需的管理工具和特點(diǎn)等。在大數(shù)據(jù)、虛擬現(xiàn)實(shí)、人工智能與深度學(xué)習(xí)等新技術(shù)支持下,高層決策者會得到一些全新的知識視角和一些領(lǐng)域的知識圖譜的呈現(xiàn)。5.2.2數(shù)據(jù)、信息與知識模型1)政務(wù)信息資源概念模型數(shù)據(jù)、信息與知識三者的內(nèi)涵不同,但又彼此銜接且在一定條件下可互相轉(zhuǎn)化,如圖5-1所示。圖5-1數(shù)據(jù)、信息與知識基本模型圖5-1表明數(shù)據(jù)、信息與知識之間并無絕對區(qū)別,而是一個彼此間可互相轉(zhuǎn)化,周而復(fù)始的循環(huán)升級過程,這符合人類認(rèn)識論的過程特性。即模型中的知識通過編碼、存儲后可再產(chǎn)生新的數(shù)據(jù)、再通過加工生成新的信息、新信息再提升為更高階的知識。2)政務(wù)信息資源的實(shí)際模型圖5-2顯示了實(shí)際的政務(wù)信息資源模型,它是大量復(fù)雜資源體的混合物,它們在不同機(jī)構(gòu)、不同系統(tǒng)與不同應(yīng)用中呈雜亂關(guān)聯(lián)狀態(tài)。該模式反映了實(shí)際政務(wù)資源的幾大特點(diǎn):資源多源性資源海量性渠道廣泛性資源相關(guān)性資源多態(tài)性圖5-2多源、多態(tài)、多層面的電子政務(wù)資源聚集體示意針對圖5-2描述的政務(wù)資源,加之其多以非結(jié)構(gòu)化形態(tài)存在,就使傳統(tǒng)數(shù)據(jù)處理技術(shù)越來越難于支持日益擴(kuò)展的電子政務(wù)應(yīng)用的需求。主要體現(xiàn)在三個方面:(1)傳統(tǒng)技術(shù)的限制(2)多形態(tài)、跨系統(tǒng)間的資源無法建立關(guān)聯(lián)(3)缺乏成熟的服務(wù)模型,無法為各級用戶提供個性化信息支持所以,解決上述問題應(yīng)采用新技術(shù)支持的資源加工平臺。3)理想的政務(wù)資源模型及實(shí)現(xiàn)途徑

理想的政務(wù)資源架構(gòu)模型如圖5-3所示,它要求在一個平臺上,實(shí)現(xiàn)各領(lǐng)域、各層面、各種來源、各類形態(tài)的資源的有序集聚與整合。圖5-3理想的政務(wù)資源平臺示意圖5-3模型通過一個“智能數(shù)據(jù)操作層”來實(shí)現(xiàn)不同領(lǐng)域、不同機(jī)構(gòu)中數(shù)據(jù)、信息與知識的有序集聚、標(biāo)準(zhǔn)化處理與整合,實(shí)現(xiàn)以下要求。電子政務(wù)系統(tǒng)對結(jié)構(gòu)化與非結(jié)構(gòu)化資源都是適用的。電子政務(wù)系統(tǒng)應(yīng)支持多渠道、多來源資源的處理。電子政務(wù)系統(tǒng)中各資源體,代表不同信源、不同知識領(lǐng)域。電子政務(wù)系統(tǒng)支持?jǐn)?shù)據(jù)、信息與知識的標(biāo)準(zhǔn)化處理與整合。電子政務(wù)系統(tǒng)整合的結(jié)果將生成新知識。電子政務(wù)系統(tǒng)應(yīng)能被方便地集成到各類政務(wù)應(yīng)用系統(tǒng)中。電子政務(wù)系統(tǒng)應(yīng)能支持一系列的信息加工與服務(wù)功能。5.3電子政務(wù)基礎(chǔ)數(shù)據(jù)資源與標(biāo)準(zhǔn)化實(shí)現(xiàn)圖5-3的政務(wù)資源模式,關(guān)鍵是對三類資源的標(biāo)準(zhǔn)化處理。如對不同系統(tǒng)的數(shù)據(jù)如空間、人口、法人、經(jīng)濟(jì)、交通、社會等領(lǐng)域的數(shù)據(jù)集成,要從底層實(shí)施數(shù)據(jù)標(biāo)準(zhǔn)化,提升其可用性、可再加工性與共享性。政務(wù)數(shù)據(jù)資源標(biāo)準(zhǔn)化的主要內(nèi)容為:基礎(chǔ)層面上有各領(lǐng)域政務(wù)術(shù)語/概念的標(biāo)準(zhǔn)化,數(shù)據(jù)元素標(biāo)準(zhǔn)化,元數(shù)據(jù)及其組成的標(biāo)準(zhǔn)化等;處理層面有數(shù)據(jù)加工模式、規(guī)則與質(zhì)量要求的標(biāo)準(zhǔn)化等;應(yīng)用層面上則有附加資源(如標(biāo)識與描述數(shù)據(jù))、組合與關(guān)聯(lián)資源等的標(biāo)準(zhǔn)化等。5.3.1政務(wù)術(shù)語/概念標(biāo)準(zhǔn)化1)政務(wù)術(shù)語/概念庫基礎(chǔ)術(shù)語和概念的標(biāo)準(zhǔn)化是指如人口、空間、機(jī)構(gòu)實(shí)體、經(jīng)濟(jì)、社會等各類政務(wù)應(yīng)用均需要數(shù)據(jù)的標(biāo)準(zhǔn)化,涉及對象概念定義、描述方法和工具的規(guī)范化開發(fā)與管理,具體為:術(shù)語概念標(biāo)準(zhǔn)化術(shù)語描述標(biāo)準(zhǔn)化術(shù)語庫管理標(biāo)準(zhǔn)化5.3.2基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)化

在政務(wù)信息資源中位于更底層,更基礎(chǔ)的數(shù)據(jù)的一些特殊數(shù)據(jù),主要為元數(shù)據(jù)、數(shù)據(jù)元素、代碼等,這些數(shù)據(jù)的標(biāo)準(zhǔn)化將對政務(wù)信息資源的整體質(zhì)量、可用性、可共享性等都起到重要作用。有關(guān)內(nèi)容參見第8章。5.3.3基于概念的資源描述1)DublinCore實(shí)例簡介

非結(jié)構(gòu)化文檔一般以文本文檔為代表,其描述有一些國際公認(rèn)的模型,如著名的DublinCore(都柏林核心數(shù)據(jù)集)就是代表性的文檔描述規(guī)范,用于管理文檔類資源,它由以下15種元數(shù)據(jù)組成:標(biāo)題名稱(Title)主題詞和關(guān)鍵詞(Subject)資源描述(Description)資源類型(ResourceType)來源(Source)與其他資源的關(guān)系(Relation)覆蓋范圍(Coverage)作者或創(chuàng)建者(Creator)資源的發(fā)布者(Publisher)對資源有貢獻(xiàn)的其他人員(Contributors)版權(quán)管理(Rights)日期(Date)資源格式(Format)語言(Language)資源標(biāo)識(Identifier)顯然,這一描述模型的優(yōu)缺點(diǎn)都是十分明顯。優(yōu)點(diǎn)是通過上述元數(shù)標(biāo)注后,所有文檔資源都變得比較規(guī)范,非結(jié)構(gòu)化的資源變?yōu)榘虢Y(jié)構(gòu)化的資源,可用數(shù)據(jù)庫管理系統(tǒng)方便地進(jìn)行管理。缺點(diǎn)是:首先;每篇文檔如加上這15個數(shù)據(jù)項(xiàng)的話,只能通過人工標(biāo)注,對于行政機(jī)構(gòu)或信息中心而言,面對海量資源加工是極不現(xiàn)實(shí)的。其次,這些數(shù)據(jù)項(xiàng)用于描述文章內(nèi)容的只有1~7項(xiàng),反映其論述內(nèi)容的只有前3項(xiàng),且通常情況下,一篇文獻(xiàn)所用的主題詞或關(guān)鍵詞只有3~5個,無法從更細(xì)致的角度去描述其內(nèi)涵;第三,該架構(gòu)無法支持在自動能力處理環(huán)境下的規(guī)?;Y源加工與增值。2)政務(wù)領(lǐng)域的對象描述需求都柏林核心元數(shù)據(jù)集仍是一個“文檔級”的輪廓性描述架構(gòu),不是針對文檔中“概念級”的資源精細(xì)描述,故“顆粒度”較粗,對于現(xiàn)實(shí)圖5-3理想狀態(tài)的知識管理尚不完善,其他元數(shù)據(jù)集也有類似問題。原因是,許多元數(shù)據(jù)集都來源于圖書館管理的需求,最初對圖書的描述也只限于對其外部特征的描述,而對內(nèi)容的說明則一般限制在數(shù)個關(guān)鍵詞內(nèi),附加內(nèi)容摘要就可。這種管理的目的,并不是要讓讀者通過了解全文包含的主題詞集合來了解書籍內(nèi)容,而只是為讀者們提供對書籍的選擇,再引導(dǎo)他們?nèi)ラ喿x圖書。電子政務(wù)領(lǐng)域往往需要對資源對象“細(xì)顆?!倍鹊膬?nèi)容描述,一些專家采用本體來進(jìn)行描述。但本體也有一定的問題,一是許多純粹的本體是極其嚴(yán)格與內(nèi)容龐大的,實(shí)際系統(tǒng)在應(yīng)用時還要再進(jìn)行一些剪裁;二是本體仍需和目錄體系結(jié)合,才能構(gòu)建某個領(lǐng)域的知識體系;三是本體在應(yīng)用中,仍需和諸如柏林核心元數(shù)據(jù)集等相結(jié)合,才能在對象的宏觀與微觀層面描述上發(fā)揮作用。使計(jì)算機(jī)系統(tǒng)既能在圖書、文本層面上加工資源,又能從概念層面上理解文件的內(nèi)容范疇,這些就需要新的算法與技術(shù)。5.4語義計(jì)算5.4.1基于自然語言的資源處理技術(shù)電子政務(wù)在面對自然語言的海量信息、提升其價值方面正面臨著日益嚴(yán)峻的挑戰(zhàn)。計(jì)算機(jī)并不“理解”其所記錄與傳輸?shù)奈臋n內(nèi)容,特別是當(dāng)它們都是自然語言表示的信息時。如果計(jì)算機(jī)能在某種程度上“理解”自然語言,就會使資源加工的質(zhì)量與使用的便捷性方面大大提高。近年來,在語義計(jì)算領(lǐng)域出現(xiàn)的突破性進(jìn)展,該技術(shù)使計(jì)算機(jī)能在統(tǒng)計(jì)意義上理解多種信息片段之間存在的關(guān)聯(lián),并通過復(fù)雜計(jì)算、自動實(shí)時的分析來使非結(jié)構(gòu)化資源在知識層面上增值,由此給許多應(yīng)用帶來真正的業(yè)務(wù)價值。5.4.2漢語分詞與專業(yè)語料庫要使計(jì)算機(jī)“理解”并處理文本,分詞是第一個環(huán)節(jié)。與拼音文字相比,漢語在分詞處理上還存在著特殊困難,拼音文字可用各詞匯間的空白實(shí)現(xiàn)自然分詞,各類短語間的搭配也比較容易判斷處理,而現(xiàn)代漢語除有標(biāo)點(diǎn)符號分割外,其方塊字首尾相連,故分詞的難度比英語等拼音文字難得多。在分詞庫方面,國內(nèi)已有一些公司提供了比較成功與實(shí)用的解決方案,但各專用領(lǐng)域的語料庫還比較匱乏。而建立各領(lǐng)域的本體就是很好的解決方案,本體中的用代詞、屬分詞、相關(guān)詞等都是具體的語料。5.4.4語義計(jì)算的應(yīng)用語義計(jì)算機(jī)是當(dāng)前計(jì)算機(jī)技術(shù)、人工智能技術(shù)等領(lǐng)域的研究前沿,許多國家的研究機(jī)構(gòu)、院校和專業(yè)公司對此開展了研究,取得了一系列重要的成果。其中,比較有名并投入實(shí)際運(yùn)行,在各國政務(wù)、商務(wù)、產(chǎn)業(yè)等都擁有一批知名客戶和典型案例的,是HP旗下Autonomy公司,它綜合運(yùn)用了貝葉斯-香農(nóng)算法模型,在語義計(jì)算機(jī)領(lǐng)域取得了業(yè)界公認(rèn)的領(lǐng)先成就,本書中的算法模型就以該公司的模型為標(biāo)桿,結(jié)合其他一些研究成果進(jìn)行闡述。1)語義計(jì)算的基本過程語義計(jì)算在針對文檔中概念進(jìn)行時,主要有三個環(huán)節(jié),一是對文檔進(jìn)行預(yù)處理和詞頻率統(tǒng)計(jì),二是將一些沒有實(shí)際涵義的詞匯、非核心概念類詞匯等濾去,三是將文檔中所有的概論詞抽取出來進(jìn)行關(guān)聯(lián)度分析,給出一篇文檔或一批文檔的內(nèi)容特征描述。(1)預(yù)處理(2)分詞與詞頻統(tǒng)計(jì)(3)數(shù)據(jù)清洗2)相關(guān)算法與模型簡介經(jīng)過預(yù)處理后,進(jìn)行概念抽取計(jì)算,目前比較多種成熟的算法,如Rocchio方法、貝葉斯方法、kNN方法、決策樹方法、DecisionRuleClassifier、TheWidrow-HoffClassifier、神經(jīng)網(wǎng)絡(luò)方法、支持向量機(jī)SVM法、基于投票法(votingmethod)等。貝葉斯概率論-----貝葉斯對概率論的研究成為現(xiàn)代統(tǒng)計(jì)學(xué)建模的核心理論之一,他的研究方向集中在計(jì)算多個變量之間的概率關(guān)系,以及決定一個變量影響其他變量的范圍問題。在信息處理領(lǐng)域,該理論可判斷文檔中各概念間的關(guān)聯(lián),從而計(jì)量出未來的結(jié)果分布(相關(guān)性判斷)可更有效地被“已產(chǎn)生的”已知模型和相似性所利用。(5.1)(5.2)(5.3)以上三式是根據(jù)貝葉斯理論建立的文獻(xiàn)概念關(guān)聯(lián)的數(shù)學(xué)模型。(5.1)式是貝葉斯公式的基本形式,它代表彼此獨(dú)立的事件之間當(dāng)某一事件出現(xiàn)后,另一事件出現(xiàn)的概率。語義計(jì)算中,它用于計(jì)算當(dāng)某一概念Di出現(xiàn)時,另一概念Cj出現(xiàn)的概率,再計(jì)算第三概念……的出現(xiàn)概率,由此給出整篇文檔在統(tǒng)計(jì)意義上的關(guān)聯(lián)模型;(5.2)式給出當(dāng)計(jì)算機(jī)處理一批文檔時,出現(xiàn)總文檔數(shù)中出現(xiàn)Cj的文檔數(shù)量;(5.3)式則表示另一個概念與Cj在所有出現(xiàn)的文檔中的關(guān)系,由此對一個個的概念進(jìn)行計(jì)算,最后給出這批文檔中所有概念的統(tǒng)計(jì)意義上的關(guān)聯(lián)特征模型。從認(rèn)識論的角度,貝葉斯理論至少給出了兩點(diǎn)結(jié)論:(1)人們所掌握某一領(lǐng)域的信息量越多,他對該領(lǐng)域問題的認(rèn)知程度就越高。(2)人們先前獲得的經(jīng)驗(yàn)可用于推斷新的情況。當(dāng)然,從上述三計(jì)算式并結(jié)合分詞理論可以看出,對一篇文章進(jìn)行分詞后再直接計(jì)算其間的概念及其關(guān)系特征的話,運(yùn)算量是極其龐大的,再高性能的計(jì)算機(jī)也將會對海量處理文件無能為力的。于是,還需要采用另一種算法來對概念進(jìn)行篩選與過濾,這就是基于香農(nóng)信息論的一系列的預(yù)處理,特別是要先去除文檔中的噪聲與無關(guān)部分。香農(nóng)信息論-------克勞德·香農(nóng)提出在通訊時可以將信息作為可量化的數(shù)值加以處理的理論,已成為現(xiàn)代信息處理系統(tǒng)的數(shù)學(xué)基礎(chǔ)。從香農(nóng)1949年發(fā)表的《通信數(shù)學(xué)原理》中可看到,“信息”在處理中可被作為一種可計(jì)算值。根據(jù)香農(nóng)的熵(平均信息量)或不確定測量,一個單元平均傳送的信息量可表達(dá)成(5.4)式,式中含義同前3式。Entropy為平均信息量,亦稱為熵,既可理解為內(nèi)容的有序度,又可理解為內(nèi)容的混亂度。當(dāng)概率完全相同時(5.4)式達(dá)最大值:這意味著,對應(yīng)文本內(nèi)容應(yīng)是任意的,倘若不是這樣,被文本傳送的信息將低于最大值,也就代表其中有冗余。(5.4)在內(nèi)容特征描述時,一方面對詞頻過低或過高的詞均可除去,同時還要考慮到某一詞的“信息增益”值。(1)基于DF(文檔頻率)詞的DF頻率小于某個閾值去掉(太少,沒有代表性);詞的DF頻率大于某個閾值也去掉(太多,沒有區(qū)分度)。(2)信息增益(InformationGain,IG)

該詞為整個文檔所能提供的信息量(不考慮任何特征的熵和考慮該特征后的熵的差值),其計(jì)算式如(5.5)。(5.5)(3)

詞匯的特征熵

該值越大,說明分布越均勻,越有可能出現(xiàn)在較多的位置與文檔類別中;該值越小,說明分布越傾斜,詞可能出現(xiàn)在較少部位與的類別中,這是香農(nóng)理論原型。(4)相對熵

也稱為KL距離(Kullback-Leiblerdivergence),反映了文本類別的概率分布和在出現(xiàn)了某個特定詞匯條件下的文本類別的概率分布之間的距離,該值越大,該詞對文本類別分布的影響也大。(5.4’)(5.5)(5)χ2

統(tǒng)計(jì)量

度量兩者(詞匯和類別)獨(dú)立性的缺乏程度,χ2越大,獨(dú)立性越小,相關(guān)性越大(若AD<BC,則類和詞獨(dú)立,N=A+B+C+D)。(5.7)(5.8)(5.9)(6)互信息(MutualInformation)MI值越大,詞匯t和c的共現(xiàn)程度越大。還有其他一些算法,都從不同的角度對詞匯和文檔進(jìn)行特征描述。(5.10)(5.11)(5.12)3)語義的權(quán)重語義計(jì)算不僅涉及數(shù)量,還涉及內(nèi)容。當(dāng)同一關(guān)鍵詞出現(xiàn)在不同位置的兩篇文檔中,其中一篇關(guān)鍵詞出現(xiàn)在文檔中的顯著位置,例如標(biāo)題中,另一篇關(guān)鍵詞出現(xiàn)在文檔末尾,處理時應(yīng)認(rèn)為前者的重要性比后者高,系統(tǒng)應(yīng)賦予其較高的權(quán)重值;關(guān)鍵詞出現(xiàn)多次的文檔得到的權(quán)重值也會比較高。一篇文章中涉及的概念詞數(shù)量較多,經(jīng)過分詞、詞頻統(tǒng)計(jì)、自動標(biāo)引、權(quán)重計(jì)算等后,一批文檔產(chǎn)生了一個特征向量空間,稱為文檔的向量空間模型(VectorSpaceModel),其組成為:M個標(biāo)引項(xiàng)ti(特征概念詞),包括詞根、詞、短語、其他形式表達(dá);每個文檔dj用標(biāo)引項(xiàng)向量來表示:(a1j,a2j,…,aMj);權(quán)重計(jì)算,N個訓(xùn)練文檔:AM*N=(aij);相似度比較:余弦計(jì)算、內(nèi)積計(jì)算……權(quán)重計(jì)算要通過文檔進(jìn)行實(shí)例訓(xùn)練,且文檔數(shù)量越多,訓(xùn)練的效果越好,系統(tǒng)給各詞賦予的權(quán)重也越合理。當(dāng)然,好語義計(jì)算系統(tǒng)應(yīng)允許人工對概念權(quán)值的調(diào)整。4)文檔內(nèi)容結(jié)構(gòu)建模貝葉斯概率論提供了描述概念間聯(lián)系模型的數(shù)據(jù)方法,香農(nóng)信息論為提取相關(guān)文檔中最有意義的概念提供了一種機(jī)制。但這兩種年代久遠(yuǎn)的理論只有依靠先進(jìn)的計(jì)算機(jī)系統(tǒng)才能在現(xiàn)代互聯(lián)網(wǎng)海量文獻(xiàn)的環(huán)境中發(fā)揮作用。語義計(jì)算軟件應(yīng)能在解析文檔所含概念、關(guān)鍵詞及大量關(guān)聯(lián)信息的基礎(chǔ)上來理解上下文,構(gòu)建其語義模型,即由主題詞、詞頻值、文章數(shù)值、參照文檔等的集合構(gòu)成一件文檔的語義模型。其后采用如貝葉斯或其他算法,對詞間關(guān)聯(lián)計(jì)算后,得到各篇文章及總體文檔的概念模型。5)文檔資料的處理流程

圖5-4表示系統(tǒng)對文檔集的語義處理流程,它代表從個性語義單元到文章整體語義特征的基本處理流程。圖中流程分為文本表示、訓(xùn)練過程和分類過程三塊。左上部分是系統(tǒng)對一批資源(訓(xùn)練文本)進(jìn)行分詞與詞頻統(tǒng)計(jì)分析與統(tǒng)計(jì)量暫存;右上部分是將訓(xùn)練文檔處理后產(chǎn)生一系列的語義特征表示,它們在與用戶的交互過程中,會通過不斷的學(xué)習(xí)進(jìn)行自我優(yōu)化,并由一個分類器產(chǎn)生一系列的特征分類,其結(jié)果遠(yuǎn)比人工界面上呈現(xiàn)的分類目錄要細(xì)致得多,這也是系統(tǒng)的中間處理過程,由分類器將產(chǎn)生動態(tài)分類中超過一定閾值的穩(wěn)定類目呈現(xiàn)給用戶,再進(jìn)入新一輪的學(xué)習(xí)與優(yōu)化過程。其后,每當(dāng)有新文本加入時,系統(tǒng)會進(jìn)行再訓(xùn)練,將新文檔中知識元素作用于既往的資源集,又將既往積累的統(tǒng)計(jì)知識、特征集等作用于新文檔,使其能利用以往系統(tǒng)資源加工的知識積累。整個系統(tǒng)將通過不斷的資源積累、知識沉淀以及在和用戶的交互過程中訓(xùn)練學(xué)習(xí),優(yōu)化其產(chǎn)出。最后,基于語義計(jì)算的知識系統(tǒng)將越來越“聰明”,越來越“善解人意”,并對以下各類處理提供越來越強(qiáng)的支持,分別是:(1)自動信息采集。

(2)自動分類整理。(3)自動網(wǎng)頁鏈接。(4)自動全文概括。(5)自動相關(guān)信息提示。(6)全文內(nèi)容自然語言查詢。(7)信息多渠道發(fā)送,等等。對于客戶端,知識管理系統(tǒng)帶來的益處是一系列的新型服務(wù):(1)自動建立個性化資料中心。(2)建立個性化的窗口設(shè)置。(3)自動建立信息推送渠道,通過關(guān)聯(lián)性優(yōu)化選擇將信息動態(tài)發(fā)至桌面。系統(tǒng)的處理量級,在當(dāng)前的一般電子政務(wù)主流硬件配置環(huán)境下,百萬件量級的文章,2~3小時內(nèi)按核心內(nèi)容完成自動分類,以及按內(nèi)容含義實(shí)現(xiàn)自動網(wǎng)頁鏈接。5.5基于知識管理的電子政務(wù)系統(tǒng)架構(gòu)5.5.1傳統(tǒng)三層架構(gòu)系統(tǒng)模型的缺陷基于知識管理的政務(wù)系統(tǒng)將提供與以往OA、MIS及其他所有傳統(tǒng)政務(wù)系統(tǒng)完全不同的資源加工與服務(wù)模式,對用戶的支持效果也完全不同,故需要不同的信息系統(tǒng)架構(gòu)來支持。圖4-6所示的是傳統(tǒng)架構(gòu)系統(tǒng)的代表模型,底層為各種數(shù)據(jù)資源服務(wù)器,頂層是通過各種標(biāo)準(zhǔn)傳輸協(xié)議支持的結(jié)果呈現(xiàn)層,中間是各類應(yīng)用服務(wù)器,各類核心中間件、應(yīng)用層中間件、系統(tǒng)級服務(wù)接口以及面向業(yè)務(wù)對象的各種邏輯層等。這種體系即標(biāo)準(zhǔn)的三層架構(gòu)模型如圖5-5所示。但這種架構(gòu)不能面向概念處理,它沒有一個將文檔級的內(nèi)容塊加工為詞匯級概念集合與分析計(jì)算的處理機(jī)制。語義計(jì)算在一至二層之間增加了一個智能數(shù)據(jù)操作層(IntelligentDataOperatingLayer,IDOL),如圖5-6所示。增加了這一層后,使面向文檔流轉(zhuǎn)、信息發(fā)布、常規(guī)作業(yè)等的傳統(tǒng)信息系統(tǒng)上升為可同時面向知識發(fā)現(xiàn)、內(nèi)容挖掘與決策支持的知識系統(tǒng)。5.5.2智能數(shù)據(jù)操作層架構(gòu)1)智能數(shù)據(jù)操作層的概念智能數(shù)據(jù)操作層(IDOL)既是個邏輯架構(gòu),也是一種功能服務(wù)器,作用是收集來自各連接器的數(shù)據(jù),并通過快速處理和智能檢索的獨(dú)特方式來儲存數(shù)據(jù)。在處理信息時,IDOL能聯(lián)系概念和語境來理解數(shù)據(jù)庫中的內(nèi)容;支持對大量不同格式的信息、使用者的關(guān)注域進(jìn)行自動分析;可實(shí)現(xiàn)對數(shù)據(jù)資源的多種類型的操作,包括超鏈接、代理、摘要、分類、聚類、結(jié)構(gòu)化信息抽取、建檔、個性化信息定制、內(nèi)容提醒以及關(guān)聯(lián)檢索等。該服務(wù)器還允許人工參與控制,通過人工與自動化互補(bǔ)方式可獲得更大的靈活性;它還能與原來遺留系統(tǒng)整合,使用戶能傳承原系統(tǒng)的資源并與新系統(tǒng)整合。圖5-6表示智能數(shù)據(jù)操作層,它實(shí)現(xiàn)語義計(jì)算,提供了一些新的資源處理功能。2)智能操作層功能(1)功能模型圖

圖5-6中的智能數(shù)據(jù)操作層的功能模型如圖5-7所示,圖中虛線部分代表圖5-6。圖5-7中,智能數(shù)據(jù)操作層實(shí)現(xiàn)對機(jī)構(gòu)內(nèi)外網(wǎng)中各種格式的信息資源的語義處理,再與傳統(tǒng)架構(gòu)系統(tǒng)對接后經(jīng)門戶呈現(xiàn)。而左側(cè)的智能信息平臺和右側(cè)商務(wù)智能工具等表示其適用環(huán)境及與其他應(yīng)用的整合。(2)體系架構(gòu)智能數(shù)據(jù)操作層(IDOL)的核心模塊有三個,一是動態(tài)推理引擎(DRE)、二是分類服務(wù)器、三是用戶服務(wù)器,各自功能如下。①動態(tài)推理引擎(DRE):動態(tài)推理引擎是一個高擴(kuò)展性的多進(jìn)程模塊,能對目標(biāo)內(nèi)容進(jìn)行分析并提交給用戶。②分類服務(wù)器:在動態(tài)推理引擎能實(shí)現(xiàn)統(tǒng)計(jì)意義上的理解上下文信息的功能基礎(chǔ)上,分類組織實(shí)現(xiàn)了高擴(kuò)展性的自動分類解決方案。③用戶服務(wù)器

在前兩個模塊的基礎(chǔ)上實(shí)現(xiàn)個性化操作。④其他⑤連接器模塊⑥參數(shù)設(shè)置5.6基于知識管理的電子政務(wù)系統(tǒng)功能采用基于概念分析的知識管理系統(tǒng),將智能數(shù)據(jù)操作層(IDOL)集成到電子政務(wù)系統(tǒng)中,可實(shí)現(xiàn)如圖5-8的各種應(yīng)用。底層是各類數(shù)據(jù)源,如來自O(shè)A、新聞、電子郵件、文件系統(tǒng)、互聯(lián)網(wǎng)、數(shù)據(jù)庫、文檔、業(yè)務(wù)系統(tǒng)、XML、聲音影像等形態(tài)與格式的信息,通過第二層(連接器層)將各種不規(guī)整信息、半規(guī)整信息、規(guī)整信息、語音、圖像等信息導(dǎo)入第三層即智能數(shù)據(jù)操作層,該層核心就是上述含動態(tài)推理引擎、分類服務(wù)器、用戶服務(wù)器等,支持分布式架構(gòu),再上就是傳統(tǒng)系統(tǒng)中的第二、三層,圖中省略,簡單地以其支持的各種應(yīng)用系統(tǒng)層來代表,如政務(wù)門戶集群、信訪系統(tǒng)、OA、陽光權(quán)力、決策支持和其他應(yīng)用等。在效率上,當(dāng)智能數(shù)據(jù)操作層(IDOL)集成到電子政務(wù)系統(tǒng)中后,會將傳統(tǒng)上需要手工操作的大部分過程實(shí)現(xiàn)自動化,提高政府機(jī)構(gòu)內(nèi)部的生產(chǎn)力、改善信息的共享與分布狀況、降低數(shù)據(jù)維護(hù)成本以及根除因人為因素引起的不準(zhǔn)確性。特別是對機(jī)構(gòu)內(nèi)外部信息資源的規(guī)?;杉⒓s化管理、自動化處理方面產(chǎn)生革命性的變化。在基于概念統(tǒng)計(jì)分析技術(shù)上,系統(tǒng)可自動地或輔助人工對大量信息進(jìn)行識別和匹配,實(shí)現(xiàn)以以下技術(shù)為關(guān)鍵點(diǎn)的系統(tǒng)性能改善。5.6.1自動相關(guān)鏈接通過概念統(tǒng)計(jì)分析可識別各文檔資料中內(nèi)容間的主要關(guān)系,實(shí)現(xiàn)文檔內(nèi)容間的交叉索引對照。此類技術(shù)可處理底層代碼形態(tài)的記錄,所以無論什么格式與內(nèi)容的文檔,都可在操作層識別出與其相關(guān)聯(lián)的資料。實(shí)時生成相關(guān)超鏈,實(shí)時更新,無需手工插入鏈接。當(dāng)某篇文檔被查閱時,這些鏈接可自動地一次性插入文檔中,可將以前處理過的文檔中建立起來的內(nèi)容超鏈作為當(dāng)前文檔的參考,并與之內(nèi)容結(jié)合,檔案資料也可以鏈接到最新的新聞或其他形態(tài)的相關(guān)資料中。該功能在電子政務(wù)系統(tǒng)中可生成如下一些應(yīng)用。(1)與外部信源內(nèi)容關(guān)聯(lián)(2)機(jī)關(guān)內(nèi)部應(yīng)用(3)提高內(nèi)外部信息服務(wù)質(zhì)量(4)對依法行政的支持(5)在提升語音服務(wù)水平上的應(yīng)用所以,自動超鏈功能對電子政務(wù)的改進(jìn)主要體現(xiàn)如下。降低多種應(yīng)用環(huán)境下非結(jié)構(gòu)化信息的維護(hù)成本降低查找相關(guān)信息的時間降低重復(fù)勞動

發(fā)現(xiàn)新知識點(diǎn),提升服務(wù)質(zhì)量讓人們了解信息的更迭以及最新信息,等等。5.6.2形成自動摘要系統(tǒng)可對內(nèi)容中主要概念進(jìn)行自動摘要,也可以根據(jù)原始查詢的上下文環(huán)境進(jìn)行自動摘要,并將最適合的動態(tài)摘要提交給指定的需求。

該功能在電子政務(wù)系統(tǒng)中可生成如下一些應(yīng)用。在移動政務(wù)領(lǐng)域的應(yīng)用在政府機(jī)構(gòu)中的應(yīng)用在快速變化的時代,主管機(jī)構(gòu)需要盡可能快地做出正確決策,以保證以敏捷、能動的態(tài)度服務(wù)社會公眾。動態(tài)內(nèi)容摘要可以幫助各級公務(wù)員節(jié)省大量評估信息內(nèi)容所需時間。特別是高層官員,因時間緊、活動多,更需要先通過摘要來了解各路發(fā)來的材料、信息的概要。所以,動態(tài)內(nèi)容摘要功能對電子政務(wù)的改進(jìn)主要體現(xiàn)如下。當(dāng)顯示能力有限時,動態(tài)內(nèi)容摘要可發(fā)送高度精確的信息概要。提高用戶處理信息的能力,加速政務(wù)運(yùn)作。讓人們能更快地做出適當(dāng)?shù)臎Q策。與自動鏈接功能結(jié)合,可連續(xù)、動態(tài)地提供更靈活、靈巧的內(nèi)容服務(wù)。5.6.3內(nèi)容匹配盡管公務(wù)員和行政事業(yè)單位員工每天都可接觸范圍很廣的信息,從內(nèi)部文檔到網(wǎng)站上動態(tài)新聞,但他們必須花時間和精力來找到對其有用的信息?;ヂ?lián)網(wǎng)內(nèi)容的增長,使查找信息的時間和精力越來越多,“主動匹配”可自動幫他們做這項(xiàng)工作。主動匹配可以將典型的文檔或以數(shù)據(jù)為中心的用戶界面轉(zhuǎn)變成以任務(wù)為導(dǎo)向的智能界面,識別用戶當(dāng)前的問題,確定相關(guān)的信息并且積極主動地提示用戶,讓他們了解到相關(guān)內(nèi)容。該功能在電子政務(wù)系統(tǒng)中可生成如下一些應(yīng)用。在公文起草中的應(yīng)用在機(jī)構(gòu)內(nèi)部使用所以,主動匹配功能對電子政務(wù)的改進(jìn)主要體現(xiàn)如下??梢灾鲃酉蛴脩籼峁┢渖形此阉鞯男畔?。減少收集及時信息所需要的時間和精力。最大程度上允許信息的復(fù)用。提供依法行政的保障、降低失誤發(fā)生的可能性。5.6.4信息獲取和檢索可根據(jù)任何語言和格式進(jìn)行內(nèi)容搜索,不論內(nèi)容存放在哪里,并且自動地實(shí)時地將內(nèi)容摘要以及與其類似信息的鏈接呈現(xiàn)出來。檢索方案應(yīng)是可拓展的,通過理解概念,它可保證較高的準(zhǔn)確性和全面性。在電子政務(wù)應(yīng)用中,系統(tǒng)應(yīng)提供概念級的識別能力以保證資源的獲取性,包括自然語言、概念搜索、自動摘要、二次概念檢索,聯(lián)合檢索、多語言搜索,以及傳統(tǒng)的搜索機(jī)制,例如關(guān)鍵詞、布爾檢索等。與這一功能密切關(guān)聯(lián)的是自動摘要,它允許用戶快速精練其搜索,精確地將焦點(diǎn)定位在其需要的上下文環(huán)境上。5.6.5自動內(nèi)容綜合與精練如今,各級政府機(jī)構(gòu)作為社會公用信息資源的最大擁有者,越來越意識到信息資源是一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論