電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第1頁(yè)
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第2頁(yè)
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第3頁(yè)
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第4頁(yè)
電子政務(wù)基礎(chǔ)教程 第5章 電子政務(wù)資源的加工與使用_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章電子政務(wù)資源的加工與使用5.1概述政務(wù)信息資源(GovernmentInformation)是指政務(wù)部門為履行管理國(guó)家行政事務(wù)和社會(huì)公共事務(wù)的職責(zé)而采集、加工、使用的信息資源,政務(wù)部門在業(yè)務(wù)過(guò)程中產(chǎn)生和生成的信息資源,由政務(wù)部門投資建設(shè)的信息資源以及由政務(wù)部門采集、管理和使用的信息資源。5.2數(shù)據(jù)、信息與知識(shí)

5.2.1政務(wù)系統(tǒng)中的資源形態(tài)電子政務(wù)系統(tǒng)設(shè)計(jì)者在需求分析時(shí)會(huì)碰到兩個(gè)問(wèn)題,一是如何區(qū)分政務(wù)系統(tǒng)中的數(shù)據(jù)、信息和知識(shí),二是弄清三者間的關(guān)系及政務(wù)應(yīng)用所需的管理工具和特點(diǎn)等。在大數(shù)據(jù)、虛擬現(xiàn)實(shí)、人工智能與深度學(xué)習(xí)等新技術(shù)支持下,高層決策者會(huì)得到一些全新的知識(shí)視角和一些領(lǐng)域的知識(shí)圖譜的呈現(xiàn)。5.2.2數(shù)據(jù)、信息與知識(shí)模型1)政務(wù)信息資源概念模型數(shù)據(jù)、信息與知識(shí)三者的內(nèi)涵不同,但又彼此銜接且在一定條件下可互相轉(zhuǎn)化,如圖5-1所示。圖5-1數(shù)據(jù)、信息與知識(shí)基本模型圖5-1表明數(shù)據(jù)、信息與知識(shí)之間并無(wú)絕對(duì)區(qū)別,而是一個(gè)彼此間可互相轉(zhuǎn)化,周而復(fù)始的循環(huán)升級(jí)過(guò)程,這符合人類認(rèn)識(shí)論的過(guò)程特性。即模型中的知識(shí)通過(guò)編碼、存儲(chǔ)后可再產(chǎn)生新的數(shù)據(jù)、再通過(guò)加工生成新的信息、新信息再提升為更高階的知識(shí)。2)政務(wù)信息資源的實(shí)際模型圖5-2顯示了實(shí)際的政務(wù)信息資源模型,它是大量復(fù)雜資源體的混合物,它們?cè)诓煌瑱C(jī)構(gòu)、不同系統(tǒng)與不同應(yīng)用中呈雜亂關(guān)聯(lián)狀態(tài)。該模式反映了實(shí)際政務(wù)資源的幾大特點(diǎn):資源多源性資源海量性渠道廣泛性資源相關(guān)性資源多態(tài)性圖5-2多源、多態(tài)、多層面的電子政務(wù)資源聚集體示意針對(duì)圖5-2描述的政務(wù)資源,加之其多以非結(jié)構(gòu)化形態(tài)存在,就使傳統(tǒng)數(shù)據(jù)處理技術(shù)越來(lái)越難于支持日益擴(kuò)展的電子政務(wù)應(yīng)用的需求。主要體現(xiàn)在三個(gè)方面:(1)傳統(tǒng)技術(shù)的限制(2)多形態(tài)、跨系統(tǒng)間的資源無(wú)法建立關(guān)聯(lián)(3)缺乏成熟的服務(wù)模型,無(wú)法為各級(jí)用戶提供個(gè)性化信息支持所以,解決上述問(wèn)題應(yīng)采用新技術(shù)支持的資源加工平臺(tái)。3)理想的政務(wù)資源模型及實(shí)現(xiàn)途徑

理想的政務(wù)資源架構(gòu)模型如圖5-3所示,它要求在一個(gè)平臺(tái)上,實(shí)現(xiàn)各領(lǐng)域、各層面、各種來(lái)源、各類形態(tài)的資源的有序集聚與整合。圖5-3理想的政務(wù)資源平臺(tái)示意圖5-3模型通過(guò)一個(gè)“智能數(shù)據(jù)操作層”來(lái)實(shí)現(xiàn)不同領(lǐng)域、不同機(jī)構(gòu)中數(shù)據(jù)、信息與知識(shí)的有序集聚、標(biāo)準(zhǔn)化處理與整合,實(shí)現(xiàn)以下要求。電子政務(wù)系統(tǒng)對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化資源都是適用的。電子政務(wù)系統(tǒng)應(yīng)支持多渠道、多來(lái)源資源的處理。電子政務(wù)系統(tǒng)中各資源體,代表不同信源、不同知識(shí)領(lǐng)域。電子政務(wù)系統(tǒng)支持?jǐn)?shù)據(jù)、信息與知識(shí)的標(biāo)準(zhǔn)化處理與整合。電子政務(wù)系統(tǒng)整合的結(jié)果將生成新知識(shí)。電子政務(wù)系統(tǒng)應(yīng)能被方便地集成到各類政務(wù)應(yīng)用系統(tǒng)中。電子政務(wù)系統(tǒng)應(yīng)能支持一系列的信息加工與服務(wù)功能。5.3電子政務(wù)基礎(chǔ)數(shù)據(jù)資源與標(biāo)準(zhǔn)化實(shí)現(xiàn)圖5-3的政務(wù)資源模式,關(guān)鍵是對(duì)三類資源的標(biāo)準(zhǔn)化處理。如對(duì)不同系統(tǒng)的數(shù)據(jù)如空間、人口、法人、經(jīng)濟(jì)、交通、社會(huì)等領(lǐng)域的數(shù)據(jù)集成,要從底層實(shí)施數(shù)據(jù)標(biāo)準(zhǔn)化,提升其可用性、可再加工性與共享性。政務(wù)數(shù)據(jù)資源標(biāo)準(zhǔn)化的主要內(nèi)容為:基礎(chǔ)層面上有各領(lǐng)域政務(wù)術(shù)語(yǔ)/概念的標(biāo)準(zhǔn)化,數(shù)據(jù)元素標(biāo)準(zhǔn)化,元數(shù)據(jù)及其組成的標(biāo)準(zhǔn)化等;處理層面有數(shù)據(jù)加工模式、規(guī)則與質(zhì)量要求的標(biāo)準(zhǔn)化等;應(yīng)用層面上則有附加資源(如標(biāo)識(shí)與描述數(shù)據(jù))、組合與關(guān)聯(lián)資源等的標(biāo)準(zhǔn)化等。5.3.1政務(wù)術(shù)語(yǔ)/概念標(biāo)準(zhǔn)化1)政務(wù)術(shù)語(yǔ)/概念庫(kù)基礎(chǔ)術(shù)語(yǔ)和概念的標(biāo)準(zhǔn)化是指如人口、空間、機(jī)構(gòu)實(shí)體、經(jīng)濟(jì)、社會(huì)等各類政務(wù)應(yīng)用均需要數(shù)據(jù)的標(biāo)準(zhǔn)化,涉及對(duì)象概念定義、描述方法和工具的規(guī)范化開(kāi)發(fā)與管理,具體為:術(shù)語(yǔ)概念標(biāo)準(zhǔn)化術(shù)語(yǔ)描述標(biāo)準(zhǔn)化術(shù)語(yǔ)庫(kù)管理標(biāo)準(zhǔn)化5.3.2基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)化

在政務(wù)信息資源中位于更底層,更基礎(chǔ)的數(shù)據(jù)的一些特殊數(shù)據(jù),主要為元數(shù)據(jù)、數(shù)據(jù)元素、代碼等,這些數(shù)據(jù)的標(biāo)準(zhǔn)化將對(duì)政務(wù)信息資源的整體質(zhì)量、可用性、可共享性等都起到重要作用。有關(guān)內(nèi)容參見(jiàn)第8章。5.3.3基于概念的資源描述1)DublinCore實(shí)例簡(jiǎn)介

非結(jié)構(gòu)化文檔一般以文本文檔為代表,其描述有一些國(guó)際公認(rèn)的模型,如著名的DublinCore(都柏林核心數(shù)據(jù)集)就是代表性的文檔描述規(guī)范,用于管理文檔類資源,它由以下15種元數(shù)據(jù)組成:標(biāo)題名稱(Title)主題詞和關(guān)鍵詞(Subject)資源描述(Description)資源類型(ResourceType)來(lái)源(Source)與其他資源的關(guān)系(Relation)覆蓋范圍(Coverage)作者或創(chuàng)建者(Creator)資源的發(fā)布者(Publisher)對(duì)資源有貢獻(xiàn)的其他人員(Contributors)版權(quán)管理(Rights)日期(Date)資源格式(Format)語(yǔ)言(Language)資源標(biāo)識(shí)(Identifier)顯然,這一描述模型的優(yōu)缺點(diǎn)都是十分明顯。優(yōu)點(diǎn)是通過(guò)上述元數(shù)標(biāo)注后,所有文檔資源都變得比較規(guī)范,非結(jié)構(gòu)化的資源變?yōu)榘虢Y(jié)構(gòu)化的資源,可用數(shù)據(jù)庫(kù)管理系統(tǒng)方便地進(jìn)行管理。缺點(diǎn)是:首先;每篇文檔如加上這15個(gè)數(shù)據(jù)項(xiàng)的話,只能通過(guò)人工標(biāo)注,對(duì)于行政機(jī)構(gòu)或信息中心而言,面對(duì)海量資源加工是極不現(xiàn)實(shí)的。其次,這些數(shù)據(jù)項(xiàng)用于描述文章內(nèi)容的只有1~7項(xiàng),反映其論述內(nèi)容的只有前3項(xiàng),且通常情況下,一篇文獻(xiàn)所用的主題詞或關(guān)鍵詞只有3~5個(gè),無(wú)法從更細(xì)致的角度去描述其內(nèi)涵;第三,該架構(gòu)無(wú)法支持在自動(dòng)能力處理環(huán)境下的規(guī)模化資源加工與增值。2)政務(wù)領(lǐng)域的對(duì)象描述需求都柏林核心元數(shù)據(jù)集仍是一個(gè)“文檔級(jí)”的輪廓性描述架構(gòu),不是針對(duì)文檔中“概念級(jí)”的資源精細(xì)描述,故“顆粒度”較粗,對(duì)于現(xiàn)實(shí)圖5-3理想狀態(tài)的知識(shí)管理尚不完善,其他元數(shù)據(jù)集也有類似問(wèn)題。原因是,許多元數(shù)據(jù)集都來(lái)源于圖書(shū)館管理的需求,最初對(duì)圖書(shū)的描述也只限于對(duì)其外部特征的描述,而對(duì)內(nèi)容的說(shuō)明則一般限制在數(shù)個(gè)關(guān)鍵詞內(nèi),附加內(nèi)容摘要就可。這種管理的目的,并不是要讓讀者通過(guò)了解全文包含的主題詞集合來(lái)了解書(shū)籍內(nèi)容,而只是為讀者們提供對(duì)書(shū)籍的選擇,再引導(dǎo)他們?nèi)ラ喿x圖書(shū)。電子政務(wù)領(lǐng)域往往需要對(duì)資源對(duì)象“細(xì)顆粒”度的內(nèi)容描述,一些專家采用本體來(lái)進(jìn)行描述。但本體也有一定的問(wèn)題,一是許多純粹的本體是極其嚴(yán)格與內(nèi)容龐大的,實(shí)際系統(tǒng)在應(yīng)用時(shí)還要再進(jìn)行一些剪裁;二是本體仍需和目錄體系結(jié)合,才能構(gòu)建某個(gè)領(lǐng)域的知識(shí)體系;三是本體在應(yīng)用中,仍需和諸如柏林核心元數(shù)據(jù)集等相結(jié)合,才能在對(duì)象的宏觀與微觀層面描述上發(fā)揮作用。使計(jì)算機(jī)系統(tǒng)既能在圖書(shū)、文本層面上加工資源,又能從概念層面上理解文件的內(nèi)容范疇,這些就需要新的算法與技術(shù)。5.4語(yǔ)義計(jì)算5.4.1基于自然語(yǔ)言的資源處理技術(shù)電子政務(wù)在面對(duì)自然語(yǔ)言的海量信息、提升其價(jià)值方面正面臨著日益嚴(yán)峻的挑戰(zhàn)。計(jì)算機(jī)并不“理解”其所記錄與傳輸?shù)奈臋n內(nèi)容,特別是當(dāng)它們都是自然語(yǔ)言表示的信息時(shí)。如果計(jì)算機(jī)能在某種程度上“理解”自然語(yǔ)言,就會(huì)使資源加工的質(zhì)量與使用的便捷性方面大大提高。近年來(lái),在語(yǔ)義計(jì)算領(lǐng)域出現(xiàn)的突破性進(jìn)展,該技術(shù)使計(jì)算機(jī)能在統(tǒng)計(jì)意義上理解多種信息片段之間存在的關(guān)聯(lián),并通過(guò)復(fù)雜計(jì)算、自動(dòng)實(shí)時(shí)的分析來(lái)使非結(jié)構(gòu)化資源在知識(shí)層面上增值,由此給許多應(yīng)用帶來(lái)真正的業(yè)務(wù)價(jià)值。5.4.2漢語(yǔ)分詞與專業(yè)語(yǔ)料庫(kù)要使計(jì)算機(jī)“理解”并處理文本,分詞是第一個(gè)環(huán)節(jié)。與拼音文字相比,漢語(yǔ)在分詞處理上還存在著特殊困難,拼音文字可用各詞匯間的空白實(shí)現(xiàn)自然分詞,各類短語(yǔ)間的搭配也比較容易判斷處理,而現(xiàn)代漢語(yǔ)除有標(biāo)點(diǎn)符號(hào)分割外,其方塊字首尾相連,故分詞的難度比英語(yǔ)等拼音文字難得多。在分詞庫(kù)方面,國(guó)內(nèi)已有一些公司提供了比較成功與實(shí)用的解決方案,但各專用領(lǐng)域的語(yǔ)料庫(kù)還比較匱乏。而建立各領(lǐng)域的本體就是很好的解決方案,本體中的用代詞、屬分詞、相關(guān)詞等都是具體的語(yǔ)料。5.4.4語(yǔ)義計(jì)算的應(yīng)用語(yǔ)義計(jì)算機(jī)是當(dāng)前計(jì)算機(jī)技術(shù)、人工智能技術(shù)等領(lǐng)域的研究前沿,許多國(guó)家的研究機(jī)構(gòu)、院校和專業(yè)公司對(duì)此開(kāi)展了研究,取得了一系列重要的成果。其中,比較有名并投入實(shí)際運(yùn)行,在各國(guó)政務(wù)、商務(wù)、產(chǎn)業(yè)等都擁有一批知名客戶和典型案例的,是HP旗下Autonomy公司,它綜合運(yùn)用了貝葉斯-香農(nóng)算法模型,在語(yǔ)義計(jì)算機(jī)領(lǐng)域取得了業(yè)界公認(rèn)的領(lǐng)先成就,本書(shū)中的算法模型就以該公司的模型為標(biāo)桿,結(jié)合其他一些研究成果進(jìn)行闡述。1)語(yǔ)義計(jì)算的基本過(guò)程語(yǔ)義計(jì)算在針對(duì)文檔中概念進(jìn)行時(shí),主要有三個(gè)環(huán)節(jié),一是對(duì)文檔進(jìn)行預(yù)處理和詞頻率統(tǒng)計(jì),二是將一些沒(méi)有實(shí)際涵義的詞匯、非核心概念類詞匯等濾去,三是將文檔中所有的概論詞抽取出來(lái)進(jìn)行關(guān)聯(lián)度分析,給出一篇文檔或一批文檔的內(nèi)容特征描述。(1)預(yù)處理(2)分詞與詞頻統(tǒng)計(jì)(3)數(shù)據(jù)清洗2)相關(guān)算法與模型簡(jiǎn)介經(jīng)過(guò)預(yù)處理后,進(jìn)行概念抽取計(jì)算,目前比較多種成熟的算法,如Rocchio方法、貝葉斯方法、kNN方法、決策樹(shù)方法、DecisionRuleClassifier、TheWidrow-HoffClassifier、神經(jīng)網(wǎng)絡(luò)方法、支持向量機(jī)SVM法、基于投票法(votingmethod)等。貝葉斯概率論-----貝葉斯對(duì)概率論的研究成為現(xiàn)代統(tǒng)計(jì)學(xué)建模的核心理論之一,他的研究方向集中在計(jì)算多個(gè)變量之間的概率關(guān)系,以及決定一個(gè)變量影響其他變量的范圍問(wèn)題。在信息處理領(lǐng)域,該理論可判斷文檔中各概念間的關(guān)聯(lián),從而計(jì)量出未來(lái)的結(jié)果分布(相關(guān)性判斷)可更有效地被“已產(chǎn)生的”已知模型和相似性所利用。(5.1)(5.2)(5.3)以上三式是根據(jù)貝葉斯理論建立的文獻(xiàn)概念關(guān)聯(lián)的數(shù)學(xué)模型。(5.1)式是貝葉斯公式的基本形式,它代表彼此獨(dú)立的事件之間當(dāng)某一事件出現(xiàn)后,另一事件出現(xiàn)的概率。語(yǔ)義計(jì)算中,它用于計(jì)算當(dāng)某一概念Di出現(xiàn)時(shí),另一概念Cj出現(xiàn)的概率,再計(jì)算第三概念……的出現(xiàn)概率,由此給出整篇文檔在統(tǒng)計(jì)意義上的關(guān)聯(lián)模型;(5.2)式給出當(dāng)計(jì)算機(jī)處理一批文檔時(shí),出現(xiàn)總文檔數(shù)中出現(xiàn)Cj的文檔數(shù)量;(5.3)式則表示另一個(gè)概念與Cj在所有出現(xiàn)的文檔中的關(guān)系,由此對(duì)一個(gè)個(gè)的概念進(jìn)行計(jì)算,最后給出這批文檔中所有概念的統(tǒng)計(jì)意義上的關(guān)聯(lián)特征模型。從認(rèn)識(shí)論的角度,貝葉斯理論至少給出了兩點(diǎn)結(jié)論:(1)人們所掌握某一領(lǐng)域的信息量越多,他對(duì)該領(lǐng)域問(wèn)題的認(rèn)知程度就越高。(2)人們先前獲得的經(jīng)驗(yàn)可用于推斷新的情況。當(dāng)然,從上述三計(jì)算式并結(jié)合分詞理論可以看出,對(duì)一篇文章進(jìn)行分詞后再直接計(jì)算其間的概念及其關(guān)系特征的話,運(yùn)算量是極其龐大的,再高性能的計(jì)算機(jī)也將會(huì)對(duì)海量處理文件無(wú)能為力的。于是,還需要采用另一種算法來(lái)對(duì)概念進(jìn)行篩選與過(guò)濾,這就是基于香農(nóng)信息論的一系列的預(yù)處理,特別是要先去除文檔中的噪聲與無(wú)關(guān)部分。香農(nóng)信息論-------克勞德·香農(nóng)提出在通訊時(shí)可以將信息作為可量化的數(shù)值加以處理的理論,已成為現(xiàn)代信息處理系統(tǒng)的數(shù)學(xué)基礎(chǔ)。從香農(nóng)1949年發(fā)表的《通信數(shù)學(xué)原理》中可看到,“信息”在處理中可被作為一種可計(jì)算值。根據(jù)香農(nóng)的熵(平均信息量)或不確定測(cè)量,一個(gè)單元平均傳送的信息量可表達(dá)成(5.4)式,式中含義同前3式。Entropy為平均信息量,亦稱為熵,既可理解為內(nèi)容的有序度,又可理解為內(nèi)容的混亂度。當(dāng)概率完全相同時(shí)(5.4)式達(dá)最大值:這意味著,對(duì)應(yīng)文本內(nèi)容應(yīng)是任意的,倘若不是這樣,被文本傳送的信息將低于最大值,也就代表其中有冗余。(5.4)在內(nèi)容特征描述時(shí),一方面對(duì)詞頻過(guò)低或過(guò)高的詞均可除去,同時(shí)還要考慮到某一詞的“信息增益”值。(1)基于DF(文檔頻率)詞的DF頻率小于某個(gè)閾值去掉(太少,沒(méi)有代表性);詞的DF頻率大于某個(gè)閾值也去掉(太多,沒(méi)有區(qū)分度)。(2)信息增益(InformationGain,IG)

該詞為整個(gè)文檔所能提供的信息量(不考慮任何特征的熵和考慮該特征后的熵的差值),其計(jì)算式如(5.5)。(5.5)(3)

詞匯的特征熵

該值越大,說(shuō)明分布越均勻,越有可能出現(xiàn)在較多的位置與文檔類別中;該值越小,說(shuō)明分布越傾斜,詞可能出現(xiàn)在較少部位與的類別中,這是香農(nóng)理論原型。(4)相對(duì)熵

也稱為KL距離(Kullback-Leiblerdivergence),反映了文本類別的概率分布和在出現(xiàn)了某個(gè)特定詞匯條件下的文本類別的概率分布之間的距離,該值越大,該詞對(duì)文本類別分布的影響也大。(5.4’)(5.5)(5)χ2

統(tǒng)計(jì)量

度量?jī)烧撸ㄔ~匯和類別)獨(dú)立性的缺乏程度,χ2越大,獨(dú)立性越小,相關(guān)性越大(若AD<BC,則類和詞獨(dú)立,N=A+B+C+D)。(5.7)(5.8)(5.9)(6)互信息(MutualInformation)MI值越大,詞匯t和c的共現(xiàn)程度越大。還有其他一些算法,都從不同的角度對(duì)詞匯和文檔進(jìn)行特征描述。(5.10)(5.11)(5.12)3)語(yǔ)義的權(quán)重語(yǔ)義計(jì)算不僅涉及數(shù)量,還涉及內(nèi)容。當(dāng)同一關(guān)鍵詞出現(xiàn)在不同位置的兩篇文檔中,其中一篇關(guān)鍵詞出現(xiàn)在文檔中的顯著位置,例如標(biāo)題中,另一篇關(guān)鍵詞出現(xiàn)在文檔末尾,處理時(shí)應(yīng)認(rèn)為前者的重要性比后者高,系統(tǒng)應(yīng)賦予其較高的權(quán)重值;關(guān)鍵詞出現(xiàn)多次的文檔得到的權(quán)重值也會(huì)比較高。一篇文章中涉及的概念詞數(shù)量較多,經(jīng)過(guò)分詞、詞頻統(tǒng)計(jì)、自動(dòng)標(biāo)引、權(quán)重計(jì)算等后,一批文檔產(chǎn)生了一個(gè)特征向量空間,稱為文檔的向量空間模型(VectorSpaceModel),其組成為:M個(gè)標(biāo)引項(xiàng)ti(特征概念詞),包括詞根、詞、短語(yǔ)、其他形式表達(dá);每個(gè)文檔dj用標(biāo)引項(xiàng)向量來(lái)表示:(a1j,a2j,…,aMj);權(quán)重計(jì)算,N個(gè)訓(xùn)練文檔:AM*N=(aij);相似度比較:余弦計(jì)算、內(nèi)積計(jì)算……權(quán)重計(jì)算要通過(guò)文檔進(jìn)行實(shí)例訓(xùn)練,且文檔數(shù)量越多,訓(xùn)練的效果越好,系統(tǒng)給各詞賦予的權(quán)重也越合理。當(dāng)然,好語(yǔ)義計(jì)算系統(tǒng)應(yīng)允許人工對(duì)概念權(quán)值的調(diào)整。4)文檔內(nèi)容結(jié)構(gòu)建模貝葉斯概率論提供了描述概念間聯(lián)系模型的數(shù)據(jù)方法,香農(nóng)信息論為提取相關(guān)文檔中最有意義的概念提供了一種機(jī)制。但這兩種年代久遠(yuǎn)的理論只有依靠先進(jìn)的計(jì)算機(jī)系統(tǒng)才能在現(xiàn)代互聯(lián)網(wǎng)海量文獻(xiàn)的環(huán)境中發(fā)揮作用。語(yǔ)義計(jì)算軟件應(yīng)能在解析文檔所含概念、關(guān)鍵詞及大量關(guān)聯(lián)信息的基礎(chǔ)上來(lái)理解上下文,構(gòu)建其語(yǔ)義模型,即由主題詞、詞頻值、文章數(shù)值、參照文檔等的集合構(gòu)成一件文檔的語(yǔ)義模型。其后采用如貝葉斯或其他算法,對(duì)詞間關(guān)聯(lián)計(jì)算后,得到各篇文章及總體文檔的概念模型。5)文檔資料的處理流程

圖5-4表示系統(tǒng)對(duì)文檔集的語(yǔ)義處理流程,它代表從個(gè)性語(yǔ)義單元到文章整體語(yǔ)義特征的基本處理流程。圖中流程分為文本表示、訓(xùn)練過(guò)程和分類過(guò)程三塊。左上部分是系統(tǒng)對(duì)一批資源(訓(xùn)練文本)進(jìn)行分詞與詞頻統(tǒng)計(jì)分析與統(tǒng)計(jì)量暫存;右上部分是將訓(xùn)練文檔處理后產(chǎn)生一系列的語(yǔ)義特征表示,它們?cè)谂c用戶的交互過(guò)程中,會(huì)通過(guò)不斷的學(xué)習(xí)進(jìn)行自我優(yōu)化,并由一個(gè)分類器產(chǎn)生一系列的特征分類,其結(jié)果遠(yuǎn)比人工界面上呈現(xiàn)的分類目錄要細(xì)致得多,這也是系統(tǒng)的中間處理過(guò)程,由分類器將產(chǎn)生動(dòng)態(tài)分類中超過(guò)一定閾值的穩(wěn)定類目呈現(xiàn)給用戶,再進(jìn)入新一輪的學(xué)習(xí)與優(yōu)化過(guò)程。其后,每當(dāng)有新文本加入時(shí),系統(tǒng)會(huì)進(jìn)行再訓(xùn)練,將新文檔中知識(shí)元素作用于既往的資源集,又將既往積累的統(tǒng)計(jì)知識(shí)、特征集等作用于新文檔,使其能利用以往系統(tǒng)資源加工的知識(shí)積累。整個(gè)系統(tǒng)將通過(guò)不斷的資源積累、知識(shí)沉淀以及在和用戶的交互過(guò)程中訓(xùn)練學(xué)習(xí),優(yōu)化其產(chǎn)出。最后,基于語(yǔ)義計(jì)算的知識(shí)系統(tǒng)將越來(lái)越“聰明”,越來(lái)越“善解人意”,并對(duì)以下各類處理提供越來(lái)越強(qiáng)的支持,分別是:(1)自動(dòng)信息采集。

(2)自動(dòng)分類整理。(3)自動(dòng)網(wǎng)頁(yè)鏈接。(4)自動(dòng)全文概括。(5)自動(dòng)相關(guān)信息提示。(6)全文內(nèi)容自然語(yǔ)言查詢。(7)信息多渠道發(fā)送,等等。對(duì)于客戶端,知識(shí)管理系統(tǒng)帶來(lái)的益處是一系列的新型服務(wù):(1)自動(dòng)建立個(gè)性化資料中心。(2)建立個(gè)性化的窗口設(shè)置。(3)自動(dòng)建立信息推送渠道,通過(guò)關(guān)聯(lián)性優(yōu)化選擇將信息動(dòng)態(tài)發(fā)至桌面。系統(tǒng)的處理量級(jí),在當(dāng)前的一般電子政務(wù)主流硬件配置環(huán)境下,百萬(wàn)件量級(jí)的文章,2~3小時(shí)內(nèi)按核心內(nèi)容完成自動(dòng)分類,以及按內(nèi)容含義實(shí)現(xiàn)自動(dòng)網(wǎng)頁(yè)鏈接。5.5基于知識(shí)管理的電子政務(wù)系統(tǒng)架構(gòu)5.5.1傳統(tǒng)三層架構(gòu)系統(tǒng)模型的缺陷基于知識(shí)管理的政務(wù)系統(tǒng)將提供與以往OA、MIS及其他所有傳統(tǒng)政務(wù)系統(tǒng)完全不同的資源加工與服務(wù)模式,對(duì)用戶的支持效果也完全不同,故需要不同的信息系統(tǒng)架構(gòu)來(lái)支持。圖4-6所示的是傳統(tǒng)架構(gòu)系統(tǒng)的代表模型,底層為各種數(shù)據(jù)資源服務(wù)器,頂層是通過(guò)各種標(biāo)準(zhǔn)傳輸協(xié)議支持的結(jié)果呈現(xiàn)層,中間是各類應(yīng)用服務(wù)器,各類核心中間件、應(yīng)用層中間件、系統(tǒng)級(jí)服務(wù)接口以及面向業(yè)務(wù)對(duì)象的各種邏輯層等。這種體系即標(biāo)準(zhǔn)的三層架構(gòu)模型如圖5-5所示。但這種架構(gòu)不能面向概念處理,它沒(méi)有一個(gè)將文檔級(jí)的內(nèi)容塊加工為詞匯級(jí)概念集合與分析計(jì)算的處理機(jī)制。語(yǔ)義計(jì)算在一至二層之間增加了一個(gè)智能數(shù)據(jù)操作層(IntelligentDataOperatingLayer,IDOL),如圖5-6所示。增加了這一層后,使面向文檔流轉(zhuǎn)、信息發(fā)布、常規(guī)作業(yè)等的傳統(tǒng)信息系統(tǒng)上升為可同時(shí)面向知識(shí)發(fā)現(xiàn)、內(nèi)容挖掘與決策支持的知識(shí)系統(tǒng)。5.5.2智能數(shù)據(jù)操作層架構(gòu)1)智能數(shù)據(jù)操作層的概念智能數(shù)據(jù)操作層(IDOL)既是個(gè)邏輯架構(gòu),也是一種功能服務(wù)器,作用是收集來(lái)自各連接器的數(shù)據(jù),并通過(guò)快速處理和智能檢索的獨(dú)特方式來(lái)儲(chǔ)存數(shù)據(jù)。在處理信息時(shí),IDOL能聯(lián)系概念和語(yǔ)境來(lái)理解數(shù)據(jù)庫(kù)中的內(nèi)容;支持對(duì)大量不同格式的信息、使用者的關(guān)注域進(jìn)行自動(dòng)分析;可實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的多種類型的操作,包括超鏈接、代理、摘要、分類、聚類、結(jié)構(gòu)化信息抽取、建檔、個(gè)性化信息定制、內(nèi)容提醒以及關(guān)聯(lián)檢索等。該服務(wù)器還允許人工參與控制,通過(guò)人工與自動(dòng)化互補(bǔ)方式可獲得更大的靈活性;它還能與原來(lái)遺留系統(tǒng)整合,使用戶能傳承原系統(tǒng)的資源并與新系統(tǒng)整合。圖5-6表示智能數(shù)據(jù)操作層,它實(shí)現(xiàn)語(yǔ)義計(jì)算,提供了一些新的資源處理功能。2)智能操作層功能(1)功能模型圖

圖5-6中的智能數(shù)據(jù)操作層的功能模型如圖5-7所示,圖中虛線部分代表圖5-6。圖5-7中,智能數(shù)據(jù)操作層實(shí)現(xiàn)對(duì)機(jī)構(gòu)內(nèi)外網(wǎng)中各種格式的信息資源的語(yǔ)義處理,再與傳統(tǒng)架構(gòu)系統(tǒng)對(duì)接后經(jīng)門戶呈現(xiàn)。而左側(cè)的智能信息平臺(tái)和右側(cè)商務(wù)智能工具等表示其適用環(huán)境及與其他應(yīng)用的整合。(2)體系架構(gòu)智能數(shù)據(jù)操作層(IDOL)的核心模塊有三個(gè),一是動(dòng)態(tài)推理引擎(DRE)、二是分類服務(wù)器、三是用戶服務(wù)器,各自功能如下。①動(dòng)態(tài)推理引擎(DRE):動(dòng)態(tài)推理引擎是一個(gè)高擴(kuò)展性的多進(jìn)程模塊,能對(duì)目標(biāo)內(nèi)容進(jìn)行分析并提交給用戶。②分類服務(wù)器:在動(dòng)態(tài)推理引擎能實(shí)現(xiàn)統(tǒng)計(jì)意義上的理解上下文信息的功能基礎(chǔ)上,分類組織實(shí)現(xiàn)了高擴(kuò)展性的自動(dòng)分類解決方案。③用戶服務(wù)器

在前兩個(gè)模塊的基礎(chǔ)上實(shí)現(xiàn)個(gè)性化操作。④其他⑤連接器模塊⑥參數(shù)設(shè)置5.6基于知識(shí)管理的電子政務(wù)系統(tǒng)功能采用基于概念分析的知識(shí)管理系統(tǒng),將智能數(shù)據(jù)操作層(IDOL)集成到電子政務(wù)系統(tǒng)中,可實(shí)現(xiàn)如圖5-8的各種應(yīng)用。底層是各類數(shù)據(jù)源,如來(lái)自O(shè)A、新聞、電子郵件、文件系統(tǒng)、互聯(lián)網(wǎng)、數(shù)據(jù)庫(kù)、文檔、業(yè)務(wù)系統(tǒng)、XML、聲音影像等形態(tài)與格式的信息,通過(guò)第二層(連接器層)將各種不規(guī)整信息、半規(guī)整信息、規(guī)整信息、語(yǔ)音、圖像等信息導(dǎo)入第三層即智能數(shù)據(jù)操作層,該層核心就是上述含動(dòng)態(tài)推理引擎、分類服務(wù)器、用戶服務(wù)器等,支持分布式架構(gòu),再上就是傳統(tǒng)系統(tǒng)中的第二、三層,圖中省略,簡(jiǎn)單地以其支持的各種應(yīng)用系統(tǒng)層來(lái)代表,如政務(wù)門戶集群、信訪系統(tǒng)、OA、陽(yáng)光權(quán)力、決策支持和其他應(yīng)用等。在效率上,當(dāng)智能數(shù)據(jù)操作層(IDOL)集成到電子政務(wù)系統(tǒng)中后,會(huì)將傳統(tǒng)上需要手工操作的大部分過(guò)程實(shí)現(xiàn)自動(dòng)化,提高政府機(jī)構(gòu)內(nèi)部的生產(chǎn)力、改善信息的共享與分布狀況、降低數(shù)據(jù)維護(hù)成本以及根除因人為因素引起的不準(zhǔn)確性。特別是對(duì)機(jī)構(gòu)內(nèi)外部信息資源的規(guī)?;杉?、集約化管理、自動(dòng)化處理方面產(chǎn)生革命性的變化。在基于概念統(tǒng)計(jì)分析技術(shù)上,系統(tǒng)可自動(dòng)地或輔助人工對(duì)大量信息進(jìn)行識(shí)別和匹配,實(shí)現(xiàn)以以下技術(shù)為關(guān)鍵點(diǎn)的系統(tǒng)性能改善。5.6.1自動(dòng)相關(guān)鏈接通過(guò)概念統(tǒng)計(jì)分析可識(shí)別各文檔資料中內(nèi)容間的主要關(guān)系,實(shí)現(xiàn)文檔內(nèi)容間的交叉索引對(duì)照。此類技術(shù)可處理底層代碼形態(tài)的記錄,所以無(wú)論什么格式與內(nèi)容的文檔,都可在操作層識(shí)別出與其相關(guān)聯(lián)的資料。實(shí)時(shí)生成相關(guān)超鏈,實(shí)時(shí)更新,無(wú)需手工插入鏈接。當(dāng)某篇文檔被查閱時(shí),這些鏈接可自動(dòng)地一次性插入文檔中,可將以前處理過(guò)的文檔中建立起來(lái)的內(nèi)容超鏈作為當(dāng)前文檔的參考,并與之內(nèi)容結(jié)合,檔案資料也可以鏈接到最新的新聞或其他形態(tài)的相關(guān)資料中。該功能在電子政務(wù)系統(tǒng)中可生成如下一些應(yīng)用。(1)與外部信源內(nèi)容關(guān)聯(lián)(2)機(jī)關(guān)內(nèi)部應(yīng)用(3)提高內(nèi)外部信息服務(wù)質(zhì)量(4)對(duì)依法行政的支持(5)在提升語(yǔ)音服務(wù)水平上的應(yīng)用所以,自動(dòng)超鏈功能對(duì)電子政務(wù)的改進(jìn)主要體現(xiàn)如下。降低多種應(yīng)用環(huán)境下非結(jié)構(gòu)化信息的維護(hù)成本降低查找相關(guān)信息的時(shí)間降低重復(fù)勞動(dòng)

發(fā)現(xiàn)新知識(shí)點(diǎn),提升服務(wù)質(zhì)量讓人們了解信息的更迭以及最新信息,等等。5.6.2形成自動(dòng)摘要系統(tǒng)可對(duì)內(nèi)容中主要概念進(jìn)行自動(dòng)摘要,也可以根據(jù)原始查詢的上下文環(huán)境進(jìn)行自動(dòng)摘要,并將最適合的動(dòng)態(tài)摘要提交給指定的需求。

該功能在電子政務(wù)系統(tǒng)中可生成如下一些應(yīng)用。在移動(dòng)政務(wù)領(lǐng)域的應(yīng)用在政府機(jī)構(gòu)中的應(yīng)用在快速變化的時(shí)代,主管機(jī)構(gòu)需要盡可能快地做出正確決策,以保證以敏捷、能動(dòng)的態(tài)度服務(wù)社會(huì)公眾。動(dòng)態(tài)內(nèi)容摘要可以幫助各級(jí)公務(wù)員節(jié)省大量評(píng)估信息內(nèi)容所需時(shí)間。特別是高層官員,因時(shí)間緊、活動(dòng)多,更需要先通過(guò)摘要來(lái)了解各路發(fā)來(lái)的材料、信息的概要。所以,動(dòng)態(tài)內(nèi)容摘要功能對(duì)電子政務(wù)的改進(jìn)主要體現(xiàn)如下。當(dāng)顯示能力有限時(shí),動(dòng)態(tài)內(nèi)容摘要可發(fā)送高度精確的信息概要。提高用戶處理信息的能力,加速政務(wù)運(yùn)作。讓人們能更快地做出適當(dāng)?shù)臎Q策。與自動(dòng)鏈接功能結(jié)合,可連續(xù)、動(dòng)態(tài)地提供更靈活、靈巧的內(nèi)容服務(wù)。5.6.3內(nèi)容匹配盡管公務(wù)員和行政事業(yè)單位員工每天都可接觸范圍很廣的信息,從內(nèi)部文檔到網(wǎng)站上動(dòng)態(tài)新聞,但他們必須花時(shí)間和精力來(lái)找到對(duì)其有用的信息?;ヂ?lián)網(wǎng)內(nèi)容的增長(zhǎng),使查找信息的時(shí)間和精力越來(lái)越多,“主動(dòng)匹配”可自動(dòng)幫他們做這項(xiàng)工作。主動(dòng)匹配可以將典型的文檔或以數(shù)據(jù)為中心的用戶界面轉(zhuǎn)變成以任務(wù)為導(dǎo)向的智能界面,識(shí)別用戶當(dāng)前的問(wèn)題,確定相關(guān)的信息并且積極主動(dòng)地提示用戶,讓他們了解到相關(guān)內(nèi)容。該功能在電子政務(wù)系統(tǒng)中可生成如下一些應(yīng)用。在公文起草中的應(yīng)用在機(jī)構(gòu)內(nèi)部使用所以,主動(dòng)匹配功能對(duì)電子政務(wù)的改進(jìn)主要體現(xiàn)如下??梢灾鲃?dòng)向用戶提供其尚未搜索的信息。減少收集及時(shí)信息所需要的時(shí)間和精力。最大程度上允許信息的復(fù)用。提供依法行政的保障、降低失誤發(fā)生的可能性。5.6.4信息獲取和檢索可根據(jù)任何語(yǔ)言和格式進(jìn)行內(nèi)容搜索,不論內(nèi)容存放在哪里,并且自動(dòng)地實(shí)時(shí)地將內(nèi)容摘要以及與其類似信息的鏈接呈現(xiàn)出來(lái)。檢索方案應(yīng)是可拓展的,通過(guò)理解概念,它可保證較高的準(zhǔn)確性和全面性。在電子政務(wù)應(yīng)用中,系統(tǒng)應(yīng)提供概念級(jí)的識(shí)別能力以保證資源的獲取性,包括自然語(yǔ)言、概念搜索、自動(dòng)摘要、二次概念檢索,聯(lián)合檢索、多語(yǔ)言搜索,以及傳統(tǒng)的搜索機(jī)制,例如關(guān)鍵詞、布爾檢索等。與這一功能密切關(guān)聯(lián)的是自動(dòng)摘要,它允許用戶快速精練其搜索,精確地將焦點(diǎn)定位在其需要的上下文環(huán)境上。5.6.5自動(dòng)內(nèi)容綜合與精練如今,各級(jí)政府機(jī)構(gòu)作為社會(huì)公用信息資源的最大擁有者,越來(lái)越意識(shí)到信息資源是一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論