下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于數(shù)據(jù)挖掘技術(shù)的情報(bào)分析與服務(wù)系統(tǒng)研究
隨著經(jīng)濟(jì)和社會(huì)計(jì)算機(jī)化時(shí)代的到來,社會(huì)計(jì)算機(jī)化程度的迅速提高,不同學(xué)科之間的交叉點(diǎn)發(fā)生了變化。另一方面,信息總量增加,舊信息總量減少,不同的信息總量像海洋一樣。另一方面,人們對(duì)信息的需求從簡單的接收擴(kuò)展到收集信息和滿足特殊需求的信息信息,更加個(gè)性化、專業(yè)化。傳統(tǒng)的情報(bào)工作方法難以全面把握和處理這些紛繁復(fù)雜信息,更難滿足日益增長的情報(bào)需求,特殊需求的信息情報(bào)更加個(gè)性化和專業(yè)化。情報(bào)研究與服務(wù)工作方法的轉(zhuǎn)變和創(chuàng)新已迫在眉睫,必須通過情報(bào)信息技術(shù)支持,提高采集、分析、處理、加工、存儲(chǔ)信息的能力,拓寬情報(bào)服務(wù)范圍,加快情報(bào)研究工作的節(jié)奏,縮短從情報(bào)搜集到產(chǎn)生和發(fā)布情報(bào)研究成果的周期,以提高情報(bào)研究時(shí)效性和情報(bào)服務(wù)的相應(yīng)速度,提高情報(bào)研究成果的精度和可信度,以滿足信息社會(huì)情報(bào)用戶的需求。1情報(bào)資源的采集、處理手段落后(1)缺少統(tǒng)籌的情報(bào)規(guī)劃。情報(bào)機(jī)構(gòu)按照自己的工作需求,通過自己掌握的信息收集渠道進(jìn)行情報(bào)采集。無論是情報(bào)信息還是信息收集渠道,都缺乏整合和統(tǒng)一規(guī)劃,留存在各個(gè)部門內(nèi)部,不利于組織從整體需求出發(fā)開展情報(bào)工作,情報(bào)人員的協(xié)同工作有待規(guī)范,缺少技術(shù)性的支持手段。(2)情報(bào)采集的連續(xù)性和系統(tǒng)性差,存在大量重復(fù)勞動(dòng)?,F(xiàn)行開展的情報(bào)工作,往往是一事一辦,針對(duì)情報(bào)需求進(jìn)行一段時(shí)間內(nèi)的情報(bào)采集,不能做到針對(duì)某個(gè)需求的持續(xù)性采集,造成了采集和信息的連續(xù)性和系統(tǒng)性差,信息不能有效地積累下來,遇到同樣需求的時(shí)候,可能需要重新開展收集工作,降低了工作效率。(3)情報(bào)采集效率低、時(shí)效性差。面對(duì)海量信息資源,難以消化,難以辨別真假,信息形式不一致,難以統(tǒng)一處理,難于從大量紛繁復(fù)雜的信息中提取有價(jià)值的信息并進(jìn)行深層次的加工即情報(bào)研究,同時(shí)缺少對(duì)動(dòng)態(tài)信息的即時(shí)跟蹤,缺乏發(fā)現(xiàn)機(jī)會(huì)和風(fēng)險(xiǎn)的能力。(4)情報(bào)服務(wù)范圍有限,服務(wù)方式單一。目前的情報(bào)產(chǎn)品都是情報(bào)部門根據(jù)自己掌握的信息渠道而編制的,信息渠道的權(quán)威性和全面性得不到保證,服務(wù)對(duì)象不具有普遍性,情報(bào)需求不能及時(shí)響應(yīng)。2更高層次的分析隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。在激增的數(shù)據(jù)背后隱藏著許多重要的信息,情報(bào)工作要求能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,有必要引進(jìn)數(shù)據(jù)挖掘技術(shù)。2.1數(shù)據(jù)提取2.1.1微集物的知識(shí)挖掘數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的新穎的潛在的信息和知識(shí)過程,通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)隱含在數(shù)據(jù)中概念、規(guī)則、規(guī)律、模式等有用的知識(shí)。從廣義的角度看,數(shù)據(jù)挖掘是從存儲(chǔ)于數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市或者其他非結(jié)構(gòu)化的信息倉庫的大量數(shù)據(jù)中挖掘出有用知識(shí)的過程。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論技術(shù),是利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,使用這些模型和關(guān)系可以進(jìn)行預(yù)測(cè),幫助決策者尋找數(shù)據(jù)間的潛在關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素。2.1.2對(duì)有價(jià)值的知識(shí)、規(guī)則的知識(shí)和輔助決策的關(guān)鍵數(shù)據(jù)數(shù)據(jù)挖掘是對(duì)大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化轉(zhuǎn)化處理,發(fā)現(xiàn)有價(jià)值的知識(shí)、規(guī)則,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。圖1為數(shù)據(jù)挖掘步驟圖。2.1.3生成規(guī)則的描述數(shù)據(jù)挖掘的目的是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有以下功能:(1)自動(dòng)預(yù)測(cè)趨勢(shì)和行為。數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中尋找預(yù)測(cè)性信息,以往需要進(jìn)行手工分析的大量問題可以通過數(shù)據(jù)挖掘技術(shù)由數(shù)據(jù)本身得出結(jié)論。(2)關(guān)聯(lián)分析。數(shù)據(jù)庫中,若兩個(gè)或多個(gè)變量的取值之間存在著一類重要的可被發(fā)現(xiàn)的知識(shí),因?yàn)橛袝r(shí)并不知道數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)函數(shù),通過關(guān)聯(lián)分析,找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),進(jìn)而生成的規(guī)則有一定可信度。(3)聚類。數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。(4)概念描述。概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征,其中特征性描述是對(duì)某類對(duì)象共同特征的描述,區(qū)別性描述是描述不同類對(duì)象之間的區(qū)別。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。(5)偏差檢測(cè)。偏差檢測(cè)是對(duì)很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差等。其基本方法是,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。2.2情報(bào)分析與數(shù)據(jù)挖掘相結(jié)合情報(bào)研究與服務(wù)系統(tǒng)是根據(jù)社會(huì)用戶的特定需求,以人的智力勞動(dòng)為主導(dǎo)、信息技術(shù)為支撐、信息網(wǎng)絡(luò)為手段,以社會(huì)信息的采集、選擇、評(píng)價(jià)、分析和綜合等系列化加工為基本過程,以形成新的、增值的情報(bào)產(chǎn)品,將為不同層次的科學(xué)決策服務(wù)為主要目的的一類社會(huì)化的智能活動(dòng),是信息管理和知識(shí)管理有效地結(jié)合起來的決策支持系統(tǒng)。其處理過程一般分為情報(bào)搜集、情報(bào)加工、情報(bào)分析、情報(bào)評(píng)估(見圖2)。通過前面的分析我們可以發(fā)現(xiàn),數(shù)據(jù)挖掘與情報(bào)分析與服務(wù)系統(tǒng)具有很強(qiáng)的相似性:二者數(shù)據(jù)源相似,情報(bào)分析的“信息”與數(shù)據(jù)挖掘的數(shù)據(jù)含義相同;分析過程相似,情報(bào)分析的步驟與數(shù)據(jù)挖掘的步驟基本相同,都經(jīng)歷了原始數(shù)據(jù)提取、數(shù)據(jù)篩選、數(shù)據(jù)分析、數(shù)據(jù)評(píng)價(jià)這幾個(gè)關(guān)鍵步驟;目標(biāo)相似,數(shù)據(jù)挖掘的目標(biāo)是知識(shí)發(fā)現(xiàn),通過對(duì)原始數(shù)據(jù)的分析提煉,找到其內(nèi)在變量的聯(lián)系,從而獲得知識(shí)。情報(bào)分析的主要目的是通過對(duì)情報(bào)的分析,能夠根據(jù)周圍環(huán)境的變化,找出其內(nèi)在規(guī)律,及時(shí)把握情報(bào),也是獲取和應(yīng)用知識(shí)的過程。數(shù)據(jù)挖掘技術(shù)同當(dāng)前傳統(tǒng)的情報(bào)方法相比較,情報(bào)獲取方式由人工搜取擴(kuò)展到機(jī)器自動(dòng)抓取;情報(bào)分析上升為多維分析,目前采用基于數(shù)據(jù)挖掘技術(shù)工具化軟件對(duì)多種資源進(jìn)行自動(dòng)采集、自動(dòng)分類和去重等處理,從海量信息中及時(shí)準(zhǔn)確地篩選關(guān)鍵情報(bào)資訊信息,通過系統(tǒng)自動(dòng)化與人工干預(yù)相結(jié)合的方式,經(jīng)過可定義的處理流程,作為了解各類信息的重要渠道和決策輔助支持的工具,從而提高快速反應(yīng)能力,無論從體系結(jié)構(gòu)上還是從具體方法上,數(shù)據(jù)挖掘算法都能夠很好地融合到情報(bào)系統(tǒng)中去。3情報(bào)分析與服務(wù)系統(tǒng)圖3為基于數(shù)據(jù)挖掘技術(shù)的情報(bào)分析與服務(wù)系統(tǒng)功能模型圖。數(shù)據(jù)挖掘系統(tǒng)主要包括數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)評(píng)價(jià)幾個(gè)子系統(tǒng),將數(shù)據(jù)挖掘系統(tǒng)的子系統(tǒng)嵌入到情報(bào)分析與服務(wù)系統(tǒng)中,將整合的多種信息源,包括互聯(lián)網(wǎng)通用信息、已有數(shù)據(jù)庫通過數(shù)據(jù)接口模塊收集的信息等,經(jīng)過挖掘技術(shù)初步篩選、查重去重、自動(dòng)摘要、自動(dòng)分類、自動(dòng)聚類、相似性檢索進(jìn)行處理,去掉大多數(shù)系統(tǒng)不關(guān)注的信息,簡化了情報(bào)分析中數(shù)據(jù)預(yù)處理工作的難度和復(fù)雜性;將信息篩選、編輯以及加工整理,將處理后的信息從原始信息庫加入到情報(bào)信息庫;經(jīng)過評(píng)價(jià)后,進(jìn)一步加工,形成情報(bào)產(chǎn)品,發(fā)布到情報(bào)門戶平臺(tái),提供快捷友好的多途徑檢索、情報(bào)推送定制、郵件訂閱等分層次情報(bào)服務(wù)。4情報(bào)信息服務(wù)的數(shù)據(jù)庫及應(yīng)用廣泛,應(yīng)用廣泛,可以提高情報(bào)信息的服務(wù)和效率數(shù)據(jù)挖掘是信息處理發(fā)展到一定程度的必然產(chǎn)物,是利用數(shù)據(jù)的一個(gè)高級(jí)階段,把數(shù)據(jù)挖掘技術(shù)用于情報(bào)研究和服務(wù)上,它可以拓寬情報(bào)服務(wù)范圍,大大提高工作效率和情報(bào)的準(zhǔn)確性。4.1多維數(shù)據(jù)庫的統(tǒng)一利用政府決策若要體現(xiàn)科學(xué)性、前瞻性及執(zhí)行的可行性,就必須對(duì)所涉及數(shù)據(jù)進(jìn)行充分地利用。而政府管理決策所需要的數(shù)據(jù)通常是跟一些不同維數(shù)(每一維表示對(duì)數(shù)據(jù)的一個(gè)特定觀察視角,如區(qū)域、行業(yè)、時(shí)間等)、不同級(jí)別(如部門、單位、地區(qū)、國家等)的統(tǒng)計(jì)和計(jì)算有關(guān)。政府管理所涉及的數(shù)據(jù)源可能是文檔、層次型數(shù)據(jù)庫、網(wǎng)絡(luò)化結(jié)構(gòu)化的數(shù)據(jù)、反向列表數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫等,甚至是上述幾種數(shù)據(jù)系統(tǒng)組成的混合系統(tǒng),因此要考慮各種數(shù)據(jù)庫的統(tǒng)一利用問題。數(shù)據(jù)挖掘等信息技術(shù)從根本上改變了基于傳統(tǒng)數(shù)據(jù)庫的決策支持系統(tǒng)的弊端,使數(shù)據(jù)信息更直接地輔助政府進(jìn)行決策。4.2競(jìng)爭情報(bào)模型企業(yè)需要隨時(shí)保持競(jìng)爭優(yōu)勢(shì),而強(qiáng)大的競(jìng)爭優(yōu)勢(shì)取決于企業(yè)的決策能力,決策能力又取決于情報(bào)資源。在現(xiàn)代信息經(jīng)濟(jì)的商業(yè)競(jìng)爭中,對(duì)市場(chǎng)、自身、競(jìng)爭對(duì)手、行業(yè)趨勢(shì)、國家政策等競(jìng)爭情報(bào)的全面和及時(shí)掌握也同樣決定著企業(yè)的興衰成敗。基于數(shù)據(jù)挖掘技術(shù)的情報(bào)系統(tǒng),使原本毫無結(jié)構(gòu)、零散分布在企業(yè)內(nèi)外的信息成為能夠指導(dǎo)企業(yè)決策的體系明晰、邏輯緊密的競(jìng)爭情報(bào)。對(duì)可能出現(xiàn)的機(jī)遇和危險(xiǎn)提供早期預(yù)警,對(duì)競(jìng)爭對(duì)手的動(dòng)向進(jìn)行監(jiān)控和評(píng)估,同時(shí),還能將整理有序的情報(bào)加以存儲(chǔ),配合情報(bào)服務(wù)功能,成為企業(yè)的知識(shí)系統(tǒng),為企業(yè)提供內(nèi)部信息交流、外部環(huán)境檢測(cè)、戰(zhàn)略決策輔助等支持。4.3注重技術(shù)創(chuàng)新,推動(dòng)科學(xué)決策研究所謂技術(shù)發(fā)展預(yù)測(cè),是對(duì)未來較長時(shí)期的科學(xué)、技術(shù)、經(jīng)濟(jì)和社會(huì)發(fā)展進(jìn)行系統(tǒng)研究,以確定具有戰(zhàn)略性的研究領(lǐng)域,選擇對(duì)國家和地區(qū)經(jīng)濟(jì)和社會(huì)利益具有最大貢獻(xiàn)的技術(shù)群的活動(dòng)。其過程主要是征集區(qū)域重點(diǎn)領(lǐng)域經(jīng)濟(jì)社會(huì)發(fā)展(科技需求)技術(shù)、項(xiàng)目,選擇重點(diǎn)領(lǐng)域關(guān)鍵技術(shù);調(diào)查數(shù)據(jù)處理、統(tǒng)計(jì)分析,開展技術(shù)與經(jīng)濟(jì)社會(huì)發(fā)展的互動(dòng)分析研究;在系統(tǒng)集成分析基礎(chǔ)上選擇關(guān)鍵技術(shù),撰寫綜合研究報(bào)告;建立技術(shù)、項(xiàng)目數(shù)據(jù)庫;預(yù)測(cè)研究需要綜合運(yùn)用大量的文獻(xiàn)調(diào)查、比較法,根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。任何一個(gè)預(yù)測(cè)研究領(lǐng)域要取得研究的成功取決于兩個(gè)方面:一是研究工作者能否找到事物過去發(fā)展的規(guī)律;二是研究工作者是否可以得到影響和決定事物未來發(fā)展形勢(shì)所需的資料或數(shù)據(jù)。預(yù)測(cè)研究面對(duì)的信息集就是一個(gè)海量數(shù)據(jù)庫,運(yùn)用數(shù)據(jù)挖掘技術(shù)分析與預(yù)測(cè),就是希望從海量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)存在的關(guān)聯(lián)規(guī)則,根據(jù)現(xiàn)有的信息預(yù)測(cè)未來的發(fā)展趨勢(shì),從信息海洋中發(fā)現(xiàn)知識(shí)。戰(zhàn)略分析包括信息采集、信息加工、信息檢索、信息分析、信息應(yīng)用等部分,通過完整的價(jià)值鏈體系,將信息文獻(xiàn)升值為技術(shù)發(fā)展方向的情報(bào)。4.4文獻(xiàn)源和數(shù)據(jù)庫的建設(shè)與完善定題服務(wù)也就是根據(jù)用戶需求,情報(bào)人員主動(dòng)進(jìn)行調(diào)查,確定服務(wù)專題,以提供必要的情報(bào)資料或相應(yīng)文獻(xiàn)的方式,主動(dòng)、持續(xù)、系統(tǒng)地向客戶提供服務(wù)。定題服務(wù)同樣也需要從大量紛繁復(fù)雜的信息中提取有價(jià)值的信息,進(jìn)行深層次的加工即情報(bào)研究,同時(shí)對(duì)動(dòng)態(tài)信息進(jìn)行即時(shí)跟蹤。定題服務(wù)、檢索查新要求的文獻(xiàn)源也呈多元化,信息量呈幾何級(jí)數(shù)迅速膨脹。僅Dialog國際聯(lián)機(jī)系統(tǒng)就囊括了600多個(gè)大型數(shù)據(jù)庫,而且涉及范圍相當(dāng)廣泛,包括了自然科學(xué)、社會(huì)科學(xué)、工程技術(shù)、人文科學(xué)、商業(yè)經(jīng)濟(jì)、報(bào)紙新聞等各個(gè)領(lǐng)域。人們常用的Google搜索引擎,目前就已包含有20多億個(gè)站點(diǎn),30多億個(gè)網(wǎng)頁,其中中文網(wǎng)頁就有3000多萬個(gè)。要想查準(zhǔn)、查全,除了需要科學(xué)地制定檢索策略和方案,確定解決問題的正確途徑,還需要以數(shù)據(jù)挖掘技術(shù)為核心的情報(bào)系統(tǒng)的支持,從傳統(tǒng)的、檢索式的定題情報(bào)提供的服務(wù)方式上升為從廣博的網(wǎng)上資源和數(shù)據(jù)庫中自動(dòng)挖掘,并通過互聯(lián)網(wǎng)主動(dòng)地把信息或知識(shí)推送給用戶的服務(wù)方式;給出的查新分析報(bào)告經(jīng)數(shù)據(jù)挖掘中的聯(lián)機(jī)分析處理,提供了對(duì)多維信息的分析手段和對(duì)眾多數(shù)據(jù)庫采集、凈化得到的數(shù)據(jù)倉庫,其分析結(jié)果更加可靠。5基于數(shù)據(jù)挖掘技術(shù)的情報(bào)信息加工情報(bào)規(guī)劃和情報(bào)資
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版銷售會(huì)議服務(wù)標(biāo)準(zhǔn)合同
- 2024版物流運(yùn)輸合同:運(yùn)費(fèi)支付與違約責(zé)任
- 保障房轉(zhuǎn)租合同范本
- 2024林業(yè)土地承包合同中林地開發(fā)與利用協(xié)議
- 2024提高網(wǎng)絡(luò)信息傳播效果政府項(xiàng)目承包合同3篇
- 2024股東股權(quán)質(zhì)押與貸款合同
- 2024年食品生產(chǎn)加工企業(yè)質(zhì)量檢測(cè)合同
- 專題02 生物的基本單位(解析版)
- 2024幼兒園食堂家長滿意度提升與承包服務(wù)協(xié)議3篇
- 養(yǎng)豬場(chǎng)清潔工程合同
- 草學(xué)類專業(yè)生涯發(fā)展展示
- 法理學(xué)課件馬工程
- 《玉米種植技術(shù)》課件
- 2024年廣東省公務(wù)員錄用考試《行測(cè)》真題及解析
- 輔導(dǎo)員年度述職報(bào)告
- M200a電路分析(電源、藍(lán)牙、FM)
- 七年級(jí)歷史試卷上冊(cè)可打印
- 2024-2030年全球及中國洞察引擎行業(yè)市場(chǎng)現(xiàn)狀供需分析及市場(chǎng)深度研究發(fā)展前景及規(guī)劃可行性分析研究報(bào)告
- 《東南亞經(jīng)濟(jì)與貿(mào)易》習(xí)題集、案例、答案、參考書目
- 燒烤店裝修合同范文模板
- 2024年中國櫻桃番茄種市場(chǎng)調(diào)查研究報(bào)告
評(píng)論
0/150
提交評(píng)論