基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究_第1頁
基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究_第2頁
免費預(yù)覽已結(jié)束,剩余3頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、PAGE 5 -基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究1總體思路基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)是一個基于網(wǎng)絡(luò)技術(shù)的集成企業(yè)現(xiàn)有信息的資源、設(shè)備資源、現(xiàn)代管理機制及員工知識于一體的有機整體1。通過硬件軟件的輔助,引入數(shù)據(jù)挖掘技術(shù)等,最終實現(xiàn)一個基于Intranet的計算機輔助系統(tǒng)。本文在競爭情報系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù),同時添入一個競爭情報預(yù)處理系統(tǒng),該系統(tǒng)對數(shù)據(jù)采集器收集到的數(shù)據(jù)進(jìn)行合并、過濾、自動分類,文本預(yù)處理等,從而為競爭情報分析系統(tǒng)更有效率的數(shù)據(jù)處理提供保障?;跀?shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)由情報數(shù)據(jù)收集系統(tǒng)、情報數(shù)據(jù)預(yù)處理系統(tǒng)、競爭情報分析系統(tǒng)和競爭情報服務(wù)系統(tǒng)構(gòu)成。2各子系統(tǒng)功

2、能及構(gòu)建2.1情報數(shù)據(jù)采集系統(tǒng)企業(yè)的情報信息通常分為:企業(yè)外部信息,包括Internet信息、報刊雜志、政府文件等;企業(yè)內(nèi)部信息,如企業(yè)生產(chǎn)報告、市場報告、結(jié)構(gòu)化數(shù)據(jù)、人際網(wǎng)絡(luò)消息等;內(nèi)外交叉信息。根據(jù)信息分類,通過網(wǎng)絡(luò)蜘蛛自動抓取Internet信息;通過人工方式對紙質(zhì)信息、企業(yè)內(nèi)部文件等進(jìn)行采集;企業(yè)提供的結(jié)構(gòu)化數(shù)據(jù)直接存入數(shù)據(jù)庫。2.2情報數(shù)據(jù)預(yù)處理系統(tǒng)本系統(tǒng)的主要功能是將競爭情報系統(tǒng)數(shù)據(jù)倉庫中的信息進(jìn)行合并、過濾、提取、自動分類,進(jìn)行初步的篩選、處理,從而為競爭情報分析系統(tǒng)更有效率的數(shù)據(jù)處理提供保障。在將搜集處理之后的中文文本數(shù)據(jù)轉(zhuǎn)換為適合數(shù)據(jù)挖掘的中文文本信息時,需要對中文文本進(jìn)行分

3、詞和特征詞的過濾。這樣可以使機器識別出文本集中的中文詞組,有益于文本的特征表示,并將隱含有較高文本信息量的特征詞保留下來。在對文本數(shù)據(jù)進(jìn)行挖掘前,通常會先為文本內(nèi)容找到一種合理的表示方法2,本文采用向量空間模型(VSM模型)。在計算權(quán)值時采用TF.IDF方法,由于各個詞條的量綱不盡相同或數(shù)值范圍相差較大,因此,還需要進(jìn)行規(guī)一化處理。如果僅使用TF.IDF來計算特征詞的權(quán)重,忽略了特征詞在文本中所處位置和特征詞長度這兩個重要的信息。那么此方法計算的權(quán)重并不能準(zhǔn)確反映特征詞在文章中的重要程度。因此本文在確定每個特征詞的權(quán)值時采用改進(jìn)的TF.IDF公式,考慮特征詞的位置、長度、包含信息。2.3競爭情

4、報分析系統(tǒng)數(shù)據(jù)經(jīng)過預(yù)處理,為數(shù)據(jù)挖掘的實現(xiàn)準(zhǔn)備了良好的數(shù)據(jù)環(huán)境,開展數(shù)據(jù)挖掘的條件就己經(jīng)成熟。本文在進(jìn)行數(shù)據(jù)挖掘時,首先應(yīng)用投影尋蹤技術(shù)對文本進(jìn)行特征降維,將高維文本投影到二維空間,再對已經(jīng)投影到低維空間的文本集采用簡單K-means法聚類,從而實現(xiàn)對采集的企業(yè)信息數(shù)據(jù)的聚類。在投影尋蹤模型中一般是將高維空間投影到一維至三維空間中去。因為投影到一維至三維上才可以得到較為直觀的實驗結(jié)果。究竟將文本向量投影到幾維空間才較為恰當(dāng),是值得我們考慮的一個問題。因為不僅需要考慮文本聚類效果,還需要考慮算法的時間、空間復(fù)雜度。一般情況下,利用投影尋蹤模型都是將m維的向量空間投影到一個一維的向量上去,即線性投

5、影。但是,高維的文本向量投影到一個一維空間后,太多的文本特征信息將丟失,影響聚類效果。因此,本課題選擇了將多維的文本向量利用投影尋蹤模型投影到二維平面,以期保留更多的文本信息,實現(xiàn)更好的聚類效果。將多維文本向量投影到二維平面上的步驟如下:第一步:計算特征詞矩陣。每一個文本doci生成一個m維特征向量Wi(wil,wi2,wim),(i=l,2,n)。n個文本構(gòu)成一個向量空間:W=W1,W2,WmT=(wik)nm。第二步:利用投影尋蹤模型將m維的向量空間投影到二維空間。令x=(x1,x2,xm),y=(y1,y2,ym)均為m維單位向量(即|x|=1,|y|=1),表示的是向量空間模型被投影到

6、的兩個方向。則dxi、dyi分別是文本doci在方向x、y上的投影特征值,cosa表示這兩個方向的夾的銳角或直角,由這兩條單位向量可確定的一個平面A。這樣完成了m維的向量空間到一個平面上的投影。將文本doci在兩個方向的投影特征值(dxi、dyi)看成是文本在這個投影平面A上投影點的坐標(biāo)值,先通過坐標(biāo)值來判斷投影點間的距離,再據(jù)此對文本聚類。由于兩個投影方向不一定是直角坐標(biāo),所以在求投影點間歐式距離時應(yīng)將其轉(zhuǎn)化為直角坐標(biāo)系中去求。第三步:構(gòu)造投影指標(biāo)函數(shù)。投影尋蹤指標(biāo)構(gòu)造可以使用K-L信息散度、Friedman-Tukey投影指標(biāo)、Friedman投影指標(biāo)等方法。由于聚類分析是對文本集進(jìn)行合理

7、分類,使類內(nèi)相關(guān)度大而類間相關(guān)度小。為此,構(gòu)造目標(biāo)函數(shù)既要考慮文本的類內(nèi)相關(guān)度,又要考慮文本類間相關(guān)度,本文選用了Friedman-Tukey投影指標(biāo)法,將目標(biāo)函數(shù)Q(a)定義為類間距離s(a)與類內(nèi)密度d(a)的乘積,即:Q(a)=s(a)*d(a)。聚類目標(biāo)是使得Q(a)最大,類間距離采用文本集的投影特征值方差計算。第四步:優(yōu)化投影平面。投影尋蹤的關(guān)鍵問題是尋找最優(yōu)的投影平面A,使得目標(biāo)函數(shù)Q(a)取得最大值,于是,尋找最優(yōu)投影平面的問題轉(zhuǎn)化為下面公式所示的優(yōu)化問題,可用遺傳算法進(jìn)行求解。由于標(biāo)準(zhǔn)遺傳算法的交叉、變異、選擇等操作一般都是在概率意義下隨機進(jìn)行的,雖保證了種群的群體進(jìn)化性,但一

8、定程度上不可避免的出現(xiàn)退化現(xiàn)象。為提高遺傳算法的全局收斂性和整體算法性能,本課題采用一種改進(jìn)的遺傳算法-基于實數(shù)編碼的加速免疫遺傳算法。第五步:綜合評價分析。根據(jù)最優(yōu)投影平面,計算反映各評價指標(biāo)綜合信息的投影特征值dxi、dyi,(i=1,n),用它們表示文本的特征,根據(jù)差異水平對文本集綜合分析,得出聚類結(jié)果。通過上面介紹的投影尋蹤技術(shù)將高維的文本向量空間模型降低到一個二維平面,文本投影點有了較好的聚類效果。但是機器卻不能識別文本到底被聚成了幾類。因此需要在二維的投影空間上繼續(xù)使用相關(guān)聚類算法將文本進(jìn)行聚類。由于通過降維處理后,可以在這最優(yōu)投影平面上識別出文本集中到底包含了幾個文本類,再采用簡

9、單的K-means劃分法對文本聚類即可。2.4情報服務(wù)系統(tǒng)將處理后的情報信息向用戶展示,并提供了多種服務(wù)。分類情報實時瀏覽是情報服務(wù)最基本的功能;海量的情報信息需要提供全文檢索服務(wù)的接口,通過用戶提交的關(guān)鍵字和相關(guān)信息及時反饋給用戶最相關(guān)的檢索結(jié)果;提供一個情報用戶和競爭情報人員的互動平臺。通過情報分析子系統(tǒng)中情報分類分析技術(shù),可以將情報按構(gòu)成要素分為所需的幾類,服務(wù)子系統(tǒng)將為用戶提供分層次、分權(quán)限、分級別的情報。3結(jié)束語本文根據(jù)構(gòu)建企業(yè)競爭情報系統(tǒng)的指導(dǎo)原則,針對現(xiàn)有的企業(yè)競爭情報系統(tǒng)存在著分析功能不全面、適用范圍較小、更新不方便等缺陷,在系統(tǒng)中使用數(shù)據(jù)挖掘技術(shù),充分實現(xiàn)其分析功能,為企業(yè)決策服務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論