基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究

上傳人：笑*** IP屬地：廣東上傳時間：2022-09-25 格式：DOCX 頁數(shù)：5 大小：17.89KB 積分：12 舉報 版權(quán)申訴

基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究_第2頁

免費預(yù)覽已結(jié)束，剩余3頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、PAGE 5 -基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究1總體思路基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)是一個基于網(wǎng)絡(luò)技術(shù)的集成企業(yè)現(xiàn)有信息的資源、設(shè)備資源、現(xiàn)代管理機制及員工知識于一體的有機整體1。通過硬件軟件的輔助，引入數(shù)據(jù)挖掘技術(shù)等，最終實現(xiàn)一個基于Intranet的計算機輔助系統(tǒng)。本文在競爭情報系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù)，同時添入一個競爭情報預(yù)處理系統(tǒng)，該系統(tǒng)對數(shù)據(jù)采集器收集到的數(shù)據(jù)進(jìn)行合并、過濾、自動分類，文本預(yù)處理等，從而為競爭情報分析系統(tǒng)更有效率的數(shù)據(jù)處理提供保障?；跀?shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)由情報數(shù)據(jù)收集系統(tǒng)、情報數(shù)據(jù)預(yù)處理系統(tǒng)、競爭情報分析系統(tǒng)和競爭情報服務(wù)系統(tǒng)構(gòu)成。2各子系統(tǒng)功

2、能及構(gòu)建2.1情報數(shù)據(jù)采集系統(tǒng)企業(yè)的情報信息通常分為：企業(yè)外部信息，包括Internet信息、報刊雜志、政府文件等；企業(yè)內(nèi)部信息，如企業(yè)生產(chǎn)報告、市場報告、結(jié)構(gòu)化數(shù)據(jù)、人際網(wǎng)絡(luò)消息等；內(nèi)外交叉信息。根據(jù)信息分類，通過網(wǎng)絡(luò)蜘蛛自動抓取Internet信息；通過人工方式對紙質(zhì)信息、企業(yè)內(nèi)部文件等進(jìn)行采集；企業(yè)提供的結(jié)構(gòu)化數(shù)據(jù)直接存入數(shù)據(jù)庫。2.2情報數(shù)據(jù)預(yù)處理系統(tǒng)本系統(tǒng)的主要功能是將競爭情報系統(tǒng)數(shù)據(jù)倉庫中的信息進(jìn)行合并、過濾、提取、自動分類，進(jìn)行初步的篩選、處理，從而為競爭情報分析系統(tǒng)更有效率的數(shù)據(jù)處理提供保障。在將搜集處理之后的中文文本數(shù)據(jù)轉(zhuǎn)換為適合數(shù)據(jù)挖掘的中文文本信息時，需要對中文文本進(jìn)行分

3、詞和特征詞的過濾。這樣可以使機器識別出文本集中的中文詞組，有益于文本的特征表示，并將隱含有較高文本信息量的特征詞保留下來。在對文本數(shù)據(jù)進(jìn)行挖掘前，通常會先為文本內(nèi)容找到一種合理的表示方法2，本文采用向量空間模型（VSM模型）。在計算權(quán)值時采用TF.IDF方法，由于各個詞條的量綱不盡相同或數(shù)值范圍相差較大，因此，還需要進(jìn)行規(guī)一化處理。如果僅使用TF.IDF來計算特征詞的權(quán)重，忽略了特征詞在文本中所處位置和特征詞長度這兩個重要的信息。那么此方法計算的權(quán)重并不能準(zhǔn)確反映特征詞在文章中的重要程度。因此本文在確定每個特征詞的權(quán)值時采用改進(jìn)的TF.IDF公式，考慮特征詞的位置、長度、包含信息。2.3競爭情

4、報分析系統(tǒng)數(shù)據(jù)經(jīng)過預(yù)處理，為數(shù)據(jù)挖掘的實現(xiàn)準(zhǔn)備了良好的數(shù)據(jù)環(huán)境，開展數(shù)據(jù)挖掘的條件就己經(jīng)成熟。本文在進(jìn)行數(shù)據(jù)挖掘時，首先應(yīng)用投影尋蹤技術(shù)對文本進(jìn)行特征降維，將高維文本投影到二維空間，再對已經(jīng)投影到低維空間的文本集采用簡單K-means法聚類，從而實現(xiàn)對采集的企業(yè)信息數(shù)據(jù)的聚類。在投影尋蹤模型中一般是將高維空間投影到一維至三維空間中去。因為投影到一維至三維上才可以得到較為直觀的實驗結(jié)果。究竟將文本向量投影到幾維空間才較為恰當(dāng)，是值得我們考慮的一個問題。因為不僅需要考慮文本聚類效果，還需要考慮算法的時間、空間復(fù)雜度。一般情況下，利用投影尋蹤模型都是將m維的向量空間投影到一個一維的向量上去，即線性投

5、影。但是，高維的文本向量投影到一個一維空間后，太多的文本特征信息將丟失，影響聚類效果。因此，本課題選擇了將多維的文本向量利用投影尋蹤模型投影到二維平面，以期保留更多的文本信息，實現(xiàn)更好的聚類效果。將多維文本向量投影到二維平面上的步驟如下：第一步：計算特征詞矩陣。每一個文本doci生成一個m維特征向量Wi（wil，wi2，wim），（i=l，2，n）。n個文本構(gòu)成一個向量空間：W=W1，W2，WmT=（wik）nm。第二步：利用投影尋蹤模型將m維的向量空間投影到二維空間。令x=（x1，x2，xm），y=（y1，y2，ym）均為m維單位向量（即|x|=1，|y|=1），表示的是向量空間模型被投影到

6、的兩個方向。則dxi、dyi分別是文本doci在方向x、y上的投影特征值，cosa表示這兩個方向的夾的銳角或直角，由這兩條單位向量可確定的一個平面A。這樣完成了m維的向量空間到一個平面上的投影。將文本doci在兩個方向的投影特征值（dxi、dyi）看成是文本在這個投影平面A上投影點的坐標(biāo)值，先通過坐標(biāo)值來判斷投影點間的距離，再據(jù)此對文本聚類。由于兩個投影方向不一定是直角坐標(biāo)，所以在求投影點間歐式距離時應(yīng)將其轉(zhuǎn)化為直角坐標(biāo)系中去求。第三步：構(gòu)造投影指標(biāo)函數(shù)。投影尋蹤指標(biāo)構(gòu)造可以使用K-L信息散度、Friedman-Tukey投影指標(biāo)、Friedman投影指標(biāo)等方法。由于聚類分析是對文本集進(jìn)行合理

7、分類，使類內(nèi)相關(guān)度大而類間相關(guān)度小。為此，構(gòu)造目標(biāo)函數(shù)既要考慮文本的類內(nèi)相關(guān)度，又要考慮文本類間相關(guān)度，本文選用了Friedman-Tukey投影指標(biāo)法，將目標(biāo)函數(shù)Q（a）定義為類間距離s（a）與類內(nèi)密度d（a）的乘積，即：Q（a）=s（a）*d（a）。聚類目標(biāo)是使得Q（a）最大，類間距離采用文本集的投影特征值方差計算。第四步：優(yōu)化投影平面。投影尋蹤的關(guān)鍵問題是尋找最優(yōu)的投影平面A，使得目標(biāo)函數(shù)Q（a）取得最大值，于是，尋找最優(yōu)投影平面的問題轉(zhuǎn)化為下面公式所示的優(yōu)化問題，可用遺傳算法進(jìn)行求解。由于標(biāo)準(zhǔn)遺傳算法的交叉、變異、選擇等操作一般都是在概率意義下隨機進(jìn)行的，雖保證了種群的群體進(jìn)化性，但一

8、定程度上不可避免的出現(xiàn)退化現(xiàn)象。為提高遺傳算法的全局收斂性和整體算法性能，本課題采用一種改進(jìn)的遺傳算法-基于實數(shù)編碼的加速免疫遺傳算法。第五步：綜合評價分析。根據(jù)最優(yōu)投影平面，計算反映各評價指標(biāo)綜合信息的投影特征值dxi、dyi，（i=1，n），用它們表示文本的特征，根據(jù)差異水平對文本集綜合分析，得出聚類結(jié)果。通過上面介紹的投影尋蹤技術(shù)將高維的文本向量空間模型降低到一個二維平面，文本投影點有了較好的聚類效果。但是機器卻不能識別文本到底被聚成了幾類。因此需要在二維的投影空間上繼續(xù)使用相關(guān)聚類算法將文本進(jìn)行聚類。由于通過降維處理后，可以在這最優(yōu)投影平面上識別出文本集中到底包含了幾個文本類，再采用簡

9、單的K-means劃分法對文本聚類即可。2.4情報服務(wù)系統(tǒng)將處理后的情報信息向用戶展示，并提供了多種服務(wù)。分類情報實時瀏覽是情報服務(wù)最基本的功能；海量的情報信息需要提供全文檢索服務(wù)的接口，通過用戶提交的關(guān)鍵字和相關(guān)信息及時反饋給用戶最相關(guān)的檢索結(jié)果；提供一個情報用戶和競爭情報人員的互動平臺。通過情報分析子系統(tǒng)中情報分類分析技術(shù)，可以將情報按構(gòu)成要素分為所需的幾類，服務(wù)子系統(tǒng)將為用戶提供分層次、分權(quán)限、分級別的情報。3結(jié)束語本文根據(jù)構(gòu)建企業(yè)競爭情報系統(tǒng)的指導(dǎo)原則，針對現(xiàn)有的企業(yè)競爭情報系統(tǒng)存在著分析功能不全面、適用范圍較小、更新不方便等缺陷，在系統(tǒng)中使用數(shù)據(jù)挖掘技術(shù)，充分實現(xiàn)其分析功能，為企業(yè)決策服務(wù)

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究

文檔簡介

溫馨提示

最新文檔

評論

基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔