電力文本挖掘技術(shù)研究.docx_第1頁(yè)
電力文本挖掘技術(shù)研究.docx_第2頁(yè)
電力文本挖掘技術(shù)研究.docx_第3頁(yè)
電力文本挖掘技術(shù)研究.docx_第4頁(yè)
電力文本挖掘技術(shù)研究.docx_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、電力文本挖掘技術(shù)研究1引言當(dāng)前,大數(shù)據(jù)云計(jì)算研究的成熟與發(fā)展推動(dòng)著電子化自動(dòng)化技術(shù) 的產(chǎn)業(yè)應(yīng)用。智能電網(wǎng)的管理、服務(wù)、監(jiān)測(cè)、運(yùn)行、診斷、營(yíng)銷(xiāo)、評(píng) 估等方方而而的工作開(kāi)始獲得一體化聯(lián)網(wǎng)管理模式。信息的高度集中 使得大量的非結(jié)構(gòu)化關(guān)鍵性數(shù)據(jù)與內(nèi)容存在于各類(lèi)形式以及多種來(lái) 源的文木文件中。井噴式增長(zhǎng)的電力大數(shù)據(jù)對(duì)于智能電網(wǎng)的研究意義 己獲得業(yè)內(nèi)普遍認(rèn)可。它既是智能電網(wǎng)發(fā)展的前沿領(lǐng)域,也是關(guān)鍵技 術(shù)基礎(chǔ)。作為資源密集型的電網(wǎng)企業(yè),大數(shù)據(jù)資源的科學(xué)統(tǒng)籌管理與 綜合分析是關(guān)鍵任務(wù)之一。電力文本數(shù)據(jù)具有的數(shù)據(jù)體量大、類(lèi)型豐 富、信息密度低、更新速度快的特征。其中,數(shù)據(jù)體量大,指24小 時(shí)全時(shí)段無(wú)間歇運(yùn)作的電

2、力設(shè)備系統(tǒng)不斷產(chǎn)生數(shù)目龐大的數(shù)據(jù);類(lèi)型 豐富,指電力數(shù)據(jù)描述電力系統(tǒng)運(yùn)行的方方而而包括設(shè)備運(yùn)行監(jiān)測(cè)診 斷維護(hù),電網(wǎng)公司運(yùn)營(yíng)評(píng)估,客戶相關(guān)信息報(bào)告,呈現(xiàn)數(shù)據(jù)形式多樣, 數(shù)據(jù)來(lái)源多樣,數(shù)據(jù)內(nèi)容多樣的現(xiàn)象;價(jià)值密度低,指異常數(shù)據(jù)占比 低,但數(shù)據(jù)價(jià)值高。因此采用文木挖掘技術(shù)挖掘電力文本具有很高的 應(yīng)用意義。目前,文本挖掘技術(shù)主要被應(yīng)用于醫(yī)學(xué)信息、生物學(xué)、社 交媒體等領(lǐng)域,而在電力行業(yè)內(nèi)則停留于研究實(shí)驗(yàn)階段。人工智能及 其子方向自然語(yǔ)言處理理論與技術(shù)的發(fā)展為電力文本挖掘的實(shí)現(xiàn)提供先決條件。與此同時(shí),電力企業(yè)長(zhǎng)期運(yùn)營(yíng)所積累的大量數(shù)據(jù)為電力 文木挖掘的研究提供數(shù)據(jù)保障。電力行業(yè)經(jīng)過(guò)長(zhǎng)期發(fā)展,在數(shù)據(jù)管理 分類(lèi)

3、,規(guī)程規(guī)章,數(shù)據(jù)體制方面有較高的完整性和統(tǒng)一性。上述三點(diǎn) 為未來(lái)完全實(shí)現(xiàn)對(duì)電力文本的自動(dòng)化知識(shí)與關(guān)鍵內(nèi)容獲取具有可行 性以及技術(shù)保障。根據(jù)電力文木挖掘技術(shù)目前的研究探索與實(shí)驗(yàn),本 文將就電力文本挖掘技術(shù)的研究成果與初期應(yīng)用探索展開(kāi)討論。重點(diǎn) 就文木挖掘技術(shù)及其電力領(lǐng)域應(yīng)用、研究現(xiàn)狀、未來(lái)工作與挑戰(zhàn)做簡(jiǎn) 要分析。2文本挖掘技術(shù)文本挖掘作為自然語(yǔ)言處理與數(shù)據(jù)挖掘的交叉應(yīng)用,該概念于 20世紀(jì)80年代中期被正式提出,至今以經(jīng)過(guò)30多年的發(fā)展。隨著 大數(shù)據(jù)時(shí)代的到來(lái),該項(xiàng)技術(shù)重新受到關(guān)注與應(yīng)用。文本挖掘的主要 任務(wù)是從大量現(xiàn)有非結(jié)構(gòu)化文木數(shù)據(jù)中挖掘未知的、價(jià)值高的、高可 用的結(jié)構(gòu)化知識(shí),并應(yīng)用于信息管

4、理、組織、歸納、二次利用。文本 挖掘技術(shù)主要涉及三方面的內(nèi)容。如圖所示,文本挖掘的發(fā)展主要 基于深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、概率統(tǒng)計(jì)為理論依據(jù)。換 言之,文本挖掘是上述理論的具體任務(wù)。技術(shù)基礎(chǔ)部分主要包含文木 信息抽取、文本分類(lèi)、文本聚類(lèi)、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理。在 此基礎(chǔ)之上主要應(yīng)用信息訪問(wèn)和知識(shí)發(fā)現(xiàn),其中信息訪問(wèn)具體涉及信 息檢索、信息瀏覽、信息過(guò)濾、信息報(bào)告,知識(shí)發(fā)現(xiàn)則涉及數(shù)據(jù)分析、 數(shù)據(jù)預(yù)測(cè)。具體應(yīng)用領(lǐng)域主要覆蓋于醫(yī)學(xué)生物以及社交媒體信息的研 究,如醫(yī)學(xué)知識(shí)圖譜構(gòu)建,電子病歷自動(dòng)處理,文獻(xiàn)自動(dòng)閱讀、用戶 行為分析、情感分析、話題熱度監(jiān)測(cè)及分析等方面的工作。3文本挖掘3.1文本

5、挖掘難點(diǎn)文木挖掘的難點(diǎn)主要來(lái)源于兩個(gè)方而一一文木數(shù)據(jù)和應(yīng)用領(lǐng)域。 文木作為一種非結(jié)構(gòu)數(shù)據(jù),本身存在諸多難點(diǎn)需要克服。文本作為語(yǔ) 言的一種表示形式以及種類(lèi)多樣,不同語(yǔ)種的語(yǔ)法不同,無(wú)統(tǒng)一且機(jī) 器可理解的形式與規(guī)則。第二,從語(yǔ)言學(xué)的角度看,文本本身存在諸 多語(yǔ)言學(xué)現(xiàn)象,使得理解過(guò)程中容易岀現(xiàn)歧義和模糊,為機(jī)器理解增 添難度。第三,缺乏高可用且評(píng)估性能高的數(shù)據(jù)集。除了針對(duì)社交類(lèi)、 新聞?lì)惖乳_(kāi)放性文本以外,文木挖掘技術(shù)的價(jià)值更是應(yīng)用于生物醫(yī)學(xué)、 教育教學(xué)、電力電網(wǎng)等社會(huì)或生產(chǎn)領(lǐng)域中。無(wú)論是開(kāi)放性文木或是領(lǐng) 域性文木,都需要結(jié)合應(yīng)用場(chǎng)景和所用語(yǔ)言做出針對(duì)性的、準(zhǔn)確的、 高效的文本挖掘工具。從宏觀上看,這

6、類(lèi)工具的魯棒性較差,效果欠 佳,目前尚無(wú)解決方案。由于電力行業(yè)的文本一般是人工書(shū)寫(xiě)完成, 存在一定數(shù)量的書(shū)寫(xiě)錯(cuò)誤,語(yǔ)法錯(cuò)誤、歧義錯(cuò)誤等。因此,在文本挖 掘過(guò)程中,容錯(cuò)性以及錯(cuò)誤理解性也是數(shù)據(jù)處理人員需要優(yōu)化解決的 一項(xiàng)挑戰(zhàn)。除此之外,領(lǐng)域性文本也包含了大量表格型數(shù)據(jù)。因此, 針對(duì)這類(lèi)數(shù)據(jù)的挖掘也是文本挖掘中的一項(xiàng)重要子任務(wù)。3.2電力文木挖掘方法3.2.1電力文本挖掘預(yù)處理與一般的文本挖掘不同,電力文本挖 掘在考慮確定問(wèn)題需求的初始階段時(shí),需要就文本類(lèi)型做基于電力專(zhuān) 業(yè)知識(shí)的內(nèi)容分析。電力行業(yè)涉及的文本類(lèi)型豐富,來(lái)自不同部門(mén)、 不同崗位、不同設(shè)備、不同領(lǐng)導(dǎo)層次等等,且這一特點(diǎn)具體體現(xiàn)在文 本挖

7、掘的各項(xiàng)子任務(wù)中。如命名實(shí)體識(shí)別 (NamedEntityRecognition,NER),是實(shí)現(xiàn)文本分類(lèi),自動(dòng)評(píng)估、自動(dòng) 篩檢的基礎(chǔ)任務(wù)。其具體目標(biāo)是從電力數(shù)據(jù)文本中識(shí)別出關(guān)鍵的指定 性?xún)?nèi)容,如工程屬性,設(shè)備名稱(chēng)、運(yùn)行數(shù)據(jù)等,從電力專(zhuān)業(yè)的角度實(shí) 現(xiàn)關(guān)鍵信息的抽取和分類(lèi)。電力文本常以非結(jié)構(gòu)化的自由數(shù)據(jù)形式存 在,因此在進(jìn)行文木挖掘的初始準(zhǔn)備階段,需要完成文本數(shù)據(jù)預(yù)處理 以及文本表示的工作,之后才能進(jìn)行文本挖掘工作。文本預(yù)處理的具 體工作一般包含中文分詞、取停用詞、詞性標(biāo)注等。除此之外,預(yù)處 理工作中一項(xiàng)重要子任務(wù)是構(gòu)建電力文本問(wèn)題語(yǔ)料庫(kù)并在此基礎(chǔ)之 上建立領(lǐng)域性字典。其中在語(yǔ)料庫(kù)數(shù)據(jù)采集上,需

8、要盡可能保證數(shù)據(jù) 集的平衡性和多樣性。換言之,我們需要盡量從電力部門(mén)現(xiàn)有的各類(lèi) 文木數(shù)據(jù)中選取,如電力設(shè)備的運(yùn)行、維護(hù)、測(cè)試報(bào)告或日志,供電局現(xiàn)場(chǎng)維修記錄單、工單,電力行業(yè)工作守則、指南、標(biāo)準(zhǔn)等等。在 此基礎(chǔ)之上,結(jié)合現(xiàn)有的通用字典,在優(yōu)先完成去除停用詞的前提下, 采用基于統(tǒng)計(jì)的分詞方法,如隱馬爾科夫鏈或是條件隨機(jī)場(chǎng)模型等對(duì) 文木做分詞處理,并根據(jù)詞頻做排序,之后還需要電力專(zhuān)業(yè)人員做人 工校正并進(jìn)行補(bǔ)充更新,以保證字典的科學(xué)性、準(zhǔn)確性和及時(shí)性,為 之后的工作提供數(shù)據(jù)保障和資源支持。3.2.2電力文木的表示方法除了高效準(zhǔn)確平衡的數(shù)據(jù)集之外,在 被廣泛應(yīng)用的深度學(xué)習(xí)模型算法中,文本數(shù)據(jù)的計(jì)算機(jī)可理

9、解化表示 是電力文本數(shù)據(jù)挖掘過(guò)程中需要解決的另一個(gè)問(wèn)題。常用的表示方法 有空間向量模型、嵌入式向量模型、正則表達(dá)式、樹(shù)結(jié)構(gòu)模型等。不 同模型的側(cè)重點(diǎn)有區(qū)別,需要基于任務(wù)目標(biāo)合理選擇。如前文所提到 的,常用的兩類(lèi)向量表示方法中空間向量模型主要關(guān)注句子的整體內(nèi) 容而忽略句中詞語(yǔ)的順序;嵌入式向量模型則關(guān)注于句子中的關(guān)鍵信 息的內(nèi)涵以及優(yōu)先級(jí)排序。目前,處理這類(lèi)問(wèn)題的主流方法是詞袋方 法以及Word2Vec方法?;谙蛄靠臻g模型的詞袋方法簡(jiǎn)單且可操作 性強(qiáng),但是以升高維度和忽略上下文內(nèi)容為代價(jià)。而Word2Vec則是 由目前被廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得的,因此,相較于詞袋方法, 具有詞向量緯度的特點(diǎn)

10、,且通過(guò)計(jì)算向量相似度的手段在訓(xùn)練階段即 考慮上下文對(duì)模型以及最終預(yù)測(cè)結(jié)果的影響。Doc2Vec則是基于Word2Vec發(fā)展起來(lái)的方法,旨在實(shí)現(xiàn)抽取主要內(nèi)容實(shí)現(xiàn)文本摘要的 工作。3.3命名實(shí)體識(shí)別以及關(guān)系抽取廣譜型的命名實(shí)體識(shí)別旨在識(shí)別出現(xiàn)在文本數(shù)據(jù)中的人名、地名、 機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比,而領(lǐng)域型的命名實(shí)體識(shí)別則更 加注重研究、設(shè)備運(yùn)營(yíng)以及生產(chǎn)領(lǐng)域文本數(shù)據(jù)的類(lèi)別性的關(guān)鍵實(shí)體內(nèi) 容抽取工作,也是實(shí)現(xiàn)構(gòu)建電力系統(tǒng)知識(shí)圖譜電力文木數(shù)據(jù)分類(lèi)、關(guān) 系抽取、文木摘要的首要任務(wù)之一,包括前文提及的文本數(shù)據(jù)預(yù)處理, 基于專(zhuān)業(yè)知識(shí)的文本數(shù)據(jù)分析、模型訓(xùn)練、測(cè)試等子任務(wù)。針對(duì)電力 文本的數(shù)目多、體量大

11、、內(nèi)容雜的特點(diǎn),命名實(shí)體識(shí)別方法有利于快 速有效的實(shí)現(xiàn)句子關(guān)鍵信息的識(shí)別以及分類(lèi),為之后的命名實(shí)體間的 關(guān)系抽取提供前提保障。如圖2所示,命名實(shí)體識(shí)別的步驟主要包括 數(shù)據(jù)清洗、預(yù)處理、模型訓(xùn)練以及實(shí)體識(shí)別,其中還包含非常重要的 一步,數(shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注的質(zhì)量一定程度上影響著實(shí)體識(shí)別結(jié)果的 準(zhǔn)確性。常用的命名實(shí)體識(shí)別工作是使用條件隨機(jī)場(chǎng)以及深度學(xué)習(xí)的 方法。關(guān)系抽取一般使用基于規(guī)則、監(jiān)督學(xué)習(xí)、半監(jiān)督以及無(wú)監(jiān)督學(xué) 習(xí)?;谝?guī)則的方法是從語(yǔ)法規(guī)則以及語(yǔ)法現(xiàn)象的角度尋找主謂賓、 suchas、including等語(yǔ)言結(jié)構(gòu)。此類(lèi)方法準(zhǔn)確度高,適合垂直場(chǎng)景,但其缺點(diǎn)也很明顯,信息覆蓋率低、人力成木高、設(shè)計(jì)

12、難度高使得這 類(lèi)方法無(wú)法在電力文木數(shù)據(jù)這類(lèi)領(lǐng)域性文本中推廣。而監(jiān)督學(xué)習(xí)提高 了模型的魯棒性,但前期的準(zhǔn)備工作需要專(zhuān)業(yè)性知識(shí)的介入,如定義 關(guān)系和實(shí)體類(lèi)型,并準(zhǔn)備好己標(biāo)注實(shí)體以及關(guān)系的訓(xùn)練數(shù)據(jù)。接下來(lái) 則是提取特征,并對(duì)特征做分類(lèi)。特征包括此特征和位置特征。上述 方法中的數(shù)據(jù)標(biāo)注需要耗費(fèi)大量的人力物力,且對(duì)標(biāo)注人員的專(zhuān)業(yè)性 要求高。但由于其較好的預(yù)測(cè)效果使之依然被應(yīng)用在很多工作中。而 半監(jiān)督學(xué)習(xí)一定程度上解決了監(jiān)督學(xué)習(xí)的這一缺點(diǎn),它只需要少量的 標(biāo)注語(yǔ)料以及大量未被標(biāo)注的預(yù)料數(shù)據(jù),逐漸獲得在生產(chǎn)中獲得應(yīng)用。4結(jié)語(yǔ)文木挖掘是集統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、語(yǔ) 言學(xué)、數(shù)據(jù)庫(kù)技術(shù)等多學(xué)科于一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論