版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、文本數(shù)據(jù)挖掘及其應(yīng)用摘要:隨著Internet上文檔信息的迅猛發(fā)展,文本分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。本文首先對(duì)文本挖掘進(jìn)行了概述包括文本挖掘的研究現(xiàn)狀、主要內(nèi)容、相關(guān)技術(shù)以及熱點(diǎn)難點(diǎn)進(jìn)行了探討,然后通過(guò)兩個(gè)例子簡(jiǎn)單地說(shuō)明了文本挖掘的應(yīng)用問(wèn)題。關(guān)鍵詞:文本挖掘研究現(xiàn)狀相關(guān)技術(shù)應(yīng)用1引言隨著科技的發(fā)展和網(wǎng)絡(luò)的普及,人們可獲得的數(shù)據(jù)量越來(lái)越多,這些數(shù)據(jù)多數(shù)是以文本形式存在的。而這些文本數(shù)據(jù)大多是比較繁雜的,這就導(dǎo)致了數(shù)據(jù)量大但信息卻比較匱乏的狀況。如何從這些繁雜的文本數(shù)據(jù)中獲得有用的信息越來(lái)越受到人們的關(guān)注。在文本文檔中發(fā)現(xiàn)有意義或有用的模式的過(guò)程"n1的文本挖掘技術(shù)為解決這
2、一問(wèn)題提供了一個(gè)有效的途徑。而文本分類技術(shù)是文本挖掘技術(shù)的一個(gè)重要分支,是有效處理和組織錯(cuò)綜復(fù)雜的文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠有效的幫助人們組織和分流信息。2文本挖掘概述2.1 文本挖掘介紹數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對(duì)于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來(lái),可見文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。1)文本挖掘的定義文本挖掘作為數(shù)據(jù)挖掘的一個(gè)新主題引起了人們的極大興趣,同時(shí)它也是一個(gè)富于爭(zhēng)議的研究方向。目前其定義尚無(wú)統(tǒng)一的結(jié)論,需要國(guó)內(nèi)外學(xué)者開展更多的研究以進(jìn)行精確的定義,類似于我們熟知的數(shù)據(jù)挖掘定義。
3、我們對(duì)文本挖掘作如下定義。定義2.1.1文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的可理解的最終可用的信息或知識(shí)的過(guò)程。直觀地說(shuō),當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過(guò)程就稱為文本挖掘。2)文本挖掘的研究現(xiàn)狀國(guó)外對(duì)于文本挖掘的研究開展較早,50年代末,H.P.Luhn在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究,提出了詞頻統(tǒng)計(jì)思想于自動(dòng)分類。1960年,Maron發(fā)表了關(guān)于自動(dòng)分類的第一篇論文,隨后,眾多學(xué)者在這一領(lǐng)域進(jìn)行了卓有成效的研究工作。研究主要有圍繞文本的挖掘模型、文本特征抽取與文本中間表示、文本挖掘算法(如關(guān)聯(lián)規(guī)則抽取、語(yǔ)義關(guān)系挖掘、文本聚類與主題分析、趨勢(shì)分析)、文本挖掘工具等,其中首
4、次將KDD中的只是發(fā)現(xiàn)模型運(yùn)用于KDT。我國(guó)學(xué)術(shù)界正式引入文本挖掘的概念并開展針對(duì)中文的文本挖掘是從最近幾年才開始的。從公開發(fā)表的有代表性的研究成果來(lái)看,目前我國(guó)文本挖掘研究還處于消化吸收國(guó)外相關(guān)的理論和技術(shù)與小規(guī)模實(shí)驗(yàn)階段,還存在如下不足和問(wèn)題:(1)沒(méi)有形成完整的適合中文信息處理的文本挖掘理論與技術(shù)框架。目前的中文文本挖掘研究只是在某些方面和某些狹窄的應(yīng)用領(lǐng)域展開。在技術(shù)手段方面主要是借用國(guó)外針對(duì)英文語(yǔ)料的挖掘技術(shù),沒(méi)有針對(duì)漢語(yǔ)本身的特點(diǎn),沒(méi)有充分利用當(dāng)前的中文信息處理與分析技術(shù)來(lái)構(gòu)建針對(duì)中文文本的文本挖掘模型,限制了中文文本挖掘的進(jìn)一步發(fā)展。(2)中文文本的特征提取與表示大多數(shù)采用詞袋”
5、法,飼袋”法即提取文本高詞頻構(gòu)成特征向量來(lái)表達(dá)文本特征。這樣忽略了詞在文本(句子)中擔(dān)當(dāng)?shù)恼Z(yǔ)法和語(yǔ)義角色,同樣也忽略了詞與詞之間的順序,致使大量有用信息丟失。而且用飼袋”法處理真實(shí)中文文本數(shù)據(jù)時(shí),特征向量的維數(shù)往往是高維的,這將使挖掘算法效率大大降低。(3)知識(shí)挖掘的種類和深度有限,一般只是進(jìn)行文本的分類、聚類或者信息抽取,而且針對(duì)開放語(yǔ)料的實(shí)驗(yàn)結(jié)果也不是很理想。文本挖掘主要內(nèi)容存儲(chǔ)信息使用最多的是文本,所以文本挖掘被認(rèn)為比數(shù)據(jù)挖掘具有更高的商業(yè)潛力,當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過(guò)程就稱為文本數(shù)據(jù)挖掘,事實(shí)上,最近研究表明公司信息有80%包含在文本文檔中。1)文本分類文本
6、分類指按照預(yù)先定義的主題類別,為文檔集合中的每個(gè)文檔確定一個(gè)類別。這樣用戶不但能夠方便地瀏覽文檔,而且可以通過(guò)限制搜索范圍來(lái)使文檔的查找更容易、快捷。目前,用于英文文本分類的分類方法較多,用于中文文本分類的方法較少,主要有樸素貝葉斯分類(Na?VeBayes),向量空間模型(VectorSpaceModel)以及線性最小二乘LLSF(LinearLeastSquareFit)。2)文本聚類聚類與分類的不同之處在于,聚類沒(méi)有預(yù)先定義好的主體類別,它的目標(biāo)是將文檔集合分成若干個(gè)簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能的大,而不同簇之間的相似度盡可能的小。3)文本結(jié)構(gòu)分析其目的是為了更好地理解文本的主
7、題思想,了解文本表達(dá)的內(nèi)容以及采用的方式,最終結(jié)果是建立文本的邏輯結(jié)構(gòu),即文本結(jié)構(gòu)樹,根結(jié)點(diǎn)是文本主題,依次為層次和段落。Web文本數(shù)據(jù)挖掘4在Web迅猛發(fā)展的同時(shí),不能忽視信息爆炸”的問(wèn)題,即信息極大豐富而知識(shí)相對(duì)匱乏。據(jù)估計(jì),Web已經(jīng)發(fā)展成為擁有3億個(gè)頁(yè)面的分布式信息空間,而且這個(gè)數(shù)字仍以每4-6個(gè)月翻1倍的速度增加,在這些大量、異質(zhì)的Web信息資源中,蘊(yùn)含著具有巨大潛在價(jià)值的知識(shí)。人們迫切需要能夠從Web上快速、有效的發(fā)現(xiàn)資源和知識(shí)的工具。文本挖掘目前面臨的問(wèn)題有挖掘算法的效率和可擴(kuò)展性、遺漏及噪聲數(shù)據(jù)的處理、私有數(shù)據(jù)的保護(hù)與數(shù)據(jù)安全性等。文本挖掘技術(shù)1,2文本挖掘不但要處理大量的結(jié)構(gòu)
8、化和非結(jié)構(gòu)化的文檔數(shù)據(jù),而且還要處理其中復(fù)雜的語(yǔ)義關(guān)系,因此,現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無(wú)法直接應(yīng)用于其上。對(duì)于非結(jié)構(gòu)化問(wèn)題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,對(duì)于數(shù)據(jù)非常復(fù)雜,導(dǎo)致這種算法的復(fù)雜性很高;另一條途徑就是將非結(jié)構(gòu)化問(wèn)題結(jié)構(gòu)化,利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘,目前的文本挖掘一般采用該途徑進(jìn)行。對(duì)于語(yǔ)義關(guān)系,則需要集成計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理等成果進(jìn)行分析。我們按照文本挖掘過(guò)程介紹其涉及的主要技術(shù)及其主要進(jìn)展。1)文本數(shù)據(jù)預(yù)處理技術(shù)預(yù)處理技術(shù)包括Stemming(英文)/分詞(中文)、特征表示和特征提取。與數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)相比,文本具有有限的結(jié)構(gòu),或者根本就沒(méi)有
9、結(jié)構(gòu)。此外,文檔的內(nèi)容是人類所使用的自然語(yǔ)言,計(jì)算機(jī)很難處理其語(yǔ)義。文本信息源的這些特殊性使得數(shù)據(jù)預(yù)處理技術(shù)在文本挖掘中更加重要。(1)分詞技術(shù)在對(duì)文檔進(jìn)行特征提取前,需要先進(jìn)行文本信息的預(yù)處理,對(duì)英文而言需要進(jìn)行Stemming處理,中文的情況則不同,因?yàn)橹形脑~與詞之間沒(méi)有固定的間隔符(空格),需要進(jìn)行分詞處理。目前主要有基于詞庫(kù)的分詞算法和無(wú)詞典的分詞技術(shù)兩種?;谠~庫(kù)的分詞算法包括正向最大匹配、正向最小匹配、逆向匹配及逐次遍歷匹配法等。這類算法的特點(diǎn)是易于實(shí)現(xiàn),設(shè)計(jì)簡(jiǎn)單;但分詞的正確性很大程度上取決于所建的詞庫(kù)。因此基于詞庫(kù)的分詞技術(shù)對(duì)于歧義和未登錄詞的切分有很大的困難?;跓o(wú)詞典的分詞
10、技術(shù)的基本思想是:基于詞頻的統(tǒng)計(jì),將原文中任意前后緊鄰的兩個(gè)字作為一個(gè)詞進(jìn)行出現(xiàn)頻率的統(tǒng)計(jì),出現(xiàn)的次數(shù)越高,成為一個(gè)詞的可能性就越大,在頻率超過(guò)某個(gè)預(yù)先設(shè)定的閾值時(shí),就將其作為一個(gè)詞進(jìn)行索引。這種方法能夠有效地提出未登錄詞。(2)特征表示文本特征指的是關(guān)于文本的元數(shù)據(jù),分為描述性特征(如文本的名稱、日期、大小、類型等)和語(yǔ)義性特征(如文本的作者、機(jī)構(gòu)、標(biāo)題、內(nèi)容等)。特征表示是指一定特征項(xiàng)(如詞條或描述)來(lái)代表文檔,在文本挖掘時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理,從而實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本處理。這是一個(gè)非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn)換的處理步驟。特征表示的構(gòu)造過(guò)程就是挖掘模型的構(gòu)造過(guò)程。特征表示模型有多種,常用的有布
11、爾邏輯型、向量空間模型(VectorSpaceModel,VSM)、概率型以及混合型等。W3c近來(lái)制定的XML,RDF等規(guī)范提供了對(duì)Web文檔資源進(jìn)行描述的語(yǔ)言和框架。(3)特征提取用向量空間模型得到的特征向量的維數(shù)往往會(huì)達(dá)到數(shù)十萬(wàn)維,如此高維的特征對(duì)即將進(jìn)行的分類學(xué)習(xí)未必全是重要、有益的(一般只選擇2%-5%的最佳特征作為分類數(shù)據(jù)),而且高維的特征會(huì)大大增加機(jī)器的學(xué)習(xí)時(shí)間,這便是特征提取所要完成的工作。特征提取算法一般是構(gòu)造一個(gè)評(píng)價(jià)函數(shù),對(duì)每個(gè)特征進(jìn)行評(píng)估,然后把特征按分值高低排隊(duì),預(yù)定數(shù)目分?jǐn)?shù)最高的特征被選取。在文本處理中,常用的評(píng)估函數(shù)有信息增益IInformationGain)、互信息
12、(MutualInformation)、文本證據(jù)權(quán)(TheWeightofEvidenceforText)和詞頻。2)文本挖掘分析技術(shù)文本轉(zhuǎn)換為向量形式并經(jīng)特征提取后,便可以進(jìn)行挖掘分析了。常用的文本挖掘分析技術(shù)有:文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián)分析、分布分析和趨勢(shì)預(yù)測(cè)等。(1)文本結(jié)構(gòu)分析其目的是為了更好地理解文本的主題思想,了解文本所表達(dá)的內(nèi)容以及采用的方式。最終結(jié)果是建立文本的邏輯結(jié)構(gòu),即文本結(jié)構(gòu)樹,根節(jié)點(diǎn)是文本主題,依次為層次和段落。(2)文本摘要文本摘要是指從文檔中抽取關(guān)鍵信息,用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行解釋和概括。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集
13、合的總體內(nèi)容。任何一篇文章總有一些主題句,大部分位于整篇文章的開頭或結(jié)尾部分,而且往往是在段首或段尾,因此文本摘要自動(dòng)生成算法主要考察文本的開頭、結(jié)尾,而且在構(gòu)造句子的權(quán)值函數(shù)時(shí),相應(yīng)的給標(biāo)題、子標(biāo)題、段首和段尾的句子較大的權(quán)值,按權(quán)值大小選擇句子組成相應(yīng)的摘要。(3)文本分類文本分類的目的是讓機(jī)器學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把文本映射到已存在的多個(gè)類別中的某一類,是檢索或查詢的速度更快,準(zhǔn)確率更高。訓(xùn)練方法和分類算法是分類系統(tǒng)的核心部分。用于文本分類的分類方法較多,主要有樸素貝葉斯分類、向量空間模型、決策樹、支持向量機(jī)、后向傳播分類、遺傳算法、基于案例的推理、K-最鄰近、基于中心點(diǎn)的
14、分類方法、粗糙集、模糊集以及線性最小二乘等。厲宇航等指出傳統(tǒng)特征提取的方法是基于詞形的,并不考察詞語(yǔ)的意義,忽略了同一意義下詞形的多樣性,不確定性以及詞義間的關(guān)系,尤其是上下位關(guān)系。該文的方法在向量空間模型的基礎(chǔ)上,以概念”為基礎(chǔ),同時(shí)考慮詞義的上位關(guān)系,使得訓(xùn)練過(guò)程中可以從詞語(yǔ)中提煉出更加概括性的信息,從而達(dá)到提高分類精度的目的。(4)文本聚類文本分類是將文檔歸入到已經(jīng)存在的類中,文本聚類的目標(biāo)和文本分類是一樣的,知識(shí)實(shí)現(xiàn)的方法不同。文本聚類是無(wú)教師的機(jī)器學(xué)習(xí),聚類沒(méi)有預(yù)先定義好的主題類別,它的目標(biāo)是將文檔集合分成若干個(gè)簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能大,而不同簇間的相似度盡可能小。H
15、earst等人的研究已經(jīng)證明了聚類假設(shè)”,即與用戶查詢相關(guān)的文檔通常會(huì)聚類的比較靠近,而遠(yuǎn)離與用戶查詢不相關(guān)的文檔。(5)關(guān)聯(lián)分析關(guān)聯(lián)分析是指從文檔集合中找出不同詞語(yǔ)之間的關(guān)系。Feldman和Hirsh研究了文本數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘,提出了一種從大量文檔中發(fā)現(xiàn)數(shù)千本在Amazon網(wǎng)站上找不到的新書籍;WangKe等以Web上的電影介紹作為測(cè)試文檔,通過(guò)使用OEM模型從這些半結(jié)構(gòu)化的頁(yè)面中抽取詞語(yǔ)項(xiàng),進(jìn)而得到一些關(guān)于電影名稱、導(dǎo)演、演員、編劇的出現(xiàn)模式。(6)分布分析與趨勢(shì)預(yù)測(cè)分布分析與趨勢(shì)預(yù)測(cè)是指通過(guò)對(duì)文檔的分析,得到特定數(shù)據(jù)在某個(gè)歷史時(shí)刻的情況或?qū)?lái)的取值趨勢(shì)。FeldmanR等使用多種
16、分布模型對(duì)路透社的兩萬(wàn)多篇新聞進(jìn)行了挖掘,得到主題、國(guó)家、組織、人、股票交易之間的相對(duì)分布,揭示了一些有趣的趨勢(shì)。WuthrichB等通過(guò)分析Web上出版的權(quán)威性經(jīng)濟(jì)文章對(duì)每天的股票市場(chǎng)指數(shù)進(jìn)行預(yù)測(cè),取得了良好的效果。(7)可視化技術(shù)數(shù)據(jù)可視化(DataVisualization)技術(shù)指的是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺(jué)及人機(jī)交互技術(shù)等多個(gè)領(lǐng)域。國(guó)內(nèi)外學(xué)者已經(jīng)對(duì)信息可視化技術(shù)進(jìn)行了大量的研究,運(yùn)用最小張力計(jì)算、多維標(biāo)度法、語(yǔ)義分析、內(nèi)容圖譜分析、引文網(wǎng)絡(luò)分析及神
17、經(jīng)網(wǎng)絡(luò)技術(shù),進(jìn)行了信息和數(shù)據(jù)的可視化表達(dá)。文本挖掘熱點(diǎn)難點(diǎn)問(wèn)題顯然,目標(biāo)不同,文本挖掘的過(guò)程也不盡相同。但不論何種目標(biāo),都不可忽視如下幾個(gè)方面的研究:1)文本建模向量空間模型,也稱為飼袋”法,是目前文本處理的標(biāo)準(zhǔn)模式。簡(jiǎn)答講,就是提取文本高頻詞構(gòu)成特征向量來(lái)表達(dá)文本特征的方法,該方法有效描述了詞與文檔間的頻率關(guān)系。面對(duì)復(fù)雜繁瑣的自然語(yǔ)言文本,向量空間模型是目前最為簡(jiǎn)便有效的文本表示方法。但向量空間模型建模方法最大的問(wèn)題就是忽略了詞在文本中承擔(dān)的語(yǔ)法和語(yǔ)義上的作用,同時(shí)忽略了詞與詞之間的順序關(guān)系,丟失了大量有用信息,從而減弱了高頻詞向量表達(dá)文本特征的可信度。同時(shí),向量空間模型在處理真實(shí)文本數(shù)據(jù)時(shí)
18、形成的特征向量的高維性也嚴(yán)重影響了后續(xù)文本挖掘的效率和結(jié)果的準(zhǔn)確性。此外,建模前的文本預(yù)處理工作作為整個(gè)文本挖掘過(guò)程的基礎(chǔ)尤為重要。而不同的語(yǔ)言處理又常常不同。如何解決多語(yǔ)言混合如中英文混合情況下的文本處理和建模工作日益重要。同時(shí),不同的語(yǔ)言有不同的切詞處理方式。并且存在著大量多詞同義、一詞多義的現(xiàn)象。2)特征降維文本模型的高維特性制約了文本挖掘的效果。不論何種語(yǔ)種,由于語(yǔ)言本身的非結(jié)構(gòu)特性以及建模后的高維特性,使得后續(xù)挖掘過(guò)程中都面臨嚴(yán)重的效率問(wèn)題。因此有效的降維是進(jìn)行后續(xù)文本挖掘的重要一環(huán)。目前的文本降維方法主要采用基于奇異值分解的潛在語(yǔ)義分析技術(shù)。該技術(shù)通過(guò)分析特征詞之間的語(yǔ)義相關(guān)性來(lái)減
19、少特征向量的維數(shù),通過(guò)將詞一文檔的高維表示投影在低維潛在語(yǔ)義空間中,降低空間的維數(shù),進(jìn)而得到詞一文檔的不再稀疏的低維表示。并且,由詞袋模型在進(jìn)行奇異值分解后得到的子空間不再是僅僅反映出詞匯出現(xiàn)的頻率和分布關(guān)系,而進(jìn)一步揭示了詞匯或文檔之間的語(yǔ)義聯(lián)系。3)挖掘算法的選擇模型創(chuàng)建成功并且進(jìn)行了有效的降維處理之后,就可以進(jìn)行具體的挖掘操作了。從狹義的角度理解,也可以說(shuō)這部分才是真正的挖掘。而廣義上來(lái)說(shuō),整個(gè)過(guò)程才構(gòu)成文本挖掘的全部過(guò)程。文本挖掘算法并不是一個(gè)新的領(lǐng)域,通常就是數(shù)據(jù)挖掘方法在文本數(shù)據(jù)上的應(yīng)用。因此多數(shù)挖掘方法來(lái)自機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)、自然語(yǔ)言處理、信息抽取、信息檢索以及知識(shí)管理等領(lǐng)域,最
20、終目標(biāo)就是對(duì)建模后的文本數(shù)據(jù)進(jìn)行分析和處理,找到其中潛在的有用信息。根據(jù)不同的應(yīng)用目標(biāo),挖掘出的知識(shí)種類不盡相同,由此可以對(duì)文本挖掘的技術(shù)和算法進(jìn)行如下的分類:如根據(jù)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、聚類、趨勢(shì)、差異等知識(shí)的不同,分別對(duì)應(yīng)不同領(lǐng)域的算法選擇。任何算法技術(shù)的研究和設(shè)計(jì)都離不開開始實(shí)驗(yàn)的仿真和具體實(shí)例的驗(yàn)證。文本數(shù)據(jù)挖掘過(guò)程亦是如此。由于文本數(shù)據(jù)的復(fù)雜多樣性,導(dǎo)致文本數(shù)據(jù)的挖掘過(guò)程相對(duì)其他結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜繁瑣的多,對(duì)數(shù)據(jù)的敏感性更為嚴(yán)重,在很多情況下,面臨對(duì)開放語(yǔ)料的實(shí)驗(yàn)結(jié)果不理想的問(wèn)題。因此選擇更好的評(píng)價(jià)方法,克服現(xiàn)有語(yǔ)料手工分類不準(zhǔn)確帶來(lái)的誤差,以更好地對(duì)算法做出評(píng)價(jià),同樣重要。4)模型的理解及可
21、視化表達(dá)多數(shù)文本挖掘應(yīng)用實(shí)例的目標(biāo)同數(shù)據(jù)挖掘類似,通常是要輔助用戶的決策和判斷,因此從用戶的角度來(lái)看,文本挖掘所發(fā)現(xiàn)結(jié)果的可理解至關(guān)重要。而對(duì)于各種方法挖掘出的模式、規(guī)則等結(jié)果,提高可理解性的解決方法通常有兩種:一種是以生成人類易于理解的自然語(yǔ)言的方式進(jìn)行呈現(xiàn),如對(duì)文檔進(jìn)行摘要的方法;另一種方式則是以圖形界面方式展示結(jié)果,通過(guò)提供相對(duì)少量的規(guī)則,利用計(jì)算機(jī)圖形學(xué)、圖像處理等可視化技術(shù)將結(jié)果更加直觀的呈現(xiàn)給用戶。近年來(lái),可視化技術(shù)作為展示結(jié)果的關(guān)鍵一環(huán)逐漸成為文本挖掘過(guò)程中日益重要的一個(gè)分支。大量的研究結(jié)合語(yǔ)義分析、內(nèi)容圖譜分析、最小張力計(jì)算、神經(jīng)網(wǎng)絡(luò)技術(shù)、多維標(biāo)度法等數(shù)據(jù)分析和處理方法進(jìn)行了結(jié)
22、果的可視化表達(dá)。3文本挖掘的應(yīng)用文本挖掘的研究剛剛開始,其應(yīng)用的研究正逐漸地增多,應(yīng)用范圍也正逐漸地?cái)U(kuò)大,例如在英文挖掘方面Brin提出了一種從大量文檔中發(fā)現(xiàn)一對(duì)詞語(yǔ)出現(xiàn)模式的算法,并用來(lái)在Web上尋找作者和書名的出現(xiàn)模式,從而發(fā)現(xiàn)了數(shù)千本在Amazon網(wǎng)站上找不到的新書籍,Wang等人以Web上的電影介紹作為測(cè)試文檔,通過(guò)使用OEM模型從這些半結(jié)構(gòu)化的頁(yè)面中抽取詞語(yǔ)項(xiàng)進(jìn)而得到一些關(guān)于電影名稱、導(dǎo)演、演員、編劇的出現(xiàn)模式?;赟TCS的新型信息搜索引擎人們已經(jīng)進(jìn)入信息極大豐富的時(shí)代,一方面信息來(lái)源廣泛,包才Web文檔圖書文獻(xiàn)數(shù)字化資料等,這些異構(gòu)的信息分布在Internet空間中;另一方面,信
23、息量巨大。面對(duì)信息的海洋,人們覺(jué)得力不從心,往往花費(fèi)了很多時(shí)間卻所獲甚少。在這種情況下,如何有效地提供基于Internet的資源發(fā)現(xiàn)服務(wù),以幫助用戶從大量信息資源的集合中找到與給定的查詢請(qǐng)求相關(guān)的、恰當(dāng)數(shù)目的資源子集,也就成為一項(xiàng)重要而迫切的研究課題。傳統(tǒng)的搜索引擎,例如AltaVistaYahoo等,試圖解決Internet上的資源發(fā)現(xiàn)問(wèn)題,但是,從資源覆蓋度、檢索精度、檢索結(jié)果可視化、可維護(hù)性等諸多方面來(lái)看,其效果遠(yuǎn)不能夠令人滿意。我們注意到搜索引擎采用的是典型的集中方式它們?cè)噲D遍歷整個(gè)Web,對(duì)其上所有的文檔生成索引,供用戶檢索。這種集中方式有一些嚴(yán)重的弊端,主要表現(xiàn)在:1、覆蓋度有限;
24、2、維護(hù)困難;3、消耗太大,包括網(wǎng)絡(luò)帶寬、搜索引擎自身昂貴的硬件設(shè)施等。我們認(rèn)為Internet上的資源發(fā)現(xiàn)更適于采取分布協(xié)作的策略。目前,分布計(jì)算以及多Agent系統(tǒng)等領(lǐng)域的研究已經(jīng)取得了豐碩的成果,可以用于集成某些自制、異構(gòu)的協(xié)作資源發(fā)現(xiàn)系統(tǒng)這正是我們?cè)O(shè)計(jì)新型信息搜索引擎的出發(fā)點(diǎn)。下面給出我們?cè)O(shè)計(jì)的新型信息搜索引擎的原型該模型基于STCS設(shè)計(jì),如圖3-1所示。圖3-1基于STCS的搜索引擎系統(tǒng)的工作流程如下:(1)特征提?。簩?duì)用戶提交的目標(biāo)樣本(欲查詢的文檔樣本)進(jìn)行特征提取,生成挖掘目標(biāo)的特征矢量;(2)站點(diǎn)查詢:在特征矢量中取權(quán)值最大的5個(gè)特征項(xiàng)作為查詢關(guān)鍵字,向多個(gè)資源索引系統(tǒng)發(fā)送查
25、詢請(qǐng)求,將返回的結(jié)果URL作為文檔采集的起點(diǎn);(3)信息采集:運(yùn)行Robot程序從查詢到的源URL開始進(jìn)行文檔采集;(4)模式匹配:提取出源文檔的特征矢量,并進(jìn)行特征匹配,把符合閾值條件的文檔提交給用戶。采用分布協(xié)作的資源發(fā)現(xiàn)策略后,各個(gè)資源發(fā)現(xiàn)子系統(tǒng)所要管理的信息資源相對(duì)縮小,消耗降低,便于維護(hù);同時(shí),通過(guò)各系統(tǒng)之間的相互協(xié)作,覆蓋度擴(kuò)大,這也正是我們?cè)O(shè)計(jì)的新型信息搜索引擎的優(yōu)點(diǎn)。文本挖掘器TextMiner在第二章,我們已經(jīng)討論了文本挖掘的各種功能,現(xiàn)在的研究工作大都專注于某種功能的研究,在一定程度上解決了用戶的某些特定需求,如文本的分類、聚類、關(guān)聯(lián)等。然而當(dāng)用戶面對(duì)一大堆文檔,提出請(qǐng)幫忙在這些文檔中找出一些有趣的東西”這樣一個(gè)問(wèn)題的時(shí)候,單獨(dú)的某種功能恐怕就無(wú)能為力了,而這種需求是客觀存在的。為此,我們認(rèn)為有必要進(jìn)行功能齊全的文本挖掘系統(tǒng)的研究,以滿足這種需求。在前面各種文本挖掘功能的基礎(chǔ)上,我們?cè)O(shè)計(jì)了文本挖掘器(TextMiner)。TextMiner采用多agent的體系結(jié)構(gòu),首次提出文本中央挖掘器TCMU的概念,以幫助用戶快速、有效的挖掘各種文本。下面給出系統(tǒng)原型的組件和系統(tǒng)行為的簡(jiǎn)要描述。1)文本預(yù)處理agent;利用啟
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國(guó)廣告筆記本市場(chǎng)調(diào)查研究報(bào)告
- 2025至2030年中國(guó)霧化(負(fù)離子)裝飾燈數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)谷氨酰胺膠囊數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)土壤固化劑數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025版附期限個(gè)人購(gòu)房按揭貸款合同書(2025年度)3篇
- 模板工程試題及答案
- 保暖手套捐贈(zèng)合同
- 河南省住宅公房出租合同
- 船員培訓(xùn)專項(xiàng)協(xié)議范本
- 歌手藝人經(jīng)紀(jì)合同
- 2024年蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 人教版初中語(yǔ)文2022-2024年三年中考真題匯編-學(xué)生版-專題08 古詩(shī)詞名篇名句默寫
- 2024-2025學(xué)年人教版(2024)七年級(jí)(上)數(shù)學(xué)寒假作業(yè)(十二)
- 山西粵電能源有限公司招聘筆試沖刺題2025
- ESG表現(xiàn)對(duì)企業(yè)財(cái)務(wù)績(jī)效的影響研究
- 醫(yī)療行業(yè)軟件系統(tǒng)應(yīng)急預(yù)案
- 使用錯(cuò)誤評(píng)估報(bào)告(可用性工程)模版
- 《精密板料矯平機(jī) 第2部分:技術(shù)規(guī)范》
- 2023-2024年同等學(xué)力經(jīng)濟(jì)學(xué)綜合真題及參考答案
- 農(nóng)村集體土地使用權(quán)轉(zhuǎn)讓協(xié)議
- 2024年高考全國(guó)甲卷英語(yǔ)試卷(含答案)
評(píng)論
0/150
提交評(píng)論