數(shù)據(jù)挖掘的現(xiàn)狀及趨勢研究_第1頁
數(shù)據(jù)挖掘的現(xiàn)狀及趨勢研究_第2頁
數(shù)據(jù)挖掘的現(xiàn)狀及趨勢研究_第3頁
數(shù)據(jù)挖掘的現(xiàn)狀及趨勢研究_第4頁
數(shù)據(jù)挖掘的現(xiàn)狀及趨勢研究_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘的現(xiàn)狀及趨勢研究

數(shù)據(jù)挖掘的現(xiàn)狀和趨勢研究近年來,隨著信息行業(yè)的迅速發(fā)展,數(shù)據(jù)挖掘已經(jīng)成為各行業(yè)關(guān)注的焦點問題。本文介紹了數(shù)據(jù)挖掘的基本理論知識,并重點分析了數(shù)據(jù)挖掘在市場、金融、電商等主要數(shù)據(jù)領(lǐng)域的應(yīng)用現(xiàn)狀,旨在突出數(shù)據(jù)挖掘的應(yīng)用優(yōu)勢,為企業(yè)決策者提供理論依據(jù)。同時,本文還針對數(shù)據(jù)挖掘方法不足、性能不足、缺少用戶交互意識以及數(shù)據(jù)庫與挖掘系統(tǒng)不匹配等問題提出了解決對策。最后,本文展望了數(shù)據(jù)挖掘在未來的發(fā)展趨勢,總結(jié)了數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化、數(shù)字化以及多種技術(shù)合作集成的發(fā)展趨勢,為未來的數(shù)據(jù)挖掘研究提供參考。背景隨著科學(xué)的發(fā)展和技術(shù)的更新,信息時代已經(jīng)悄然走進(jìn)我們的生活。各種網(wǎng)絡(luò)新技術(shù)也隨之而來,由各個行業(yè)搜集、儲存的大量數(shù)據(jù)組成了大數(shù)據(jù)倉庫。由于數(shù)據(jù)量巨大,傳統(tǒng)的數(shù)據(jù)挖掘方法已經(jīng)無法發(fā)掘關(guān)鍵信息,導(dǎo)致很多數(shù)據(jù)無法顯示出對行業(yè)發(fā)展有用的信息。因此,決策者急需能夠深入數(shù)據(jù)庫內(nèi)部快速分析、整理未被發(fā)現(xiàn)的價值信息的創(chuàng)新技術(shù),以便指導(dǎo)企業(yè)的發(fā)展。在這種情況下,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)中的一個步驟,兩者有著緊密的關(guān)系。數(shù)據(jù)挖掘技術(shù)之所以受歡迎,是因為它能解決其它技術(shù)無法發(fā)掘信息的問題。它能夠在海量數(shù)據(jù)中獲取藏匿其中的信息,這些信息的價值遠(yuǎn)遠(yuǎn)超過之前所挖掘出來的。通過深入分析并總結(jié)價值規(guī)律,數(shù)據(jù)挖掘技術(shù)能夠為企業(yè)決策者提供理論根據(jù)?,F(xiàn)狀和趨勢隨著二十多年的數(shù)據(jù)挖掘技術(shù)的發(fā)展,數(shù)據(jù)挖掘已經(jīng)成為綜合性技術(shù),必須與其他新技術(shù)相結(jié)合。在理論研究方面,數(shù)據(jù)挖掘技術(shù)不斷深入發(fā)掘理論基礎(chǔ),更新所需要的理論技術(shù),完善自身不足。在實際應(yīng)用上,數(shù)據(jù)挖掘技術(shù)基于自身的優(yōu)勢,使得應(yīng)用廣泛,前景大好。例如,在市場營銷、保險金融等領(lǐng)域,數(shù)據(jù)倉庫大,信息價值高。國外的最新研究在于更深入的KDD采用算法研究,在行業(yè)應(yīng)用中技術(shù)運用相當(dāng)成熟。相對來說,國內(nèi)在研究方面還處在緩慢發(fā)展階段,技術(shù)運用也不太成熟,但總體上還是穩(wěn)步上升的。解決對策在數(shù)據(jù)挖掘的發(fā)展過程中,出現(xiàn)了一系列問題,例如數(shù)據(jù)挖掘方法不足、性能不足、缺少用戶交互意識以及數(shù)據(jù)庫與挖掘系統(tǒng)不匹配等。為了解決這些問題,我們需要采取相應(yīng)的對策。例如,可以加強(qiáng)數(shù)據(jù)挖掘方法的研究,提高數(shù)據(jù)挖掘的性能,增加用戶交互意識,并且改善數(shù)據(jù)庫與挖掘系統(tǒng)之間的匹配度。未來趨勢展望未來,數(shù)據(jù)挖掘技術(shù)將繼續(xù)發(fā)展。數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化、數(shù)字化以及多種技術(shù)合作集成將成為發(fā)展趨勢。這將有助于行業(yè)內(nèi)競爭與發(fā)展,為未來的數(shù)據(jù)挖掘研究提供參考。本文旨在研究數(shù)據(jù)挖掘理論,并探討其在實際應(yīng)用中的現(xiàn)狀和發(fā)展趨勢。研究目的包括對比國內(nèi)外數(shù)據(jù)挖掘研究現(xiàn)狀、展示其在各行業(yè)中的應(yīng)用優(yōu)勢、分析存在的問題并提出應(yīng)對策略、明確未來的發(fā)展方向和規(guī)劃。本研究的意義在于為決策者提供理論依據(jù)、幫助各行業(yè)緊跟發(fā)展潮流、減少錯誤并完善技術(shù)、統(tǒng)一規(guī)劃行業(yè)發(fā)展。國外在知識發(fā)現(xiàn)和數(shù)據(jù)挖掘領(lǐng)域的研究始于上世紀(jì)九十年代,各國科研工作者加大了對數(shù)據(jù)挖掘技術(shù)的重視并不斷創(chuàng)新改進(jìn),取得了顯著成效。國外研究人員注重數(shù)據(jù)集、數(shù)據(jù)庫之間的集成,數(shù)據(jù)挖掘前需要對數(shù)據(jù)集進(jìn)行清洗和準(zhǔn)備原始狀態(tài)。數(shù)據(jù)研究與趨勢挖掘技術(shù)和應(yīng)用的重點是數(shù)據(jù)領(lǐng)域之間的集成倉儲和數(shù)據(jù)挖掘,強(qiáng)調(diào)對現(xiàn)實世界問題的適用性。2)通過對國內(nèi)外數(shù)據(jù)挖掘軟件工具的比較和分析,探討其優(yōu)缺點及適用范圍。3)針對國內(nèi)DM軟件工具的研發(fā)現(xiàn)狀,對其進(jìn)行分析和評價,提出改進(jìn)建議。4)以某企業(yè)為案例,運用數(shù)據(jù)挖掘技術(shù)對其銷售數(shù)據(jù)進(jìn)行分析,探討數(shù)據(jù)挖掘在實際應(yīng)用中的效果和意義。1.4.2研究方法本研究采用文獻(xiàn)資料法、案例分析法、問卷調(diào)查法和實驗研究法相結(jié)合的方法進(jìn)行。首先,通過文獻(xiàn)資料法對國內(nèi)外DM的研究現(xiàn)狀和軟件工具進(jìn)行梳理和總結(jié),探討其發(fā)展趨勢和影響意義。其次,以某企業(yè)為案例,采用實驗研究法和數(shù)據(jù)挖掘技術(shù)對其銷售數(shù)據(jù)進(jìn)行分析,探討其在實際應(yīng)用中的效果和意義。最后,通過問卷調(diào)查法對國內(nèi)DM軟件工具的使用情況和需求進(jìn)行調(diào)查,以此為基礎(chǔ)提出改進(jìn)建議。數(shù)據(jù)挖掘是一種從大量數(shù)據(jù)中發(fā)現(xiàn)未知模式和規(guī)律的過程。它是一種綜合性技術(shù),涉及到多個領(lǐng)域的知識和技能,如統(tǒng)計學(xué)、機(jī)器研究、人工智能等。通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的信息,為決策者提供有效的參考和支持。2.1.2數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法包括分類、聚類、關(guān)聯(lián)規(guī)則挖掘、異常檢測等。其中,分類是將數(shù)據(jù)分成不同的類別,聚類是將數(shù)據(jù)分成相似的群體,關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性,異常檢測是發(fā)現(xiàn)數(shù)據(jù)中的異常值。2.1.3數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域數(shù)據(jù)挖掘已經(jīng)廣泛應(yīng)用于各個領(lǐng)域,如金融、醫(yī)療、電子商務(wù)等。在金融領(lǐng)域,數(shù)據(jù)挖掘可以用于風(fēng)險評估、信用評估等方面;在醫(yī)療領(lǐng)域,數(shù)據(jù)挖掘可以用于疾病診斷、藥物研發(fā)等方面;在電子商務(wù)領(lǐng)域,數(shù)據(jù)挖掘可以用于個性化推薦、用戶行為分析等方面。2.2發(fā)展歷程數(shù)據(jù)挖掘的發(fā)展可以追溯到上世紀(jì)60年代,當(dāng)時主要是應(yīng)用統(tǒng)計學(xué)方法進(jìn)行數(shù)據(jù)分析。隨著計算機(jī)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)也不斷更新和完善。在20世紀(jì)80年代和90年代,機(jī)器研究和人工智能技術(shù)的發(fā)展促進(jìn)了數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展。21世紀(jì)以來,數(shù)據(jù)挖掘技術(shù)得到了廣泛應(yīng)用,成為信息化領(lǐng)域中的重要技術(shù)之一。然而,在數(shù)據(jù)挖掘的發(fā)展過程中,也存在著一些問題。比如,數(shù)據(jù)質(zhì)量不高、算法選擇不當(dāng)?shù)葐栴}會影響數(shù)據(jù)挖掘的效果。針對這些問題,可以采取多種策略,如提高數(shù)據(jù)質(zhì)量、優(yōu)化算法選擇等。未來,隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)也將不斷發(fā)展和完善,為各個領(lǐng)域的決策者提供更加有效的支持和幫助。數(shù)據(jù)挖掘(DM)是對數(shù)據(jù)進(jìn)行再分析和挖掘的過程。由于數(shù)據(jù)庫系統(tǒng)的存在,DM與之密切相關(guān),因此在數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)的基礎(chǔ)上,提取數(shù)據(jù)并找到關(guān)鍵知識信息的過程尤為重要。DM是知識發(fā)現(xiàn)的一步,是復(fù)雜過程中的重要環(huán)節(jié)。數(shù)據(jù)挖掘需要借助多種數(shù)據(jù)分析工具,在海量的數(shù)據(jù)信息中挖掘模型之間的關(guān)系。DM技術(shù)的基礎(chǔ)學(xué)科是計算機(jī)科學(xué)技術(shù),并融入統(tǒng)計學(xué)和其他專業(yè)學(xué)科知識,運用專業(yè)算法和規(guī)則對數(shù)據(jù)進(jìn)行二次挖掘。數(shù)據(jù)挖掘是從大量的、不完全的、模糊的、有噪聲的以及具有隨性的數(shù)據(jù)中,對隱含的、具有潛在作用和有意義知識進(jìn)行提取的過程。數(shù)據(jù)挖掘技術(shù)關(guān)鍵在于能夠在初次提取的數(shù)據(jù)信息中找到隱藏在深處的數(shù)據(jù)規(guī)律,這些信息的價值遠(yuǎn)超過其它,是未來決策的重要依據(jù),也是處理數(shù)據(jù)最高層次的應(yīng)用,提高了數(shù)據(jù)的重復(fù)利用率,對數(shù)據(jù)行業(yè)做出了突出貢獻(xiàn)。數(shù)據(jù)挖掘的特點包括:處理的數(shù)據(jù)量非常大;用戶可以在任何時間和地點使用查詢系統(tǒng),以保證和滿足用戶的要求;滿足數(shù)據(jù)庫的需求,分別對所有數(shù)據(jù)進(jìn)行分析,覆蓋全面,為以后應(yīng)用提供依據(jù);面對數(shù)據(jù)庫中樣本的特點,從數(shù)據(jù)本身規(guī)律出發(fā),其發(fā)掘的算法規(guī)則只適用于自身。這些特點與DM挖掘的樣本數(shù)據(jù)和所要達(dá)到的目標(biāo)有緊密的關(guān)聯(lián)。數(shù)據(jù)挖掘的任務(wù)包括:分類、聚類、關(guān)聯(lián)、回歸、預(yù)測、序列分析等。分類是把數(shù)據(jù)樣本中的數(shù)據(jù)按照某一概念進(jìn)行排列組合,建立分類模型,最終目標(biāo)是獲得分類規(guī)則。常用的分類算法包括決策樹模式、神經(jīng)網(wǎng)絡(luò)算法等。聚類是把樣本數(shù)據(jù)庫根據(jù)其相似性分成許多類別,使得同類中具有更多相似性,反之,不同類中盡可能不同。雖然在應(yīng)用方面與分類相近,但兩者區(qū)別在于聚類個數(shù)和細(xì)分程度。神經(jīng)網(wǎng)絡(luò)法是一種基于邏輯規(guī)則的研究過程,通過模仿神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功效來完成推理過程。它具有強(qiáng)大的研究記憶能力,但不能用于全過程,雖結(jié)果精確但無法說明。決策樹法是一種分類方法,能夠采用各種規(guī)則語言對初始數(shù)據(jù)完成分類,最終呈現(xiàn)出樹形圖。C4.5算法包括了分類和回歸雙重問題,適用于大量單一變量間且非數(shù)值數(shù)據(jù)。遺傳算法基于遺傳規(guī)則和生物進(jìn)化原理,運用自然選擇規(guī)律對目標(biāo)問題進(jìn)行最優(yōu)解分析。它能夠處理多種復(fù)雜數(shù)據(jù)集,但所需參數(shù)巨大、復(fù)雜,在進(jìn)行計算機(jī)編程更是繁瑣,常用來解決神經(jīng)元網(wǎng)絡(luò)。粗糙集法能夠分析模糊不確定、不完整的數(shù)據(jù)問題,過程簡單,步驟方便,但無法處理連續(xù)型數(shù)據(jù),主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡、建立預(yù)測模型等問題。模糊集法通過運用集合理論知識,對相關(guān)問題進(jìn)行判斷與決策,選擇規(guī)則模式并使用聚類分析等。隸屬度作為一種標(biāo)準(zhǔn)來表現(xiàn)模糊事物的屬性。關(guān)聯(lián)規(guī)則法體現(xiàn)了變量間的相關(guān)性,能夠找到更有深意的數(shù)據(jù)。ri算法,定義了最小支持度和最小可信度兩個閾值。Pang-NingTan(2010)XXXofdatanandntechniqueshasledtotheemergenceofmassivedatasetsinbothbusinessandscientificfields[13]。XXX。n-XXXn-makers。enablingthemtomonitorthemarketandmanageindustries。makingitincreasinglywidelyused。IoannisKarakatsanisa(2017)XXX。XXXmarkettrendsandchangeswillbeofgreatvaluetojobseekers。employers。n-makers。andinvestors[14].3.1.1nsinMarketingInmarketing。enterprisesspendalotofmoneyandtimeonmarketandcustomerXXX-makerstoconductmarketanalysisandn-making。theycanpromptlydiscovertheimpactofnandsalesonthemarketandcustomers。obtainvaluableintelligence。controlthenofenterprisemarkets。andXXX。thenofdatamininginmarketingisinlinewiththetrendofmarketdevelopment.Facingalargenumberofconsumers。XXXgods。andconductcomprehensiveanalysisoftheconsumermarketandtheirronthisbasis。ByusingdataXXX。allconsumer-relatedconceptsXXXfuturemarketstrategies。aswellasstayaheadofcustomerXXX。themarketisalsocrucial。Aftercustomersareidentified。enterprisesneedtoplantooccupymarketshareandXXXandanalyzeusdata。analyzemarkettrends。XXX-makersinatimelymanner。XXX.首先,針對特殊消費者,進(jìn)行全面信息收集、整理和分析,預(yù)測未來消費趨勢,進(jìn)行有效的營銷。然后,對收集的消費信息進(jìn)行系統(tǒng)的數(shù)據(jù)挖掘,深度解析數(shù)據(jù),運用DM技術(shù)的各種模型算法,預(yù)估消費者的相關(guān)聯(lián)消費傾向,進(jìn)而調(diào)整企業(yè)業(yè)務(wù)范圍,開拓新的業(yè)務(wù)領(lǐng)域。銀行、通信運營商和零售商已能成熟運用消費者屬性和行為數(shù)據(jù)來識別風(fēng)險和付費可能性。其次,企業(yè)可以充分發(fā)揮數(shù)據(jù)挖掘在數(shù)據(jù)領(lǐng)域的優(yōu)勢,提升競爭力,增大市場份額,獲得更多市場優(yōu)勢,從而完成戰(zhàn)略發(fā)展。同時,企業(yè)可以將整合的消費數(shù)據(jù)制成各項數(shù)據(jù)庫系統(tǒng),擴(kuò)大業(yè)務(wù),維持自身發(fā)展。挖掘重點客戶也成為重中之重,通過對用戶行為的分析,判斷哪些用戶與企業(yè)的產(chǎn)品和服務(wù)匹配,是最有價值的用戶。在證券領(lǐng)域,數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于開發(fā)新的數(shù)據(jù)系統(tǒng),使用各大證券公司儲存的各項數(shù)據(jù),建立模型,分析模型特點以便得到各種統(tǒng)計報表,針對報表的數(shù)據(jù)信息進(jìn)行證券內(nèi)部預(yù)測和評價。證券企業(yè)應(yīng)立足自身,利用行業(yè)優(yōu)勢,結(jié)合相關(guān)算法對潛藏信息進(jìn)行發(fā)掘,使決策者對企業(yè)長遠(yuǎn)發(fā)展完勝決策。我國政府在十三五規(guī)劃期間對大數(shù)據(jù)在保險行業(yè)的應(yīng)用提出了更高的要求。我們應(yīng)向海外保險機(jī)構(gòu)研究先進(jìn)的經(jīng)驗,例如在保險的定價與營銷、保單的后期管理、理賠過程等領(lǐng)域,國外機(jī)構(gòu)已做出革命性的創(chuàng)新。我國應(yīng)緊跟大數(shù)據(jù)潮流,深化大數(shù)據(jù)在保險業(yè)創(chuàng)新應(yīng)用,形成大數(shù)據(jù)產(chǎn)業(yè)鏈條。保險業(yè)是一種風(fēng)險性十分巨大的業(yè)務(wù),數(shù)據(jù)挖掘技術(shù)的運用不但可以預(yù)測相關(guān)風(fēng)險性,還能為業(yè)務(wù)員把握方向,減少保險錯誤發(fā)生率,便于保險業(yè)的可持續(xù)性。在過去,保險機(jī)構(gòu)很難和客戶建立起溝通的橋梁,交流上的障礙難免產(chǎn)生不必要誤會。將大數(shù)據(jù)應(yīng)用到保險行業(yè),把零散的客戶信息通過大數(shù)據(jù)進(jìn)行分析,建立起客戶與機(jī)構(gòu)之間的有效溝通渠道,提高客戶滿意度,促進(jìn)業(yè)務(wù)發(fā)展。在實際應(yīng)用中,數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于企業(yè)風(fēng)險控制,尤其是銀行貸款業(yè)務(wù)。銀行需要評估客戶的信用度,并預(yù)測未來的信用趨勢。數(shù)據(jù)挖掘技術(shù)可以幫助銀行進(jìn)行全面的客戶分析,綜合考慮各種突發(fā)情況,最大程度地降低企業(yè)風(fēng)險,支持行業(yè)發(fā)展。在金融領(lǐng)域,企業(yè)需要通過推銷旗下產(chǎn)品來獲得利益。為了應(yīng)對客戶數(shù)量和市場不確定性的挑戰(zhàn),數(shù)據(jù)挖掘算法中的關(guān)聯(lián)算法可以幫助企業(yè)分析客戶需求,研發(fā)多類型的產(chǎn)品服務(wù),豐富企業(yè)的營銷手段,提升業(yè)績。針對客戶市場的研究也是銀行的重中之重,深入分析客戶市場變化規(guī)律,對重點部分進(jìn)行細(xì)分,掌握其發(fā)展動向,判斷將會帶來的價值區(qū)間,有針對性地提供業(yè)務(wù)范疇,以滿足銀行客戶市場的需要,并找到更多新客源,來相對減少人員流失。隨著網(wǎng)絡(luò)的飛速發(fā)展,電子商務(wù)已經(jīng)逐漸取代實體商店。數(shù)據(jù)挖掘技術(shù)可以為電商企業(yè)提供深入了解客戶需求信息和購物行為特征的可能性。通過記錄消費者之間共性和個性之間聯(lián)系,將記錄的數(shù)據(jù)進(jìn)行分析,描繪出消費者消費心理、消費需求、消費偏好等特征,為電商企業(yè)提供決策依據(jù)。在電子商務(wù)領(lǐng)域,“大數(shù)據(jù)”引入可以為電商企業(yè)的在市場細(xì)分方面提供強(qiáng)有力的支持,數(shù)據(jù)挖掘可以將電商企業(yè)的客戶進(jìn)行聚類,通過對相同類客戶消費行為特征的提取,電子商務(wù)企業(yè)可以針對特定特征制定個性化的服務(wù)。數(shù)據(jù)挖掘在全社會的廣泛應(yīng)用,可以從初始數(shù)據(jù)中挖掘隱藏信息,實現(xiàn)企業(yè)數(shù)據(jù)的重復(fù)利用,對企業(yè)的持續(xù)發(fā)展有著很大的影響。面對嚴(yán)峻的市場形勢和復(fù)雜的企業(yè)環(huán)境,采用先進(jìn)的DM技術(shù)將會改善市場環(huán)境,增強(qiáng)企業(yè)競爭力,樹立員工信念和凝聚力,更新企業(yè)理念,提升經(jīng)營治理水平,帶給企業(yè)收獲的同時也促進(jìn)了發(fā)展。然而,在數(shù)據(jù)挖掘的發(fā)展過程中,也存在一些問題。例如,數(shù)據(jù)質(zhì)量不足、數(shù)據(jù)隱私保護(hù)、算法不夠精確等問題。為了應(yīng)對這些問題,需要加強(qiáng)數(shù)據(jù)質(zhì)量控制,加強(qiáng)數(shù)據(jù)隱私保護(hù),提高算法的精度和可靠性。同時,也需要加強(qiáng)對數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用,不斷推進(jìn)數(shù)據(jù)挖掘技術(shù)的發(fā)展和創(chuàng)新。數(shù)據(jù)挖掘技術(shù)在應(yīng)用中還存在一個問題,就是多樣性的數(shù)據(jù)庫類型與DM系統(tǒng)不匹配。由于不同類型的數(shù)據(jù)庫有著不同的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)特征,因此需要針對不同的數(shù)據(jù)庫類型開發(fā)相應(yīng)的DM系統(tǒng),以滿足不同類型數(shù)據(jù)庫的需求。目前,一些DM系統(tǒng)還無法適應(yīng)多樣性的數(shù)據(jù)庫類型,這也是需要解決的問題。研究學(xué)者需要開發(fā)更為靈活的DM系統(tǒng),以適應(yīng)不同類型數(shù)據(jù)庫的需求。同時,也需要對不同類型數(shù)據(jù)庫的數(shù)據(jù)特征進(jìn)行深入研究,以提高DM系統(tǒng)的適應(yīng)性和性能。隨著每天數(shù)據(jù)的不斷變化,數(shù)據(jù)類型變得越來越復(fù)雜。因此,數(shù)據(jù)挖掘領(lǐng)域的研究人員需要時刻關(guān)注變化的趨勢,并相應(yīng)地做出調(diào)整,其中之一就是尋找適用于復(fù)雜數(shù)據(jù)的新挖掘方法。盡管已經(jīng)在各種分類挖掘中取得了初步的突破,但這還不足以在整個數(shù)據(jù)挖掘領(lǐng)域應(yīng)用。因此,在探索新方法的道路上,仍然面臨著漫長而艱巨的任務(wù)。復(fù)雜數(shù)據(jù)之所以難以處理,在于它們包含的范圍廣泛、數(shù)據(jù)量豐富、數(shù)據(jù)類型多樣。當(dāng)以這些為研究目標(biāo)時,由于數(shù)據(jù)構(gòu)造很難解析,數(shù)據(jù)間關(guān)系比較錯雜難辨,之前相對大部分?jǐn)?shù)據(jù)類型適用的挖掘方法已經(jīng)不再適用。面對數(shù)據(jù)變化如此之快,必然需要一些新的方法來應(yīng)對復(fù)雜問題?;趶?fù)雜數(shù)據(jù)的保存和模型建立的特殊性,在之前研發(fā)的數(shù)據(jù)庫系統(tǒng)中,已經(jīng)對大批繁雜數(shù)據(jù)目標(biāo)構(gòu)成分組,分析目標(biāo)關(guān)聯(lián)和數(shù)據(jù)庫。針對復(fù)雜數(shù)據(jù)研究的工作人員目前能夠具體化復(fù)雜數(shù)據(jù)的分類特性,不管數(shù)據(jù)集合中相同構(gòu)造還是不同的,都能夠簡化復(fù)雜程度,很清晰地展示在人們面前。另外,在進(jìn)行具體化操作時,復(fù)雜數(shù)據(jù)中序列問題能夠確保排序不發(fā)生變化,避免破壞初始數(shù)據(jù),造成數(shù)據(jù)缺失、遺漏等問題。信息流通越發(fā)便捷快速,由此在信息中包含的個人隱私也在進(jìn)行多方面?zhèn)鬟f。手機(jī)、計算機(jī)等能夠儲存?zhèn)€人信息的終端在網(wǎng)絡(luò)技術(shù)的操控下,能夠不經(jīng)過人們允許隨時隨地地被收集到某個數(shù)據(jù)庫系統(tǒng)中。雖然數(shù)據(jù)公司只是用于科研領(lǐng)域,但很容易被不法分子利用,導(dǎo)致一部分的個人隱私泄露到公眾場合里。因此,數(shù)據(jù)挖掘面臨著嚴(yán)峻的信息保護(hù)以及隱私安全問題。數(shù)據(jù)挖掘在正反對立面上出現(xiàn)的問題,是其它領(lǐng)域普遍的現(xiàn)象,但基于行業(yè)特點,數(shù)據(jù)是DM進(jìn)行各項研究應(yīng)用的基礎(chǔ)元素,因而相對別的危險系數(shù)更大,各行各業(yè)的研究人員以及所有客戶也更為重視。關(guān)于在客戶信息隱私保護(hù)下進(jìn)行數(shù)據(jù)挖掘的研究,隨著人們對客戶隱私安全的重視,開發(fā)完備的保護(hù)機(jī)制成為數(shù)據(jù)挖掘在市場應(yīng)用中繼續(xù)發(fā)展的首要任務(wù)。首先,數(shù)據(jù)公司應(yīng)與客戶溝通,共同制定符合雙方利益的隱私保護(hù)標(biāo)準(zhǔn),確保所有業(yè)務(wù)都在此標(biāo)準(zhǔn)下進(jìn)行。其次,數(shù)據(jù)產(chǎn)業(yè)應(yīng)合并技術(shù)指標(biāo),全面保護(hù)客戶信息。最后,在保護(hù)機(jī)制建設(shè)完成后,需要及時有效地解決信息漏洞,均衡不同方法之間的準(zhǔn)確性。同時,加密技術(shù)對于保護(hù)個人信息的作用不可忽視,但很多人對此不熟悉,因此需要加強(qiáng)信息監(jiān)管力度,對數(shù)據(jù)客戶負(fù)責(zé)到底。目前,數(shù)據(jù)行業(yè)發(fā)展迅速,社會各領(lǐng)域?qū)ζ湫枨笠苍絹碓酱?。在理論研究進(jìn)一步完善的基礎(chǔ)上,數(shù)據(jù)挖掘的發(fā)展趨勢一片大好,前景無限。研究學(xué)者將研究重點放在生物工程、基因挖掘領(lǐng)域,針對各行業(yè)的數(shù)據(jù)現(xiàn)狀,研究數(shù)據(jù)挖掘在網(wǎng)絡(luò)建設(shè)發(fā)展中的運用。理論研究的最終目標(biāo)是根據(jù)部分用戶的每日點擊率累積在眾多數(shù)據(jù)中且有用的信息,保證運用某些算法可以精確辨別信息價值。數(shù)據(jù)挖掘技術(shù)已經(jīng)不僅作為背景,而且已經(jīng)作為前景對人類產(chǎn)生影響。數(shù)據(jù)挖掘產(chǎn)業(yè)鏈龐大,行情復(fù)雜多變,應(yīng)用于領(lǐng)域發(fā)展廣泛。因此,研發(fā)一種一勞永逸且融合多種算法模型的軟件技術(shù)代替復(fù)雜的研發(fā)過程很不現(xiàn)實。對于不同的數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)挖掘算法和技術(shù)問題不能進(jìn)行資源分享,彼此無法溝通,很難做到標(biāo)準(zhǔn)化處理。因此,面對數(shù)據(jù)需求量極大的行業(yè)要求,數(shù)據(jù)挖掘領(lǐng)域應(yīng)該發(fā)明一套屬于自身行業(yè)的標(biāo)準(zhǔn)化模式,可以應(yīng)用在數(shù)據(jù)語言、挖掘行為以及系統(tǒng)程序中。這種標(biāo)準(zhǔn)必須實用、權(quán)威且目的性強(qiáng),能夠為未來的數(shù)據(jù)挖掘提供強(qiáng)有力的工具,實現(xiàn)各行業(yè)的應(yīng)用需要。同時,數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化語言也能夠在各種數(shù)據(jù)庫系統(tǒng)中完成數(shù)據(jù)交接與分享,對建立數(shù)據(jù)模型和完善挖掘方法都會

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論