大數(shù)據(jù)高職系列教材之數(shù)據(jù)挖掘基礎(chǔ)教學課件:第6章數(shù)據(jù)挖掘應(yīng)用案例_第1頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)挖掘基礎(chǔ)教學課件:第6章數(shù)據(jù)挖掘應(yīng)用案例_第2頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)挖掘基礎(chǔ)教學課件:第6章數(shù)據(jù)挖掘應(yīng)用案例_第3頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)挖掘基礎(chǔ)教學課件:第6章數(shù)據(jù)挖掘應(yīng)用案例_第4頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)挖掘基礎(chǔ)教學課件:第6章數(shù)據(jù)挖掘應(yīng)用案例_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材數(shù)據(jù)挖掘基礎(chǔ)第1頁,共42頁。第六章數(shù)據(jù)挖掘應(yīng)用案例6.1電力行業(yè)采用聚類方法進行主變油溫分析6.2 銀行信貸評價 習題 6.3 指數(shù)預(yù)測 6.4 客戶分群的精準智能營銷 6.5 使用WEKA進行房屋定價大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第2頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例電力系統(tǒng)中的重要設(shè)備有很多,如油浸式變壓器,其運行是否正常將影響到電網(wǎng)能否安全穩(wěn)定運行,對其運行的監(jiān)控尤為重要?,F(xiàn)有的變壓器異常狀態(tài)的識別方法通用性差、故障發(fā)現(xiàn)滯后且成本高昂,無法適應(yīng)大數(shù)據(jù)時代國家電網(wǎng)的發(fā)展。第3頁,共42頁。6.1 電力行業(yè)采用聚類方法進

2、行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例在變壓器運行的運行周期中,油溫狀態(tài)是影響變壓器運行和負載能力的重要因素。所以變壓器油溫異常的甄別對變壓器及線路的安全運行具有很高的實用價值。為了及時發(fā)現(xiàn)變壓器油溫異常,就需要對變壓器平時正常運行時油溫的狀況有清晰的了解并作為比對基準。采用大數(shù)據(jù)的方法,通過聚類分析,挖掘出變壓器正常運行的油溫分布狀況,為及時發(fā)現(xiàn)油溫異常提供了判斷依據(jù)。需求背景及采用的大數(shù)據(jù)分析方法第4頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例把正常運行油溫分成幾個區(qū)間段,分析各區(qū)間段的油溫出現(xiàn)次數(shù)分布,并計算出該區(qū)間段的油溫次數(shù)分布中心點。而根據(jù)中心

3、點的偏離程度即閾值作為設(shè)備異常的預(yù)判是有較大參考價值的。采用聚類K-Means分析方法在Spark集群上實現(xiàn)需求背景及采用的大數(shù)據(jù)分析方法第5頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例Spark集群第6頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例rootslave1 spark# /usr/cstor/hadoop/bin/hdfs dfs -cat /34/in/kmeans_data.txt 17/11/07 23:15:38 WARN util.NativeCodeLoader: Unable to load

4、native-hadoop library for your platform. using builtin-java classes where applicable0.2 10000.2 9000.2 10500.4 15000.4 14500.4 15300.6 25000.6 24300.6 25200.8 20000.8 19600.8 20301.0 12001.0 11601.0 1230該數(shù)據(jù)文件分成多行,每行分別顯示溫度區(qū)間(經(jīng)過轉(zhuǎn)換)及其出現(xiàn)次數(shù)。查看油溫數(shù)據(jù)第7頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例rootslave1 # /u

5、sr/cstor/spark/bin/spark-shell -master spark:/master:7077scalaimport breeze.linalg.Vector, DenseVector, squaredDistanceimport org.apache.spark.SparkConf, SparkContextimport org.apache.spark.SparkContext._def parseVector(line: String): VectorDouble = DenseVector(line.split( ).map(_.toDouble) /* 定義方法

6、Vector, 把每行數(shù)據(jù)轉(zhuǎn)換成向量 */在Spark集群上執(zhí)行K-Means程序(處理該數(shù)據(jù)集)第8頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例def closestPoint(p: VectorDouble, centers: ArrayVectorDouble): Int = var bestIndex = 0var closest = Double.PositiveInfinityfor (i - 0 until centers.length) val tempDist = squaredDistance(p, centers(i)if (temp

7、Dist convergeDist) val closest = data.map (point = (closestPoint(point, kPoints), (point, 1) /* 找離point 最近的中心點 */val pointStats = closest.reduceByKeycase (p1, q1), (p2, q2) = (p1 + p2, q1 + q2)val newPoints = pointStats.map pair =(pair._1, pair._2._1 * (1.0 / pair._2._2).collectAsMap() /* 聲明常量實例newP

8、oints ,并計算新的中心點*/在Spark集群上執(zhí)行K-Means程序(處理該數(shù)據(jù)集)第11頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例tempDist = 0.0for (i - 0 until K) tempDist += squaredDistance(kPoints(i), newPoints(i)/* 計算新舊中心點的距離 */for (newP - newPoints) kPoints(newP._1) = newP._2println(Finished iteration (delta = + tempDist + )在Spark集群上執(zhí)

9、行K-Means程序(處理該數(shù)據(jù)集)第12頁,共42頁。6.1 電力行業(yè)采用聚類方法進行主變油溫分析第六章 數(shù)據(jù)挖掘應(yīng)用案例println(Final centers:)kPoints.foreach(println) /* 打印輸出結(jié)果 */Final centers:DenseVector(0.4, 1493.3333333333333)DenseVector(0.5999999999999999, 2483.333333333333)DenseVector(0.8, 1996.6666666666665)DenseVector(1.0, 1196.6666666666665)DenseV

10、ector(0.2, 983.3333333333333)在Spark集群上執(zhí)行K-Means程序(處理該數(shù)據(jù)集)第13頁,共42頁。第六章數(shù)據(jù)挖掘應(yīng)用案例 6.2 銀行信貸評價 習題 6.3 指數(shù)預(yù)測 6.4 客戶分群的精準智能營銷 6.5 使用WEKA進行房屋定價6.1電力行業(yè)采用聚類方法進行主變油溫分析大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第14頁,共42頁。6.2 銀行信貸評價第六章 數(shù)據(jù)挖掘應(yīng)用案例評估機構(gòu)會利用信用評分模型對客戶的信息進行量化分析,從而評定客戶的信用等級,可以更好地控制風險,減少不良貸款的發(fā)生率。Ranshami提出了兩種方法進行信用評價,多重判別分析和神經(jīng)網(wǎng)絡(luò),并且發(fā)現(xiàn)神經(jīng)網(wǎng)

11、絡(luò)分類器的預(yù)測結(jié)果顯著優(yōu)于統(tǒng)計回歸模型。之后,有更多專家將神經(jīng)網(wǎng)絡(luò)和回歸及基因算法在客戶信用評分中進行了對比。第15頁,共42頁。6.2 銀行信貸評價第六章 數(shù)據(jù)挖掘應(yīng)用案例神經(jīng)網(wǎng)絡(luò)(NN),就是構(gòu)建一個含有輸入層、輸出層和隱含層的模型,其中隱含層可以有多層,這組輸入和輸出單元相互連接,單元之間的每個連接都設(shè)置一個權(quán)重。輸入層中神經(jīng)元數(shù)目根據(jù)數(shù)據(jù)集中的屬性數(shù)目確定,輸出層為一個神經(jīng)元,經(jīng)過訓練,設(shè)定迭代次數(shù)和誤差及求出每個神經(jīng)元的權(quán)重,確定模型,對輸入數(shù)據(jù)進行預(yù)測。由于“反向傳播”的英文叫做Back-Propagation,所以這個算法也常常被學者簡稱為BP算法。反向傳播算法分為兩步進行:正向

12、傳播:輸入的樣本從輸入層經(jīng)過隱單元一層一層進行處理,通過所有的隱層之后,傳向輸出層。反向傳播:把誤差信號按原來正向傳播的通路反向傳回,并對每個隱層的各個神經(jīng)元的權(quán)系數(shù)進行修改,以使誤差信號趨向最小。 BP算法的實質(zhì)是,求取誤差函數(shù)最小值問題。第16頁,共42頁。6.2 銀行信貸評價第六章 數(shù)據(jù)挖掘應(yīng)用案例神經(jīng)網(wǎng)絡(luò)(NN),就是構(gòu)建一個含有輸入層、輸出層和隱含層的模型,其中隱含層可以有多層,這組輸入和輸出單元相互連接,單元之間的每個連接都設(shè)置一個權(quán)重。輸入層中神經(jīng)元數(shù)目根據(jù)數(shù)據(jù)集中的屬性數(shù)目確定,輸出層為一個神經(jīng)元,經(jīng)過訓練,設(shè)定迭代次數(shù)和誤差及求出每個神經(jīng)元的權(quán)重,確定模型,對輸入數(shù)據(jù)進行預(yù)測

13、。由于“反向傳播”的英文叫做Back-Propagation,所以這個算法也常常被學者簡稱為BP算法。反向傳播算法分為兩步進行:正向傳播:輸入的樣本從輸入層經(jīng)過隱單元一層一層進行處理,通過所有的隱層之后,傳向輸出層。反向傳播:把誤差信號按原來正向傳播的通路反向傳回,并對每個隱層的各個神經(jīng)元的權(quán)系數(shù)進行修改,以使誤差信號趨向最小。 BP算法的實質(zhì)是,求取誤差函數(shù)最小值問題。第17頁,共42頁。6.2 銀行信貸評價第六章 數(shù)據(jù)挖掘應(yīng)用案例BPNN在WEKA中表現(xiàn)為MultiLayerPerceptron,其具體可調(diào)節(jié)參數(shù)有L,M,N。其中L為學習率,M為沖量,N為迭代次數(shù)。第一組實驗:對數(shù)據(jù)進行1

14、0 - folds Cross validation(L=0.3,M=0.9,N=500,使用數(shù)據(jù)集為China Credit Data)。實驗結(jié)果如下: 實際 預(yù)測GoodBadGoodTP=113FP=37BadFN=43TN=48結(jié)果分析Type1 error25.0%Type2 error47.3%HiteRate66.5%第18頁,共42頁。6.2 銀行信貸評價第六章 數(shù)據(jù)挖掘應(yīng)用案例(1)HitRate:命中率,即預(yù)測準確的數(shù)據(jù)量的百分比。(2)Type1 error: 將bad數(shù)據(jù)預(yù)測為good數(shù)據(jù)的百分比。(3) Type2 error:將good數(shù)據(jù)預(yù)測為bad數(shù)據(jù)的百分比第

15、19頁,共42頁。6.2 銀行信貸評價第六章 數(shù)據(jù)挖掘應(yīng)用案例第二組實驗:對數(shù)據(jù)進行10-folds Cross validation(L=0.3,M=0.9,N=500,使用數(shù)據(jù)集為German Credit Data)。實驗結(jié)果如下: 實際 預(yù)測GoodBadGoodTP=465FP=235BadFN=142TN=158結(jié)果分析Type1 error33.6%Type2 error47.3%HiteRate62.3%第20頁,共42頁。第六章數(shù)據(jù)挖掘應(yīng)用案例6.2 銀行信貸評價 習題 6.4 客戶分群的精準智能營銷 6.5 使用WEKA進行房屋定價6.3 指數(shù)預(yù)測6.1電力行業(yè)采用聚類方法

16、進行主變油溫分析大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第21頁,共42頁。6.3 金融指數(shù)預(yù)測第六章 數(shù)據(jù)挖掘應(yīng)用案例金融市場的數(shù)據(jù)大都是時間序列數(shù)據(jù),指這些數(shù)據(jù)是按照時間的排序取得的一系列觀測值,如股票或期貨價格、貨幣利率、外匯利率等。這些數(shù)據(jù)具有復(fù)雜的變化規(guī)律,而利用數(shù)學方法對其進行分析和研究將有助于制定更為精確的定價和預(yù)測決策,對于金融投資與風險管理活動具有重要的意義。金融市場中數(shù)據(jù)由于各種偶然因素的影響,即使不存在暗箱操作,或沒有什么重要新聞、重要政策出臺,也會表現(xiàn)一種小幅的隨機波動。這些隨機波動可以看成是信號的噪聲,不具有分析和預(yù)測的價值,而且這些隨機波動往往嚴重地影響了進一步的分析和處理。因而

17、在做金融事件序列的建模分析之前,往往對數(shù)據(jù)進行預(yù)處理,消除這些噪音。小波消噪的步驟:1、小波分解2、閥值處理3、小波消噪及重構(gòu)支持向量機(support vector machine, SVM)是數(shù)據(jù)挖掘中的一項新技術(shù),是借助于最優(yōu)化方法解決機器學習問題的新工具。第22頁,共42頁。6.3 金融指數(shù)預(yù)測第六章 數(shù)據(jù)挖掘應(yīng)用案例國信證券公司曾經(jīng)使用基于小波分析和支持向量機的指數(shù)預(yù)測模型對滬深300指數(shù)走勢。選擇了應(yīng)用50個交易日為訓練集預(yù)測5個交易日的方法,繪制了下面的近一年滬深300預(yù)測圖形。發(fā)現(xiàn)預(yù)測走勢有滯后真實走勢的現(xiàn)象,兩者相關(guān)系數(shù)為0.78,預(yù)測每日漲跌的準確率為68.5%。如圖所示,

18、藍色線是真實走勢,紅色線是預(yù)測走勢。第23頁,共42頁。第六章數(shù)據(jù)挖掘應(yīng)用案例6.2 銀行信貸評價 習題 6.5 使用WEKA進行房屋定價 6.4 客戶分群的精準智能營銷6.1電力行業(yè)采用聚類方法進行主變油溫分析6.3 指數(shù)預(yù)測大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第24頁,共42頁。6.4 客戶分群的精準營銷第六章 數(shù)據(jù)挖掘應(yīng)用案例數(shù)據(jù)挖掘的價值包括:爭取更多的客戶減少客戶流失率提高企業(yè)的運營效率優(yōu)化服務(wù)精準的市場營銷策略制定第25頁,共42頁。6.4 客戶分群的精準營銷第六章 數(shù)據(jù)挖掘應(yīng)用案例業(yè)務(wù)理解公眾客戶、商業(yè)客戶、大客戶數(shù)據(jù)理解客戶信息、客戶消費及購買使用行為數(shù)據(jù)準備選擇、清洗、構(gòu)造、整合、格式

19、化模型建立數(shù)據(jù)探索,因子分析,生成細分模型,模型分析,模型評估,模型發(fā)布第26頁,共42頁。6.4 客戶分群的精準營銷第六章 數(shù)據(jù)挖掘應(yīng)用案例模型輸入包括兩部分:建模專家樣本數(shù)據(jù)的輸入和建模參數(shù)的輸入,可以定義幾組數(shù)據(jù)作為細分變量。細分變量來源細分變量描述通話范圍本地通話國內(nèi)長途國際長途活動范圍省內(nèi)漫游國內(nèi)漫游國際漫游跨網(wǎng)情況網(wǎng)內(nèi)通話運營商A通話運營商B通話固話細分變量來源細分變量描述數(shù)據(jù)業(yè)務(wù)上網(wǎng)流量短信彩信客服營業(yè)廳現(xiàn)場辦理網(wǎng)站辦理手機APP辦理電話辦理第27頁,共42頁。6.4 客戶分群的精準營銷第六章 數(shù)據(jù)挖掘應(yīng)用案例特征刻畫首先進行客戶群特征粗略定性比較分析,然后可以利用透視圖等工具對

20、各客戶群寬表變量分類進行詳細的定量刻畫。表中是各組相對強弱勢情況比較。分組號細分編號強勢特征弱勢特征組1低使用率組1無無組2 固話聯(lián)系緊密組2與固定電話通話多本地、省內(nèi)長途漫游、省間長途、短信、IP、跨運營商通話組3中低使用率組3與固定電話通話多省級長途,IP電話4無跨運營商通話組4跨網(wǎng)通話組5跨網(wǎng)通話時長,次數(shù)漫游6跨網(wǎng)通話時長,次數(shù)無組6短信使用組7短信,客服電話無組7 本地通話組8本地通話時長,次數(shù)無組8上網(wǎng)流量組9上網(wǎng)流量大無第28頁,共42頁。6.4 客戶分群的精準營銷第六章 數(shù)據(jù)挖掘應(yīng)用案例組號人群特征分析市場策略技術(shù)敏感組新業(yè)務(wù)使用頻率高,是鐵桿粉絲推廣新業(yè)務(wù)先讓該組人嘗試高端本

21、地商務(wù)組大量本地通話,年齡在35歲以上,可能是商務(wù)或者政府機關(guān)人員體現(xiàn)關(guān)懷,重點挽留中端移動商務(wù)組大量長途,漫游通話需求,估計包括業(yè)務(wù)員,中端商旅人士推薦漫游話費包高端移動商務(wù)組大量長途漫游,對資費不敏感贈送積分,禮品等學生組通話少,上網(wǎng)短信多推薦校園網(wǎng)業(yè)務(wù)得到典型群體用戶,采取相應(yīng)的市場策略第29頁,共42頁。第六章數(shù)據(jù)挖掘應(yīng)用案例6.2 銀行信貸評價 習題6.4 客戶分群的精準智能營銷6.5 使用WEKA進行房屋定價6.1電力行業(yè)采用聚類方法進行主變油溫分析6.3 指數(shù)預(yù)測大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第30頁,共42頁。6.5 房屋定價第六章 數(shù)據(jù)挖掘應(yīng)用案例WEKA的開始界面第31頁,共4

22、2頁。6.5 房屋定價第六章 數(shù)據(jù)挖掘應(yīng)用案例選擇Explorer后啟動第32頁,共42頁。6.5 房屋定價第六章 數(shù)據(jù)挖掘應(yīng)用案例WEKA 建議的加載數(shù)據(jù)的格式是 Attribute-Relation File Format (ARFF),可以在其中定義所加載數(shù)據(jù)的類型,然后再提供數(shù)據(jù)本身。在這個文件內(nèi),我們定義了每列以及每列所含內(nèi)容。對于回歸模型,只能有 NUMERIC 或 DATE 列。RELATION houseATTRIBUTE houseSize NUMERICATTRIBUTE lotSize NUMERICATTRIBUTE bedrooms NUMERICATTRIBUTE

23、granite NUMERICATTRIBUTE bathroom NUMERICATTRIBUTE sellingPrice NUMERICDATA3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9365,5,0,1,230000第33頁,共42頁。6.5 房屋定價第六章 數(shù)據(jù)挖掘應(yīng)用案例選擇 Open File 按鈕并選擇在上一節(jié)中創(chuàng)建的 ARFF 文件第34頁,共42頁。6.5 房屋定價第六章 數(shù)據(jù)挖掘應(yīng)用案例為了創(chuàng)建模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論