《大數(shù)據(jù)技術應用基礎》課件項目五數(shù)據(jù)分析

上傳人：h*** IP屬地：山東上傳時間：2024-03-13 格式：PPTX 頁數(shù)：123 大?。?.95MB 積分：20 舉報 版權申訴

《大數(shù)據(jù)技術應用基礎》課件項目五數(shù)據(jù)分析_第2頁

《大數(shù)據(jù)技術應用基礎》課件項目五數(shù)據(jù)分析_第3頁

《大數(shù)據(jù)技術應用基礎》課件項目五數(shù)據(jù)分析_第4頁

《大數(shù)據(jù)技術應用基礎》課件項目五數(shù)據(jù)分析_第5頁

已閱讀5頁，還剩118頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

項目五數(shù)據(jù)分析《大數(shù)據(jù)技術應用基礎》模塊一數(shù)據(jù)描述核心目標職業(yè)能力1.熟悉常用的數(shù)據(jù)描述性分析方法，理解數(shù)據(jù)特征、統(tǒng)計參數(shù)、統(tǒng)計量與統(tǒng)計分布之間的關系；2.具備使用數(shù)據(jù)描述性分析的能力，能夠對預處理后的數(shù)據(jù)找到合適的分析方法；3.具備在不同的業(yè)務場景能夠找到合適模型進行分析的能力；4.具備撰寫完整數(shù)據(jù)分析報告的能力；5.具備使用Python進行數(shù)據(jù)建模的能力。職業(yè)素養(yǎng)1.培養(yǎng)描述性分析習慣，對處理完后的數(shù)據(jù)進行初步分析；2.養(yǎng)成專業(yè)業(yè)務素養(yǎng)，根據(jù)專業(yè)業(yè)務選定數(shù)據(jù)分析方法；3.培養(yǎng)數(shù)據(jù)建模思維；4.培養(yǎng)全局思維、合作思維。知識圖譜項目背景學習完數(shù)據(jù)預處理之后，小張開始對他爬取得到的進行了幾種數(shù)據(jù)預處理操作，將最開始混亂的數(shù)據(jù)表格轉化為清晰整潔的數(shù)據(jù)表格。現(xiàn)在，小張可以開始學習正式的數(shù)據(jù)分析相關的知識了，小張即將邁出走向數(shù)據(jù)分析師最關鍵的一步。在本項目中，小張需要學習數(shù)據(jù)的特征描述，以及如何與實際的業(yè)務場景相結合，然后進一步學習相關的統(tǒng)計量以及統(tǒng)計分布最后嘗試自己進行統(tǒng)計建模。除此之外，小張還需要與實際業(yè)務結合，了解業(yè)務場景和經(jīng)營目標間的分析方法以及數(shù)據(jù)分析報告的撰寫方法。0102數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布問題引入在學習完數(shù)據(jù)預處理的相關操作之后，小張通過清洗得到了清晰整潔的數(shù)據(jù)。那么接下來小張需要先對數(shù)據(jù)進行描述性的分析，這需要了解一些統(tǒng)計量與統(tǒng)計分布相關的知識，更重要的是小張需要了解如何將這些知識與實際的業(yè)務場景聯(lián)系在一起。數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系01一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系靜態(tài)數(shù)據(jù)是不同主體在同一時間點或同一時間段的數(shù)據(jù)圖5-1截面數(shù)據(jù)聚類分析判別分析回歸分析因子分析（一）截面數(shù)據(jù)一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系時間序列數(shù)據(jù)指在不同時間點上收集到的數(shù)據(jù)。反映了某一事物、現(xiàn)象等隨時間的變化狀態(tài)或程度。圖5-2截面數(shù)據(jù)（二）時序數(shù)據(jù)一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系“平行數(shù)據(jù)”指在時間序列上取多個截面，在這些截面上同時選取樣本觀測值所構成的樣本數(shù)據(jù)。圖5-3面板數(shù)據(jù)（三）面板數(shù)據(jù)或者說是一個m*n的數(shù)據(jù)矩陣，記載的是n個時間節(jié)點上，m個對象的某一數(shù)據(jù)指標。隨機效應模型03固定效應模型02混合效應模型01常用面板數(shù)據(jù)分析方法一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系（四）非結構化數(shù)據(jù)結構化數(shù)據(jù)高度組織和整齊格式化的數(shù)據(jù)?？梢苑湃氡砀窈碗娮颖砀裰械臄?shù)據(jù)類型。與非結構化數(shù)據(jù)相比，是更容易使用的數(shù)據(jù)類型。數(shù)據(jù)運用十分方便，商業(yè)上的可挖掘價值方面比較差。01日期02地址03信用卡號碼格式固定失去多樣性一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系（四）非結構化數(shù)據(jù)非結構化數(shù)據(jù)除了結構化數(shù)據(jù)以外的所有數(shù)據(jù)都可稱之為非結構化數(shù)據(jù)，是數(shù)據(jù)結構不規(guī)則或不完整，沒有預定義的數(shù)據(jù)模型，不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。所有格式的辦公文檔文本圖片HTML各類報表圖像和音頻/視頻信息一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務場景的關系（四）非結構化數(shù)據(jù)物聯(lián)網(wǎng)、工業(yè)4.0、視頻直播產(chǎn)生了更多的非結構化數(shù)據(jù)。人工智能、機器學習、語義分析、圖像識別等技術方向需要大量的非結構化數(shù)據(jù)來開展工作。非結構化數(shù)據(jù)以及占據(jù)企業(yè)數(shù)據(jù)的80%以上。非結構化數(shù)據(jù)不符合任何預定義的模型，傳統(tǒng)的數(shù)據(jù)分析工具和方法已不足以適用于非結構化數(shù)據(jù)。數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布02二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布常見的統(tǒng)計參數(shù)反映數(shù)據(jù)離散程度：異眾比率、四分位數(shù)、極差、平均差、方差、標準差、標準分數(shù)和切比雪夫不等式反映相對離散程度：離散系數(shù)（變異系數(shù)）等反映分布形態(tài)：偏態(tài)系數(shù)、峰態(tài)系數(shù)等反映數(shù)據(jù)集中趨勢：眾數(shù)、分位數(shù)和均值等二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布常見的統(tǒng)計量統(tǒng)計量用于估計統(tǒng)計參數(shù)的變量。統(tǒng)計距離統(tǒng)計分布刻畫兩個樣本（記錄）之間的相似程度。描繪一個隨機變量的分布規(guī)律，最常見的分布為正態(tài)分布。01樣本均值02樣本方差03樣本標準差二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（一）集中趨勢指標1．眾數(shù)一列數(shù)據(jù)中出現(xiàn)最多次數(shù)的一個圖5-4抽取出來并處理后的凈含量數(shù)據(jù)代碼5-1importpandasaspd#導入pandas庫并記為pddf=pd.read_excel('C:/下載/茶葉凈含量數(shù)據(jù).xlsx')#讀取數(shù)據(jù)mode=df['凈含量'].mode()#求眾數(shù)print(mode)輸出結果0500dtype:int64案例：選取數(shù)據(jù)表中“凈含量”一列求眾數(shù)，代碼命令與輸出結果如代碼5-1所示。（在數(shù)據(jù)中心中下載茶葉凈含量數(shù)據(jù).xlsx）二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（一）集中趨勢指標眾數(shù)不受極端值的影響，適合分類數(shù)據(jù)。特殊情況下可能出現(xiàn)多個眾數(shù)。例如：一場有40人參加的考試中有15人考了95分且同時有另外15人考了100分，剩下的同學隨機分布在各個分數(shù)段，則出現(xiàn)了100分和95分兩個眾數(shù)。1．眾數(shù)一列數(shù)據(jù)中出現(xiàn)最多次數(shù)的一個二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（一）集中趨勢指標2．分位數(shù)表示一列數(shù)據(jù)中處于某個位置的值案例：利用pandas可以輕松求出任意分位數(shù)，以凈含量為例，代碼命令與輸出結果如代碼5-2所示。代碼5-2importpandasaspd#導入pandas庫并記為pddf=pd.read_excel('C:/下載/茶葉凈含量數(shù)據(jù).xlsx')#讀取數(shù)據(jù)q1=df['凈含量'].quantile(0.25)#求上四分位數(shù)q2=df['凈含量'].quantile(0.50)#求中位數(shù)q3=df['凈含量'].quantile(0.75)#求下四分位數(shù)print(q1)print(q2)print(q3)輸出結果160.0250.0500.0相比于眾數(shù)，中位數(shù)具有唯一性，也不受極端值影響，更適合定序數(shù)據(jù)。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（一）集中趨勢指標3．均值即平均值。一列數(shù)據(jù)之和除以數(shù)據(jù)個數(shù)所得到的的值案例：使用茶葉商品凈含量作為示例，代碼命令與輸出結果如代碼5-3所示。代碼5-3importpandasaspd#導入pandas庫并記為pddf=pd.read_excel('C:/下載/茶葉凈含量數(shù)據(jù).xlsx')#讀取數(shù)據(jù)mean=df['凈含量'].mean()

#求均值print(mean)輸出結果310.95705521472394相比與眾數(shù)與中位數(shù)，均值易受極端值影響，同時也不具有唯一性，適合數(shù)值型數(shù)據(jù)。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標1．四分位差下四分位數(shù)與上四分位數(shù)之差四分位差：500-160=340說明第四分之一大的數(shù)據(jù)與第四分之三大的數(shù)據(jù)相差了340。相差越大則說明數(shù)據(jù)越離散，即分散的越開。與分位數(shù)一致，四分位差不受極端值的影響，適合順序數(shù)據(jù)而不適合分類數(shù)據(jù)。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標2．極差

又稱全距，一列數(shù)據(jù)的最大值與最小值之差。在Pandas中使用“max”屬性減去“min”屬性即可得到（例5-3代碼中的“mean”改成“max”或“min”即可），極差反映的是數(shù)據(jù)最大的變動范圍。優(yōu)點：計算非常簡單，極差越大則說明數(shù)據(jù)的離散程度越大。

用茶葉數(shù)據(jù)的凈含量列，求出的最小值為30g，最大值為670g，則極差為640g。說明茶葉商品的凈含量最大的與最小的之間相差了640g。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標2．極差

又稱全距，一列數(shù)據(jù)的最大值與最小值之差。極差只能反映一列數(shù)據(jù)兩個端點的情況，不能反映中間數(shù)據(jù)的情況，且非常容易受到極端值的影響，不能準確地描述出數(shù)據(jù)的離散程度。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標表5-1測試成績表XY150732100703100754607255070均值7272例如：兩人的5次測驗成績如表5-1所示，X、Y兩人平均成績均為72，但X不穩(wěn)定，對平均值的偏離大，Y的五次成績則都與平均值很接近，對平均值的偏離小。方差就是用來描述這種關系的，解釋為隨機變量對于數(shù)學期望的偏離程度。3．方差與標準差

二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標方差計算公式

3．方差與標準差

二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標標準差計算公式標準差由方差計算而來，將方差開平方根即可得到標準差，即標準差乘標準差等于方差。方差或標準差越大則代表數(shù)據(jù)的離散程度越大。

3．方差與標準差

二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標3．方差與標準差

方差與標準差有單位。標準差與數(shù)據(jù)值的單位是保持一致，所以標準差更為常用。因涉及到數(shù)學運算，所以方差與標準差更適用于數(shù)值型數(shù)據(jù)。相對于極差而言，方差與標準差考慮到每一個數(shù)據(jù)值對離散程度的影響，在準確性方面會優(yōu)于極差，但計算方面會相對復雜。在Pandas中也可以使用var屬性可以得到方差，使用std屬性可以得到標準差。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標4．標準分數(shù)對應數(shù)據(jù)預處理中的標準化，標準化后的值除了在數(shù)據(jù)預處理中提及的作用以外，在度量離散程度方面也有用處。標準化之后的數(shù)據(jù)值單位為標準差。例如：-1.5則代表比均值低了1.5個標準差。通?？梢哉J為大于或小于3個標準差的數(shù)據(jù)值為離群值，這被稱為六西格瑪原則。又稱“標準化值“二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（二）離散程度指標5．離散系數(shù)又稱“變異系數(shù)“離散系數(shù)是相對離散指標，計算公式為標準差除以均值。離散系數(shù)是一個沒有單位的指標，可以用來比較不同數(shù)據(jù)列之間的離散程度大小。例如：A數(shù)據(jù)列離散系數(shù)為5，B數(shù)據(jù)列離散系數(shù)為10，則可以認為B數(shù)據(jù)列的離散程度相較于A數(shù)據(jù)列更高。生產(chǎn)與銷售場景中離散程度越低穩(wěn)定性越高二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（三）統(tǒng)計量不含未知參數(shù)的樣本函數(shù)，最大特征：不含任何未知的參數(shù)。概念什么是樣本函數(shù)呢？二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（三）統(tǒng)計量在數(shù)據(jù)分析過程中，研究對象的所有單位就稱之為總體，而從總體中抽出的一部分單位則稱之為樣本?？傮w與樣本研究市場上的茶葉商品價格總體：所有的茶葉商品的價格樣本：通過爬蟲爬取到的三百多條茶葉品類數(shù)據(jù)，并不能涵蓋所有的茶葉商品，可視為總體的一個抽樣樣本。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（三）統(tǒng)計量案例：以小張爬取的茶葉品類數(shù)據(jù)中的凈含量為例。假設預處理之后剩下300個數(shù)據(jù)，分別記為X1、X2、……X300我要了解整個市場所有茶葉商品的凈含量，即總體。已知的只有300種商品的凈含量。用樣本來估計總體，統(tǒng)計量承擔著工具的作用。常用的統(tǒng)計量有樣本均值、樣本方差和樣本標準差等。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（四）統(tǒng)計距離在一個二維平面中，若要衡量兩個坐標點（假設為x點與y點）之間的距離，可以使用歐式距離，如圖5-5所示。圖5-5二維空間歐氏距離若B點坐標為（3,0），M點坐標為（0，-4），則它們間的歐氏距離為5，通過(3-0)2+[0-(-4)]2=25，25再開平方跟可以得到。計算公式：d代表距離的符號x點的坐標為（x1，x2）y點的坐標為（y1，y2）。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布若此時B點坐標為（3,0,13），M點坐標為（0，-4,1）,通過(3-0)2+[0-(-4)]2+(13-1)2=169，169再經(jīng)過開平方根得到13，即為此時B和M間的歐氏距離。（四）統(tǒng)計距離計算公式：x點的坐標為（x1，x2，......，xn）y點的坐標為（y1，y2，......，yn）二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布歐式距離的定義如式：（四）統(tǒng)計距離P，Q是兩個樣本X，Y分別是它們的數(shù)據(jù)矩陣A是對稱陣，對不同的統(tǒng)計距離A矩陣各部不同二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布常用的統(tǒng)計距離之一——馬氏距離在一維場合下的定義式（四）統(tǒng)計距離s代表標準差馬氏距離表示點與一個分布之間的距離，它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是，它考慮到各種特性之間的聯(lián)系。在實際度量兩個樣本的相似性時，馬氏距離是比歐氏距離更優(yōu)秀的替代品。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布統(tǒng)計分布亦稱“次數(shù)（頻數(shù)）分布（分配）”。（五）統(tǒng)計分布在統(tǒng)計分組的基礎上，將總體中的所有單位按組歸類整理，形成總體單位在各組間的分布。分布在各組中的單位數(shù)叫做次數(shù)或頻數(shù)。各組次數(shù)與總次數(shù)（全部總體單位數(shù)）之比，稱為比率或頻率。將各組別與次數(shù)依次編排而成的數(shù)列就叫做統(tǒng)計分布數(shù)列，簡稱分布數(shù)列或分配數(shù)列。作用：反映總體中所有單位在各組間的分布狀態(tài)和分布特征。統(tǒng)計分布及其分布數(shù)列，可以用表格或圖形來表示。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布（五）統(tǒng)計分布離散分布的值只在有限或者可數(shù)的點取到連續(xù)分布的值可以取到一個區(qū)間內的任意值二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布1.二項分布（五）統(tǒng)計分布二項分布描述的是隨機事件如果發(fā)生了n次，那么出現(xiàn)成功的次數(shù)為k次的可能性（即概率）。案例：下雨的幾率是70%，如果有兩天，假設這兩天沒有聯(lián)系，那么兩天都下雨的概率為70%×70%=49%；一天下雨一天不下雨的概率為70%×30%×2=42%，而兩天都不下雨的概率為30%×30%=9%。這三個概率相加為1，表示事情發(fā)生只有這三種可能性，而這樣的分布情況正是二項分布。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布1.二項分布（五）統(tǒng)計分布圖5-6二項分布二項分布具有兩個參數(shù)：一個是事件發(fā)生的次數(shù)n。一個是只有兩種結果的隨機事件中其中之一（可以認為是成功事件）發(fā)生的概率p。如圖5-6所示，二項分布是離散型分布，在圖像上表示為離散的點。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布2.正態(tài)分布（五）統(tǒng)計分布圖5-7正態(tài)曲線圖也稱“常態(tài)分布”，又名高斯分布。正態(tài)曲線呈鐘型，兩頭低，中間高，左右對稱因其曲線呈鐘形，因此人們又經(jīng)常稱之為鐘形曲線許多的統(tǒng)計模型和分析方法都以正態(tài)分布作為基礎，如方差分析、回歸分析的正態(tài)假設等。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布3.擬合分布（五）統(tǒng)計分布對于一個隨機變量（屬性），如果需要研究它的分布，可以嘗試使用已知的分布類型去擬合它。擬合就是把平面上一系列的點，用一條光滑的曲線連接起來。因為這條曲線有無數(shù)種可能，從而有各種擬合方法。擬合的曲線一般可以用函數(shù)表示，根據(jù)這個函數(shù)的不同有不同的擬合名字。二、數(shù)據(jù)參數(shù)與統(tǒng)計量、距離、模擬統(tǒng)計分布3.擬合分布（五）統(tǒng)計分布圖5-8二次函數(shù)擬合紅點為樣本點，藍色曲線為擬合曲線，光滑曲線為一元二次函數(shù)，為二次函數(shù)擬合，除此之外，也可以用其它函數(shù)如指數(shù)函數(shù)等擬合一條與樣本點相近的光滑曲線。探討實踐梳理本節(jié)所學知識點的相互聯(lián)系，構建描述性統(tǒng)計知識框架。拓展訓練嘗試對小張爬取的茶葉品類數(shù)據(jù)做更多描述性統(tǒng)計分析。謝謝觀看項目五數(shù)據(jù)分析《大數(shù)據(jù)技術應用基礎》模塊二

數(shù)據(jù)建模核心目標職業(yè)能力1.熟悉常用的數(shù)據(jù)描述性分析方法，理解數(shù)據(jù)特征、統(tǒng)計參數(shù)、統(tǒng)計量與統(tǒng)計分布之間的關系；2.具備使用數(shù)據(jù)描述性分析的能力，能夠對預處理后的數(shù)據(jù)找到合適的分析方法；3.具備在不同的業(yè)務場景能夠找到合適模型進行分析的能力；4.具備撰寫完整數(shù)據(jù)分析報告的能力；5.具備使用Python進行數(shù)據(jù)建模的能力。核心目標職業(yè)素養(yǎng)1.培養(yǎng)描述性分析習慣，對處理完后的數(shù)據(jù)進行初步分析；2.養(yǎng)成專業(yè)業(yè)務素養(yǎng)，根據(jù)專業(yè)業(yè)務選定數(shù)據(jù)分析方法；3.培養(yǎng)數(shù)據(jù)建模思維；4.培養(yǎng)全局思維、合作思維。知識圖譜項目背景學習完數(shù)據(jù)預處理之后，小張開始對他爬取得到的進行了幾種數(shù)據(jù)預處理操作，將最開始混亂的數(shù)據(jù)表格轉化為清晰整潔的數(shù)據(jù)表格?，F(xiàn)在，小張可以開始學習正式的數(shù)據(jù)分析相關的知識了，小張即將邁出走向數(shù)據(jù)分析師最關鍵的一步。在本項目中，小張需要學習數(shù)據(jù)的特征描述，以及如何與實際的業(yè)務場景相結合，然后進一步學習相關的統(tǒng)計量以及統(tǒng)計分布最后嘗試自己進行統(tǒng)計建模。除此之外，小張還需要與實際業(yè)務結合，了解業(yè)務場景和經(jīng)營目標間的分析方法以及數(shù)據(jù)分析報告的撰寫方法。0102線性回歸法的基本原理線性回歸法的應用問題引入小張已經(jīng)在前文學習了方便快捷的數(shù)據(jù)描述性分析，并且已經(jīng)知道了如何根據(jù)不同的業(yè)務場景與經(jīng)營目標選擇不同的數(shù)據(jù)分析方法，不過他還沒有學習到一個完整的數(shù)據(jù)建模的過程。盡管數(shù)據(jù)的描述性分析可以幫助小張初步提取數(shù)據(jù)中的有效信息，但這還不夠，如果需要更進一步的數(shù)據(jù)分析，小張必須學習如何對數(shù)據(jù)建立模型進行分析，并從中獲取更加有效的信息以及結論。認知實踐本任務主要使用的函數(shù)及變量屬性如表5-2所示。其中主要使用了pandas庫、random庫、numpy庫以及sklearn庫的LinerRegression和train_test_split方法，使用importpandasaspdimportnumpyasnpimportrandomfromsklearnimportLinerRegressionformsklearnimporttrain_test_split導入。其中random是一個專門提供隨機數(shù)的庫，其他的庫在上文已有提及或在下文中詳細介紹。此處通過LinerRegression方法擬合得到的模型其變量名記為reg。認知實踐代碼用途df.corr()求相關系數(shù)random.uniform()獲取一個隨機數(shù)np.array()創(chuàng)建array數(shù)組array.reshape()改變array數(shù)組形狀train_test_split()劃分訓練集與測試集LinearRegression().fit()擬合線性回歸模型reg.predict()使用模型進行預測reg.coef_獲取模型的系數(shù)ercept_獲取模型的截距reg.score()獲取模型的R方值表5-2本節(jié)所出現(xiàn)的新函數(shù)及變量屬性線性回歸法的基本原理01一、線性回歸法的基本原理在1875年，高爾頓想通過進行對豌豆的實驗來確定植物尺寸的遺傳規(guī)律。他挑選了7組尺寸不一的豌豆，并找到他在英國不同地區(qū)的朋友，同時對每一組各種下10粒種子，然后將原來的豌豆種子（下稱父帶）與新長出的豌豆種子（下稱子代）的尺寸進行對比。弗朗西斯·高爾頓一、線性回歸法的基本原理向平均回歸父代大小子代小大豌豆實驗人們將事物極端性的減弱趨勢稱為“回歸效應”。極端性：指事物高于或低于它所在總體的平均值，在高爾頓的實驗中父代的豌豆就是尺寸不一，有的高于均值有的低于均值，這就是極端性的表現(xiàn)，而子代出現(xiàn)的現(xiàn)象正是其極端性減弱的表現(xiàn)。一、線性回歸法的基本原理如在身高上，非常矮小的父輩通常會有偏高的子代，而非常高大的父輩則通常會有偏矮的子代，當然這是相對于他們的父輩而言的。此外，在班級的考試中，成績最差的同學在下一次的考試中傾向于會有更好的成績，而成績最好的同學在下一次的考試中傾向于會有較差的成績，這也是回歸效應的現(xiàn)象之一。圖5-9回歸現(xiàn)象回歸效應遠遠不止能用在豌豆甚至不止用在植物上。考試成績回歸現(xiàn)象一、線性回歸法的基本原理回歸分析是處理變量之間關系的一種統(tǒng)計方法一元回歸：研究兩個變量之間的關系（x與y）二元回歸以及多元回歸：研究三個及三個以上變量間的關系根據(jù)變量之間關系形態(tài)的不同，又可以分為線性回歸與非線性回歸兩類一、線性回歸法的基本原理（一）變量之間的關系強度在許多業(yè)務場景中，都要對變量之間的關系進行研究分析，如廣告支出與銷售量之間的關系，如果了解了它們之間的關系，就可以通過控制廣告支出的費用來得到預期的銷售量。變量之間的關系可以分為兩種，分別是函數(shù)關系與相關關系。一、線性回歸法的基本原理（一）變量之間的關系強度函數(shù)關系與在數(shù)學中學習的一樣，有一個x就一定對應一個y，即y=f(x)的形式，其中y為因變量，x為自變量。但在實際問題中，變量之間往往不是一一對應的，一個變量可能是許多其他變量以及外界因素相互疊加影響得到的結果。一、線性回歸法的基本原理（一）變量之間的關系強度如茶葉的產(chǎn)量，其不止與季節(jié)有關，還和土壤、施肥量、采摘手法等等因素相關，不能找到一一對應的關系，但產(chǎn)量與季節(jié)是一定有關系的，這種關系就稱為相關關系，是區(qū)別于函數(shù)關系的存在。季節(jié)土壤施肥量采摘手法一、線性回歸法的基本原理（一）變量之間的關系強度在線性回歸法中，主要關注的是變量之間線性的關系。變量之間的關系可以通過散點圖來直觀觀察（在第六章中詳細介紹），以及通過線性相關系數(shù)的計算來衡量。一、線性回歸法的基本原理（一）變量之間的關系強度線性相關系數(shù)的值在-1與1之間系數(shù)絕對值的大小度量了兩個變量之間相關強度的大小。當線性相關系數(shù)為-1或1時為完全線性，也就是函數(shù)關系，但大部分的變量線性相關系數(shù)都達不到-1或1。一、線性回歸法的基本原理（一）變量之間的關系強度若線性相關系數(shù)為正則稱兩個變量為正相關，當其中一個變量增加時，另一個變量也會增加；若系數(shù)為負，則稱兩個變量負相關，當其中一個變量增加時，另一個變量就會減少。在Python中可以很方便的實現(xiàn)線性相關系數(shù)的計算，此處使用Python生成的數(shù)據(jù)作為示例，使用的代碼及輸出結果如例5-4所示。一、線性回歸法的基本原理（一）變量之間的關系強度例5-4代碼importpandasaspd#導入pandas庫并命名為pdimportrandom#導入random庫x=[1,2,3,4]#定義列表xy=[i*3+2foriinx]#定義y列表，為x中的元素乘3加2df=pd.DataFrame({'x':x,'y':y})#定義DataFrame對象，數(shù)據(jù)為x和yprint(df.corr())#輸出x與y的相關系數(shù)矩陣y2=[i*3+2+random.uniform(-1,1)foriinx]#定義一個y2列表，為x中的元素乘3加2再加上一個-1到1之間的隨機數(shù)df2=pd.DataFrame({'x':x,'y2':y2})#定義DataFrame對象，數(shù)據(jù)為x和y2print(df2.corr())#輸出x與y2的相關系數(shù)矩陣輸出結果xyx1.01.0y1.01.0x

y2x1.0000000.995357y20.9953571.000000一、線性回歸法的基本原理（一）變量之間的關系強度說明：第一次x與y之間的相關系數(shù)為1，這是因為y完全是由x經(jīng)過線性變換得到的（即加減乘除）。第二次x與y2之間的相關系數(shù)為0.995357，不為1，這是因為加入了隨機數(shù)的干擾，在實際中這樣的干擾因素會有很多所以大部分的變量都不會是函數(shù)關系而是相關關系的。一、線性回歸法的基本原理（二）變量之間的數(shù)量關系相關系數(shù)只是度量兩個變量之間的有無關系，有多強的關系，而回歸分析可以度量變量之間的數(shù)量關系，并通過一定的數(shù)學表達式的形式將這種關系描述出來，如例5-4中y2的數(shù)據(jù)可以用y2=3x+2來表示，但是有一定的偏差?；貧w分析的目的：找到一個表達式使得對所有數(shù)據(jù)偏差的和最小。一、線性回歸法的基本原理（二）變量之間的數(shù)量關系在進行回歸分析時，與數(shù)學中學習函數(shù)類似，需要先確定哪個變量是因變量，通常用y表示，以及哪個變量是自變量或在多元回歸中哪些變量是自變量，通常用x來表示，在多元中可用x1，x2，x3等來表示。一、線性回歸法的基本原理（二）變量之間的數(shù)量關系在一元回歸分析中因變量與自變量都只有一個，可用用如式（5.7）的模型來表示。其中：a和b是未知數(shù)，是根據(jù)已有的數(shù)據(jù)擬合而來??代表隨機誤差，反映x和y之間存在的線性關系之外的隨機因素的干擾或影響一、線性回歸法的基本原理（二）變量之間的數(shù)量關系圖上的圓點代表已知的數(shù)據(jù)直線代表使用已知數(shù)據(jù)擬合出來的未知數(shù)a和b確定的直線虛線代表x值確定的情況下，擬合出來的直線上的值與真實值的差距圖5-10最小二乘法示意圖確定a與b的值一般用最小二乘法，如圖5-2所示：最小二乘法的目的：找到使得所有直線距離的和加起來最小的a和b的值。線性回歸法的應用02二、線性回歸法的應用（一）一元線性回歸刪去品牌、商品名、建議茶具、采摘要求、采摘地、類別、生產(chǎn)許可證號、產(chǎn)品標準號、好評率和網(wǎng)址等屬性。刪除含缺失值的行以及重復行。將商品毛重和凈含量單位轉化為kg。將儲存方法計數(shù)，需要幾種儲存方法對應數(shù)字幾。將保質期轉化為以月為單位。將全部評價、好評、中評和差評單位全部轉化為1條。將發(fā)酵程度、包裝形式進行獨熱編碼。將所有的屬性值都轉化為數(shù)值型。了解了線性回歸法的原理，接下來用具體的例子來講解其應用。針對線性回歸法的數(shù)據(jù)要求，小張對茶葉品類數(shù)據(jù)進行了如下預處理：二、線性回歸法的應用（一）一元線性回歸例5-5輸出結果圖5-11預處理之后的數(shù)據(jù)二、線性回歸法的應用（一）一元線性回歸Scikit-learn（簡稱sklearn）是一個開源的機器學習庫，它支持有監(jiān)督和無監(jiān)督的學習，線性回歸正是有監(jiān)督學習模型的其中一種。此外，它還提供了用于模型擬合，數(shù)據(jù)預處理，模型選擇和評估以及許多其他實用程序的各種工具。在Python中一般不直接調用整個sklearn庫，而時直接調用它的某些方法，使用的代碼為fromsklearnimportxxx。在Python中進行線性回歸主要用到sklearn庫中的LinerRegression方法。二、線性回歸法的應用（一）一元線性回歸使用進行線性回歸建模的主要步驟有：讀取數(shù)據(jù)。將數(shù)據(jù)劃分為因變量X與自變量Y兩部分。將X、Y劃分為訓練集與測試集共四個部分，即X的訓練集、X的測試集、Y的訓練集和Y的測試集四部分。訓練集是為了找到合適的線性模型，而測試集是為了檢驗訓練集所找到的模型準確性有多高而存在的。將X訓練集與Y訓練集傳入LinerRegression方法中進行模型的擬合從而得到模型。假設Y測試集是不知道的，用X測試集代入擬合的模型中得到Y測試集的擬合值。通過Y測試集的擬合值與Y測試集的比較得到衡量模型準確性的指標R方，R方代表回歸方程能夠解釋因變量對自變量影響的部分，R方越接近1說明方程擬合的效果越好。畫出Y測試集的擬合值與Y測試集的比較圖像（此步驟可去）。二、線性回歸法的應用（一）一元線性回歸由于商品的全部評價包含了商品的好評、中評、差評以及用戶未作出的評價，故在案例中將全部評價的值看作商品的銷量，以商品的銷量作為因變量Y，首先進行一元線性回歸，使用價格作為自變量X，使用的代碼與輸出結果如例5-6所示。例5-6輸出結果[44.4281201]74416.51367121126-0.0047959977385665375二、線性回歸法的應用（一）一元線性回歸說明：由輸出結果可以看出得到的模型為y=44.4281201x+74416.51367121126，但是可以看到R方的值小于0，說明模型并沒有參考意義，且圖像中兩條曲線差距較大，說明擬合的并不好。圖5-12一元回歸Y實際值與擬合值的對比二、線性回歸法的應用（二）多元線性回歸下面再進行多個因變量即多元線性回歸進行擬合，建模步驟基本一致，只是因變量的個數(shù)增加了，使用的代碼及輸出結果如例5-7所示。例5-7[4.81459195e+031.91114333e+04-4.58501608e+021.59723690e+00-1.74588875e+001.00240667e+001.25898647e+02-1.16157909e+02-7.34951405e+031.22731003e+044.79654401e+03-1.26984251e+03-8.45028779e+031.06073499e+03-6.62905522e+02-4.64817134e+034.14144644e+038.14954774e+03-8.04065231e+03]8690.9685474139110.943547034130466輸出結果二、線性回歸法的應用（二）多元線性回歸圖5-13多元回歸Y實際值與擬合值的對比說明：其中e+03等標記為科學計數(shù)法，+后面的數(shù)值代表10的幾次方，如1e+03代表1×103。由輸出結果可以看出得到的函數(shù)模型為y=4.81459195×103x1+1.91114333×104x2+......+8690.968547413911可以看到R方的值為0.94多，接近1，說明擬合程度較好，模型較為準確，且圖像中兩條曲線較為類似，說明擬合結果較好。對比一元回歸與多元回歸，可以看到多元回歸得到的結果明顯優(yōu)于一元回歸，這說明茶葉商品的銷量可能與多種因素相關，且對于擬合較好的模型，可以給定自變量的值以得到較為準確的因變量的值即產(chǎn)品的銷量，這樣可以通過控制某些屬性以得到較高銷售量的茶葉商品。探討實踐理解回歸分析法的原理，梳理回歸分析法的應用流程。拓展訓練嘗試對數(shù)據(jù)進行標準化等更多的預處理操作，觀察是否能得到更加優(yōu)良的線性回歸模型。謝謝觀看項目五數(shù)據(jù)分析《大數(shù)據(jù)技術應用基礎》模塊三

業(yè)務數(shù)據(jù)分析核心目標職業(yè)能力1.熟悉常用的數(shù)據(jù)描述性分析方法，理解數(shù)據(jù)特征、統(tǒng)計參數(shù)、統(tǒng)計量與統(tǒng)計分布之間的關系；2.具備使用數(shù)據(jù)描述性分析的能力，能夠對預處理后的數(shù)據(jù)找到合適的分析方法；3.具備在不同的業(yè)務場景能夠找到合適模型進行分析的能力；4.具備撰寫完整數(shù)據(jù)分析報告的能力；5.具備使用Python進行數(shù)據(jù)建模的能力。職業(yè)素養(yǎng)1.培養(yǎng)描述性分析習慣，對處理完后的數(shù)據(jù)進行初步分析；2.養(yǎng)成專業(yè)業(yè)務素養(yǎng)，根據(jù)專業(yè)業(yè)務選定數(shù)據(jù)分析方法；3.培養(yǎng)數(shù)據(jù)建模思維；4.培養(yǎng)全局思維、合作思維。知識圖譜項目背景學習完數(shù)據(jù)預處理之后，小張開始對他爬取得到的進行了幾種數(shù)據(jù)預處理操作，將最開始混亂的數(shù)據(jù)表格轉化為清晰整潔的數(shù)據(jù)表格?，F(xiàn)在，小張可以開始學習正式的數(shù)據(jù)分析相關的知識了，小張即將邁出走向數(shù)據(jù)分析師最關鍵的一步。在本項目中，小張需要學習數(shù)據(jù)的特征描述，以及如何與實際的業(yè)務場景相結合，然后進一步學習相關的統(tǒng)計量以及統(tǒng)計分布最后嘗試自己進行統(tǒng)計建模。除此之外，小張還需要與實際業(yè)務結合，了解業(yè)務場景和經(jīng)營目標間的分析方法以及數(shù)據(jù)分析報告的撰寫方法。0102業(yè)務場景和經(jīng)營目標間的分析方法數(shù)據(jù)分析報告的撰寫方法問題引入學習了數(shù)據(jù)的描述性統(tǒng)計分析，小張已經(jīng)可以初步完成一個較為完整的數(shù)據(jù)分析任務了。數(shù)據(jù)分析的方法很多，但是光學會數(shù)據(jù)分析的各種方法與流程是遠遠不夠的，更重要的是學會在不同的業(yè)務場景下選擇不同的經(jīng)營目標，并且還需要可以寫出能夠讓業(yè)務人員或決策人員清楚明了的數(shù)據(jù)分析報告，以輔助業(yè)務決策的正確制定與高效實施。接下來小張將學習如何根據(jù)不同的業(yè)務場景和經(jīng)營目標選擇不同的數(shù)據(jù)分析方法，并在完成數(shù)據(jù)分析之后如何編寫令人滿意的數(shù)據(jù)分析報告書。業(yè)務場景和經(jīng)營目標間的分析方法01一、業(yè)務場景和經(jīng)營目標間的分析方法小明在本科學習了許多數(shù)據(jù)分析的方法，在大四的時候小明進入一家公司進行畢業(yè)實習，在一次任務中，小明打算使用深度學習算法訓練一個完美的模型，但是卻發(fā)現(xiàn)可以使用的數(shù)據(jù)只有星星點點，使用了其他模型得出的結論給了上級之后，上級卻說實現(xiàn)的幾率不大，即使實現(xiàn)了投入產(chǎn)出比也不大。由此看出在進行數(shù)據(jù)分析之時了解業(yè)務場景與經(jīng)營目標是非常重要的。一、業(yè)務場景和經(jīng)營目標間的分析方法（一）業(yè)務場景指企業(yè)和商家需要在用戶某個特定的環(huán)節(jié)中，適時提供給消費者可能需要的以及關聯(lián)的產(chǎn)品或服務。業(yè)務場景連接器商家和消費者平臺商和供應商企業(yè)和客戶一、業(yè)務場景和經(jīng)營目標間的分析方法（一）業(yè)務場景一個業(yè)務場景總是可以通過“誰”，“在什么環(huán)境下”，“干什么或遇到什么問題”，“如何互動”，“有何價值”這五個要素綜合進行表述。1.“誰”：業(yè)務場景中的主體，是業(yè)務的參與者，常用人或者系統(tǒng)來描述。2.“在什么環(huán)境下”：業(yè)務發(fā)生的時間、空間或者狀態(tài)等。3.“干什么或遇到什么問題”：主要事件，主體完成的事情，可以用任務序列來描述。4.“如何互動”：人與業(yè)務的連接方式，它們的中介是什么，用產(chǎn)品的介質或服務形態(tài)進行描述。5.“有何價值”：業(yè)務完成的目標，回答了這一業(yè)務場景的價值是什么。一、業(yè)務場景和經(jīng)營目標間的分析方法（一）業(yè)務場景一個復雜的業(yè)務場景可以被結構成幾個獨立的元素。百度引擎搜索問題場景業(yè)務主體：用戶環(huán)境：互聯(lián)網(wǎng)上或瀏覽器中事件：搜索互動：搜索框進行互動價值：用戶得到想查找的問題答案一、業(yè)務場景和經(jīng)營目標間的分析方法（二）經(jīng)營目標經(jīng)營目標是企業(yè)愿景的具體化體現(xiàn)，是企業(yè)在一定時期內對生產(chǎn)經(jīng)營活動的具體的預期。經(jīng)營目標(包括不限于)01培養(yǎng)忠誠的客戶05員工的能力不斷地增長03在行業(yè)內具有領導地位02獲得合理的利潤04企業(yè)產(chǎn)值或企業(yè)規(guī)模持續(xù)地增長提高團隊領導力和承擔好相應的社會責任06不同經(jīng)營目標反映企業(yè)對未來的不同預期一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法預測模型分類模型聚類模型

監(jiān)督模型與非監(jiān)督模型

參數(shù)模型與非參數(shù)模型

生成模型與判別模型數(shù)據(jù)分析模型一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法監(jiān)督模型與非監(jiān)督模型01按照數(shù)據(jù)集中是否存在因變量的數(shù)據(jù)劃分中間類別即半監(jiān)督模型例如：一位茶葉經(jīng)銷商想通過往年的茶葉產(chǎn)量數(shù)據(jù)來預測今年的茶葉產(chǎn)量。往年茶葉產(chǎn)量都已知，則可以選擇使用監(jiān)督模型進行分析；不知往年產(chǎn)量，只有一些土壤、季節(jié)和施肥之類的信息，則需要使用無監(jiān)督模型進行分析；過去一些年份的產(chǎn)量數(shù)據(jù)已知，但近些年的產(chǎn)量數(shù)據(jù)未知，則可以使用半監(jiān)督模型進行分析。無監(jiān)督學習的模型訓練相對困難，半監(jiān)督模型比無監(jiān)督模型更常用。一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法生成模型與判別模型02判別模型生成模型監(jiān)督模型相同：數(shù)據(jù)集中都包含因變量的數(shù)據(jù)不同：判別模型只關心新的樣本數(shù)據(jù)所對應的因變量的值，而生產(chǎn)模型還關心因變量的完整統(tǒng)計分布。一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法生成模型與判別模型02例如：需要一個模型來辨認紅茶和綠茶。會從已有的數(shù)據(jù)中學習，然后提取新茶葉的特征來預測出是紅茶的概率和是綠茶的概率分別是多少。會從已有的數(shù)據(jù)中分別學習一個綠茶模型和一個紅茶模型，然后將新茶葉的特征分別放入兩個模型中得到概率，哪個概率大新的茶葉就屬于哪種類別。判別模型生成模型一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法生成模型與判別模型02關注的是數(shù)據(jù)的完整分布，學習到的數(shù)據(jù)信息更多，而不只是一個預測的數(shù)值，故生成模型訓練所需要的成本較高，且需要的數(shù)據(jù)量更大。只關注數(shù)據(jù)之間的差異信息，并不關注數(shù)據(jù)的分布，故需要的訓練成本較低，即使沒有大的數(shù)據(jù)量也可以訓練的較好。生成模型判別模型一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法生成模型與判別模型02數(shù)據(jù)量較大且具備一定的時間以及硬件條件時數(shù)據(jù)量較小或時間以及硬件條件較差時在一定的條件下生成模型可以轉化為判別模型，但判別模型是無法轉化為生成模型的。生成模型判別模型一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法參數(shù)模型與非參數(shù)模型03通常假設數(shù)據(jù)服從某種分布，這個分布可以由某一些參數(shù)組成。對分布的假設不加限制，故對分布的參數(shù)也沒有限制。參數(shù)模型非參數(shù)模型一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法參數(shù)模型與非參數(shù)模型03通常給定模型目標函數(shù)的類型。例如：一元回歸分析的目標函數(shù)為Y=aX+ba和b為預先設定的參數(shù)，訓練模型實質上就是確定a和b的值。參數(shù)模型間接移動，由于目標函數(shù)類型的確定也具備可解釋性以及可理解性。且由于參數(shù)數(shù)量有限，訓練速度很快并且不需要大量的數(shù)據(jù)。參數(shù)模型一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法參數(shù)模型與非參數(shù)模型03通常不對模型的目標函數(shù)形式做假定，通過對大量的數(shù)據(jù)進行訓練，擬合出某種形式的目標函數(shù)。例如：神經(jīng)網(wǎng)絡中參數(shù)量很多，通過對數(shù)據(jù)的擬合可以確定哪些參數(shù)是需要的，為什么樣的值，哪些參數(shù)是可以放棄的，以此來得到一個最優(yōu)的模型。非參數(shù)模型可以對數(shù)據(jù)擬合的能力比參數(shù)模型更強，但由于參數(shù)量眾多，通常不能弄清楚每一個參數(shù)的含義，且訓練速度比參數(shù)模型慢得多，也需要大量的數(shù)據(jù)做支撐。非參數(shù)模型一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法預測模型、分類模型和聚類模型04例如：茶葉經(jīng)銷商想了解下一個季度茶葉的產(chǎn)量大概會是多少，他可以訓練一個預測模型，輸入以往季度的產(chǎn)量等數(shù)據(jù)，就可以預測出下一個季度可能的產(chǎn)量，以此做參考，決定他的供銷策略。按照模型的目的不同，可以分為預測模型、分類模型與聚類模型。預測模型

指對未來數(shù)據(jù)的預測。一、業(yè)務場景和經(jīng)營目標間的分析方法（三）合適的數(shù)據(jù)分析方法預測模型、分類模型和聚類模型04例如：茶葉行業(yè)對茶葉商品分了等級，通過對茶葉的各種屬性進行評判，已確定該茶葉屬于哪一個等級。這其中每一個等級就是一個類別，茶葉的屬性為新的輸出數(shù)據(jù)，茶葉的評判標準就相當于已經(jīng)訓練好的分類模型。分類模型

將不同的數(shù)據(jù)歸到某一個類別中。一、業(yè)務場景和經(jīng)營目標

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)技術應用基礎》課件項目五數(shù)據(jù)分析

文檔簡介

溫馨提示

最新文檔

評論

《大數(shù)據(jù)技術應用基礎》課件 項目五 數(shù)據(jù)分析

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

《大數(shù)據(jù)技術應用基礎》課件項目五數(shù)據(jù)分析