100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語

上傳人：浪*** IP屬地：河北上傳時(shí)間：2024-05-21 格式：PDF 頁數(shù)：29 大?。?.67MB 積分：12 舉報(bào) 版權(quán)申訴

100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語_第2頁

100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語_第3頁

100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語_第4頁

100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語_第5頁

已閱讀5頁，還剩24頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語

數(shù)據(jù)分析相關(guān)概念多且雜，容易搞混。為了便于區(qū)分，

盤點(diǎn)一下數(shù)據(jù)分析常用的術(shù)語解釋。

按照以下三類進(jìn)行匯總。

1、互聯(lián)網(wǎng)常用名詞解釋

2、統(tǒng)計(jì)學(xué)名詞解釋

3、數(shù)據(jù)分析名詞解釋

一、互聯(lián)網(wǎng)常用名詞解釋

1、PV(PageView)頁面瀏覽量

指某段時(shí)間內(nèi)訪問網(wǎng)站或某一頁面的用戶的總數(shù)量，通常用

來衡量一篇文章或一次活動(dòng)帶來的流量效果，也是評價(jià)網(wǎng)站

日常流量數(shù)據(jù)的重要指標(biāo)。PV可重復(fù)累計(jì)，以用戶訪問網(wǎng)站

作為統(tǒng)計(jì)依據(jù)，用戶每刷新一次即重新計(jì)算一次。

2、UV(UniqueVisitor)獨(dú)立訪客

指來到網(wǎng)站或頁面的用戶總數(shù)，這個(gè)用戶是獨(dú)立的，同一用

戶不同時(shí)段訪問網(wǎng)站只算作一個(gè)獨(dú)立訪客，不會重復(fù)累計(jì)，

通常以PC端的Cookie數(shù)量作為統(tǒng)計(jì)依據(jù)。

3、Visit訪問

指用戶通過外部鏈接來到網(wǎng)站，從用戶來到網(wǎng)站到用戶在瀏

覽器中關(guān)閉頁面，這一過程算作一次訪問。

Visit可重復(fù)累計(jì)，比如我打開一個(gè)網(wǎng)站又關(guān)閉，再重新打

開，這就算作兩次訪問。

4、HomePage主頁

指一個(gè)網(wǎng)站起主目錄功能的頁面，也是網(wǎng)站起點(diǎn)。通常是網(wǎng)

站首頁。

5、LandingPage著陸頁

指用戶從外部鏈接來到網(wǎng)站，直接跳轉(zhuǎn)到的第一個(gè)頁面。比

如朋友給我發(fā)了一個(gè)介紹爆款T恤的淘寶鏈接，我點(diǎn)開會直

接跳轉(zhuǎn)到介紹T恤的那個(gè)頁面，而不是淘寶網(wǎng)眾多其他頁面

之一，這個(gè)介紹T恤的頁面可以算作是著陸頁。

6、BounceRate跳出率

指用戶通過鏈接來到網(wǎng)站，在當(dāng)前頁面沒有任何交互就離開

網(wǎng)站的行為，這就算作此頁面增加了一個(gè)“跳出”，跳出率

一般針對網(wǎng)站的某個(gè)頁面而言。

跳出率=在這個(gè)頁面跳出的用戶數(shù)/PV

7、退出率

一般針對某個(gè)頁面而言。指用戶訪問某網(wǎng)站的某個(gè)頁面之后，

從瀏覽器中將與此網(wǎng)站相關(guān)的所有頁面全部關(guān)閉，就算此頁

面增加了一個(gè)“退出

退出率=在這個(gè)頁面退出的用戶數(shù)/PV

8、Click點(diǎn)擊

一般針對付費(fèi)廣告而言，指用戶點(diǎn)擊某個(gè)鏈接、頁面、banner

的次數(shù)，可重復(fù)累計(jì)。比如我在PC端看到一則新聞鏈接點(diǎn)

進(jìn)去看了一會就關(guān)了，過了一會又點(diǎn)進(jìn)去看了一遍，這就算

我為這篇新聞貢獻(xiàn)兩次點(diǎn)擊。

9、avr.time平均停留時(shí)長

指某個(gè)頁面被用戶訪問，在頁面停留時(shí)長的平均值，通常用

來衡量一個(gè)頁面內(nèi)容的質(zhì)量。

avr.打!116=訪客數(shù)量/用戶總停留時(shí)長

10.CTR

指某個(gè)廣告、Banner、URL被點(diǎn)擊的次數(shù)和被瀏覽的總次數(shù)

的比值。一般用來考核廣告投放的引流效果。

CTR=點(diǎn)擊數(shù)（click）/被用戶看到的次數(shù)

11、Conversionrate

指用戶完成設(shè)定的轉(zhuǎn)化環(huán)節(jié)的次數(shù)和總會話人數(shù)的百分比，

通常用來評價(jià)一個(gè)轉(zhuǎn)化環(huán)節(jié)的好壞，如果轉(zhuǎn)化率較低則急需

優(yōu)化該轉(zhuǎn)化環(huán)節(jié)。轉(zhuǎn)化率=轉(zhuǎn)化會話數(shù)/總會話數(shù)

12.S4

通常指產(chǎn)生目標(biāo)轉(zhuǎn)化前的明確流程，比如在淘寶購物，從點(diǎn)

擊商品鏈接到查看詳情頁，再到查看顧客評價(jià)、領(lǐng)取商家優(yōu)

惠券，再到填寫地址、付款，每個(gè)環(huán)節(jié)都有可能流失用戶，

這就要求商家必須做好每一個(gè)轉(zhuǎn)化環(huán)節(jié)，漏斗是評價(jià)轉(zhuǎn)化環(huán)

節(jié)優(yōu)劣的指標(biāo)。

13、率（R0I:ReturnOnInvestment）

反映投入和產(chǎn)出的關(guān)系，衡量我這個(gè)投資值不值得，能給到

我多少價(jià)值的東西（非單單的利潤），這個(gè)是站在投資的角

度或長遠(yuǎn)生意上看的。

其計(jì)算公式為：投資回報(bào)率(ROD=年利潤或年均利潤/投

資總額義100%,通常用于評估企業(yè)對于某項(xiàng)活動(dòng)的價(jià)值，R0I

高表示該項(xiàng)目價(jià)值高。

14.ESJS蚪

指消費(fèi)者在網(wǎng)站中的重復(fù)購買次數(shù)。

15、Referrer引薦流■

通常指將用戶引導(dǎo)至目標(biāo)頁面的URL(超鏈接)。在百度統(tǒng)

計(jì)中，引薦流量叫做“外部鏈接”。

16、流失分析(ChurnAnalysis/AttritionAnalysis)

描述哪些顧客可能停止使用公司的產(chǎn)品/業(yè)務(wù)，以及識別哪

些顧客的流失會帶來最大損失。流失分析的結(jié)果用于為可能

要流失的顧客準(zhǔn)備新的優(yōu)惠。

[7、(CustomerSegmentation&

Profiling)

根據(jù)現(xiàn)有的顧客數(shù)據(jù)，將特征、行為相似的顧客歸類分組。

描述和比較各組。

18、顧客的生命周期價(jià)值(LifetimeValue,LTV)

顧客在他/她的一生中為一個(gè)公司產(chǎn)生的預(yù)期折算利潤。

19、購物(MarketBasketAnalysis)

識別在交易中經(jīng)常同時(shí)出現(xiàn)的商品組合或服務(wù)組合，例如經(jīng)

常被一起購買的產(chǎn)品。此類分析的結(jié)果被用于推薦附加商品，

為陳列商品的決策提供依據(jù)等。

、

20(RealTimeDecisioningfRTD)

幫助企業(yè)做出實(shí)時(shí)(近乎無延遲)的最優(yōu)銷售/營銷決策。

比如，實(shí)時(shí)決策系統(tǒng)(打分系統(tǒng))可以通過多種商業(yè)規(guī)則或

模型，在顧客與公司互動(dòng)的瞬間，對顧客進(jìn)行評分和排名。

21、留存/顧客留存(Retention/CustomerRetention)

指建立后能夠長期維持的客戶關(guān)系的百分比。

22、網(wǎng)絡(luò)(SocialNetworkAnalysis,SNA)

描繪并測量人與人、組與組、機(jī)構(gòu)與機(jī)構(gòu)、電腦與電腦、URL

與URL、以及其他種類相連的信息/知識實(shí)體之間的關(guān)系與流

動(dòng)。這些人或組是網(wǎng)絡(luò)中的節(jié)點(diǎn)，而它們之間的連線表示關(guān)

系或流動(dòng)。SNA為分析人際關(guān)系提供了一種方法，既是數(shù)學(xué)

的又是視覺的。

23、生存分析(SurvivalAnalysis)

估測一名顧客繼續(xù)使用某業(yè)務(wù)的時(shí)間，或在后續(xù)時(shí)段流失的

可能性。此類信息能讓企業(yè)判斷所要預(yù)測時(shí)段的顧客留存，

并引入合適的忠誠度政策。

二、統(tǒng)計(jì)學(xué)名詞解釋

1、絕對數(shù)和相對數(shù)

絕對數(shù)：是反應(yīng)客觀現(xiàn)象總體在一定時(shí)間、一定地點(diǎn)下的總

規(guī)模、總水平的綜合性指標(biāo)，也是數(shù)據(jù)分析中常用的指標(biāo)。

比如年GDP，總?cè)丝诘鹊取?/p>

相對數(shù)：是指兩個(gè)有聯(lián)系的指標(biāo)計(jì)算而得出的數(shù)值，它是反

應(yīng)客觀現(xiàn)象之間的數(shù)量聯(lián)系緊密程度的綜合指標(biāo)。相對數(shù)一

般以倍數(shù)、百分?jǐn)?shù)等表示。相對數(shù)的計(jì)算公式：

相對數(shù)=比較值（比數(shù)）/基礎(chǔ)值（基數(shù)）

2、百分比和百分點(diǎn)

百分比：是相對數(shù)中的一種，他表示一個(gè)數(shù)是另一個(gè)數(shù)的百

分之幾，也成為百分率或百分?jǐn)?shù)。百分比的分母是100,也

就是用1%作為度量單位，因此便于比較。

百分點(diǎn)：是指不同時(shí)期以百分?jǐn)?shù)的形式表示的相對指標(biāo)的變

動(dòng)幅度，設(shè)等于1個(gè)百分點(diǎn)。

3、頻數(shù)和頻率

頻數(shù)：一個(gè)數(shù)據(jù)在整體中出現(xiàn)的次數(shù)。

頻率：某一事件發(fā)生的次數(shù)與總的事件數(shù)之比。頻率通常用

比例或百分?jǐn)?shù)表示。

4、比例與比率

比例：是指在總體中各數(shù)據(jù)占總體的比重，通常反映總體的

構(gòu)成和比例，即部分與整體之間的關(guān)系。

比率：是樣本（或總體）中各不同類別數(shù)據(jù)之間的比值，由于

比率不是部分與整體之間的對比關(guān)系，因而比值可能大于1。

5、倍數(shù)和番數(shù)

倍數(shù)：用一個(gè)數(shù)據(jù)除以另一個(gè)數(shù)據(jù)獲得，倍數(shù)一般用來表示

上升、增長幅度，一般不表示減少幅度。

番數(shù)：指原來數(shù)量的2的n次方。

6、同比和環(huán)比

同比：指的是與歷史同時(shí)期的數(shù)據(jù)相比較而獲得的比值，反

應(yīng)事物發(fā)展的相對性。

環(huán)比：指與上一個(gè)統(tǒng)計(jì)時(shí)期的值進(jìn)行對比獲得的值，主要反

映事物的逐期發(fā)展的情況。

7、變量

變量來源于數(shù)學(xué)，是計(jì)算機(jī)語言中能儲存計(jì)算結(jié)果或能表示

值抽象概念。變量可以通過變量名訪問。

8、連續(xù)變量

在統(tǒng)計(jì)學(xué)中，變量按變量值是否連續(xù)可分為連續(xù)變量與離散

變量兩種。在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量，

其數(shù)值是連續(xù)不斷的，相鄰兩個(gè)數(shù)值可作無限分割，即可取

無限個(gè)數(shù)值。如：年齡、體重等變量。

9、離散變量

離散變量的各變量值之間都是以整數(shù)斷開的，如人數(shù)、工廠

數(shù)、機(jī)器臺數(shù)等，都只能按整數(shù)計(jì)算。離散變量的數(shù)值只能

用計(jì)數(shù)的方法取得。

10、定性變量

又名分類變量：觀測的個(gè)體只能歸屬于幾種互不相容類別中

的一種時(shí)，一般是用非數(shù)字來表達(dá)其類別，這樣的觀測數(shù)據(jù)

稱為定性變量?？梢岳斫獬煽梢苑诸悇e的變量，如學(xué)歷、性

別、婚否等。

11、均值

即平均值，平均數(shù)是表示一組數(shù)據(jù)集中趨勢的量數(shù)，是指在

一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)。

12、中位數(shù)

對于有限的數(shù)集，可以通過把所有觀察值高低排序后找出正

中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè)，通常取最中

間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。

13、缺失值

它指的是現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不完全的。

14、缺失率

某屬性的缺失率=數(shù)據(jù)集中某屬性的缺失值個(gè)數(shù)/數(shù)據(jù)集總行

數(shù)。

15、異常值

指一組測定值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值，

與平均值的偏差超過三倍標(biāo)準(zhǔn)差的測定值，稱為高度異常的

異常值。

16、方差

是在概率論和統(tǒng)計(jì)方差衡量隨機(jī)變量或一組數(shù)據(jù)時(shí)離散程度

的度量。概率論中方差用來度量隨機(jī)變量和其數(shù)學(xué)期望（即

均值）之間的偏離程度。統(tǒng)計(jì)中的方差（樣本方差）是每個(gè)

樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。在許

多實(shí)際問題中，研究方差即偏離程度有著重要意義。方差是

衡量源數(shù)據(jù)和期望值相差的度量值。

17、標(biāo)準(zhǔn)差

中文環(huán)境中又常稱均方差，是離均差平方的算術(shù)平均數(shù)的平

方根，用。表示。標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反

映一個(gè)數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù)，標(biāo)準(zhǔn)差

未必相同。

18、皮爾森相關(guān)系數(shù)

皮爾森相關(guān)系數(shù)是用來反映兩個(gè)變量線性相關(guān)程度的統(tǒng)計(jì)

量。相關(guān)系數(shù)用r表示，其中n為樣本量，分別為兩個(gè)變量

的觀測值和均值。r描述的是兩個(gè)變量間線性相關(guān)強(qiáng)弱的程

度。r的絕對值越大表明相關(guān)性越強(qiáng)。

19、相關(guān)系數(shù)

相關(guān)系數(shù)是最早由統(tǒng)計(jì)學(xué)家卡爾?皮爾遜設(shè)計(jì)的統(tǒng)計(jì)指標(biāo)，

是研究變量之間線性相關(guān)程度的量，一般用字母r表示。由

于研究對象的不同，相關(guān)系數(shù)有多種定義方式，較為常用的

是皮爾森相關(guān)系數(shù)。

20、特征值

特征值是線性代數(shù)中的一個(gè)重要概念。在數(shù)學(xué)、物理學(xué)、化

學(xué)、計(jì)算機(jī)等領(lǐng)域有著廣泛的應(yīng)用。設(shè)A是向量空間的一個(gè)

線性變換，如果空間中某一非零向量通過A變換后所得到的

向量和X僅差一個(gè)常數(shù)因子，即AX=kX,則稱k為A的特征

值，X稱為A的屬于特征值k的特征向量或特征矢量。

三、數(shù)據(jù)分析名詞解釋

聚合(Aggregation)：搜索、合并、顯示數(shù)據(jù)的過程。

算法(Algorithms)：可以完成某種數(shù)據(jù)分析的數(shù)學(xué)公式。

分析法(Analytics)：用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義。

異常檢測(Anomalydetection)：在數(shù)據(jù)集中搜索與預(yù)期

模式或行為不匹配的數(shù)據(jù)項(xiàng)。除了“Anomalies”，用來表示

異常的詞有以下幾種：

outliers,exceptions,surprises,contaminants.他們通常

可提供關(guān)鍵的可執(zhí)行信息。

匿名化(Anonymization)：使數(shù)據(jù)匿名，即移除所有與個(gè)人

隱私相關(guān)的數(shù)據(jù)。

分析型客戶關(guān)系管理(AnalyticalCRM/aCRM)：用于支

持決策，改善公司跟顧客的互動(dòng)或提高互動(dòng)的價(jià)值°針對有

關(guān)顧客的知識，和如何與顧客有效接觸的知識，進(jìn)行收集、

分析、應(yīng)用。

行為分析法(BehaviouralAnalytics)：這種分析法是根

據(jù)用戶的行為如“怎么做”，“為什么這么做”，以及“做

了什么”來得出結(jié)論，而不是僅僅針對人物和時(shí)間的一門分

析學(xué)科，它著眼于數(shù)據(jù)中的人性化模式。

批量處理(Batchprocessing):盡管從大型計(jì)算機(jī)時(shí)代

開始，批量處理就已經(jīng)出現(xiàn)了。由于處理大型數(shù)據(jù)集，批量

處理對大數(shù)據(jù)具有額外的意義。批量數(shù)據(jù)處理是處理一段時(shí)

間內(nèi)收集的大量數(shù)據(jù)的有效方式。

商業(yè)智能(BusinessIntelligence):分析數(shù)據(jù)、展示

信息以幫助企業(yè)的執(zhí)行者、管理層、其他人員進(jìn)行更有根據(jù)

的商業(yè)決策的應(yīng)用、設(shè)施、工具、過程。

分類分析(Classificationanalysis)：從數(shù)據(jù)中獲得重

要的相關(guān)性信息的系統(tǒng)化過程；這類數(shù)據(jù)也被稱為元數(shù)據(jù)

(metadata),是描述數(shù)據(jù)的數(shù)據(jù)。

云計(jì)算(Cloudcomputing)：構(gòu)建在網(wǎng)絡(luò)上的分布式計(jì)算

系統(tǒng)，數(shù)據(jù)是存儲于機(jī)房外的(即云端)。

集群計(jì)算(Clustercomputing)：這是一個(gè)使用多個(gè)服

務(wù)器集合資源的“集群”的計(jì)算術(shù)語。要想更技術(shù)性的話，

就會涉及到節(jié)點(diǎn)，集群管理層，負(fù)載平衡和并行處理等概念。

聚類分析(Clusteringanalysis)：它是將相似的對象聚

合在一起，每類相似的對象組合成一個(gè)聚類(也叫作簇)的過

程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性。

冷數(shù)據(jù)存儲(Colddatastorage)：在低功耗服務(wù)器上存

儲那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會很

耗時(shí)。

對比分析(Comparativeanalysis)：在非常大的數(shù)據(jù)集中

進(jìn)行模式匹配時(shí)，進(jìn)行一步步的對比和計(jì)算過程得到分析結(jié)

果。

相關(guān)性分析(Correlationanalysis)：是一種數(shù)據(jù)分析方

法，用于分析變量之間是否存在正相關(guān)，或者負(fù)相關(guān)。

儀表板(Dashboard)：使用算法分析數(shù)據(jù)，并將結(jié)果用圖表

方式顯示于儀表板中。

數(shù)據(jù)聚合工具(Dataaggregationtools)：將分散于眾

多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個(gè)全新數(shù)據(jù)源的過程。

數(shù)據(jù)分析師(Dataanalyst)：從事數(shù)據(jù)分析、建模、清理、

處理的專業(yè)人員。

數(shù)據(jù)庫(Database)：一個(gè)以某種特定的技術(shù)來存儲數(shù)據(jù)集

合的倉庫。

數(shù)據(jù)湖(Datalake):數(shù)據(jù)湖是原始格式的企業(yè)級數(shù)據(jù)的

大型存儲庫。與此同時(shí)我們可以涉及數(shù)據(jù)倉庫，它在概念上

是相似的，也是企業(yè)級數(shù)據(jù)的存儲庫，但在清理、與其他來

源集成之后是以結(jié)構(gòu)化格式。數(shù)據(jù)倉庫通常用于常規(guī)數(shù)據(jù)

(但不是專有的)。數(shù)據(jù)湖使得訪問企業(yè)級數(shù)據(jù)更加容易，

你需要明確你要尋找什么，以及如何處理它并明智地試用它。

暗數(shù)據(jù)(DarkData):基本上指的是，由企業(yè)收集和處理

的，但并不用于任何意義性目的的數(shù)據(jù)，因此它是“暗”的，

可能永遠(yuǎn)不會被分析。它可以是社交網(wǎng)絡(luò)反饋，呼叫中心日

志，會議筆記等等。有很多人估計(jì)，所有企業(yè)數(shù)據(jù)中的60-90

%可能是“暗數(shù)據(jù)”，但誰又真正知道呢？

數(shù)據(jù)挖掘(Datamining)：數(shù)據(jù)挖掘是通過使用復(fù)雜的模

式識別技術(shù)，從而找到有意義的模式，并得出大量數(shù)據(jù)的見

解。

數(shù)據(jù)中心(Datacentre)：一個(gè)實(shí)體地點(diǎn)，放置了用來存儲

數(shù)據(jù)的服務(wù)器。

數(shù)據(jù)清洗(Datacleansing)：對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)

的過程，目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤，并提供

數(shù)據(jù)一致性。

數(shù)據(jù)質(zhì)量(DataQuality)：有關(guān)確保數(shù)據(jù)可靠性和實(shí)用

價(jià)值的過程和技術(shù)。高質(zhì)量的數(shù)據(jù)應(yīng)該忠實(shí)體現(xiàn)其背后的事

務(wù)進(jìn)程，并能滿足在運(yùn)營、決策、規(guī)劃中的預(yù)期用途。

數(shù)據(jù)訂閱(Datafeed)：一種數(shù)據(jù)流，例如Twitter訂閱和

RSSo

數(shù)據(jù)集市(DataMart)：進(jìn)行數(shù)據(jù)集買賣的在線交易場所。

數(shù)據(jù)建模(Datamodelling)：使用數(shù)據(jù)建模技術(shù)來分析數(shù)

據(jù)對象，以此洞悉數(shù)據(jù)的內(nèi)在涵義。

數(shù)據(jù)集(Dataset)：大量數(shù)據(jù)的集合。

數(shù)據(jù)虛擬化(Datavirtualization)：數(shù)據(jù)整合的過程，

以此獲得更多的數(shù)據(jù)信息，這個(gè)過程通常會引入其他技術(shù)，

例如數(shù)據(jù)庫，應(yīng)用程序，文件系統(tǒng)，網(wǎng)頁技術(shù)，大數(shù)據(jù)技術(shù)

等等。

判別分析(Discriminantanalysis):將數(shù)據(jù)分類，按不

同的分類方式，可將數(shù)據(jù)分配到不同的群組，類別或者目錄。

是一種統(tǒng)計(jì)分析法，可以對數(shù)據(jù)中某些群組或集群的已知信

息進(jìn)行分析，并從中獲取分類規(guī)則。

分布式文件系統(tǒng)(DistributedFileSystem):提供簡化

的，高可用的方式來存儲、分析、處理數(shù)據(jù)的系統(tǒng)。

文件栩01噓庫(DocumentStoreDatabases):又稱為

文檔數(shù)據(jù)庫，為存儲、管理、恢復(fù)文檔數(shù)據(jù)而專門設(shè)計(jì)的數(shù)

據(jù)庫，這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)。

探索性分析(Exploratoryanalysis):在沒有標(biāo)準(zhǔn)的流程

或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)

集主要特性的一種方法。

tSHK-iJHS(ETL:ExtractrTransformandLoad):

是一種用于數(shù)據(jù)庫或者數(shù)據(jù)倉庫的處理過程，天善學(xué)院有國

內(nèi)唯一的最全的ETL學(xué)習(xí)課程。即從各種不同的數(shù)據(jù)源提取

(E)數(shù)據(jù)，并轉(zhuǎn)換(T)成能滿足業(yè)務(wù)需要的數(shù)據(jù)，最后將其加

載(L)到數(shù)據(jù)庫。

游戲化(Gamification)：在其他非游戲領(lǐng)域中運(yùn)用游戲的

思維和機(jī)制，這種方法可以以一種十分友好的方式進(jìn)行數(shù)據(jù)

的創(chuàng)建和偵測，非常有效。

圖形數(shù)據(jù)庫(GraphDatabases)：運(yùn)用圖形結(jié)構(gòu)(例如,一

組有限的有序?qū)?，或者某種實(shí)體)來存儲數(shù)據(jù)，這種圖形存

儲結(jié)構(gòu)包括邊緣、屬性和節(jié)點(diǎn)。它提供了相鄰節(jié)點(diǎn)間的自由

索引功能，也就是說，數(shù)據(jù)庫中每個(gè)元素間都與其他相鄰元

素直接關(guān)聯(lián)。

網(wǎng)格計(jì)算(Gridcomputing)：將許多分布在不同地點(diǎn)的計(jì)

算機(jī)連接在一起，用以處理某個(gè)特定問題，通常是通過云將

計(jì)算機(jī)相連在一起。

Hadoop：一個(gè)開源的分布式系統(tǒng)基礎(chǔ)框架,可用于開發(fā)分布

式程序，進(jìn)行大數(shù)據(jù)的運(yùn)算與存儲。

Hadoop數(shù)據(jù)庫(HBase)：一個(gè)開源的、非關(guān)系型、分布式

數(shù)據(jù)庫，與Hadoop框架共同使用。

HDFS:Hadoop分布式文件系統(tǒng)(HadoopDistributedFile

System)；是一個(gè)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity

hardware)上的分布式文件系統(tǒng)。

高性能計(jì)算(HPC:High-Performance-Computing)：使用

超級計(jì)算機(jī)來解決極其復(fù)雜的計(jì)算問題。

內(nèi)存數(shù)據(jù)庫(IMDB:In-memory)：一種數(shù)據(jù)庫管理系統(tǒng)，與

普通數(shù)據(jù)庫管理系統(tǒng)不同之處在于，它用主存來存儲數(shù)據(jù)，

而非硬盤。其特點(diǎn)在于能高速地進(jìn)行數(shù)據(jù)的處理和存取。

物聯(lián)網(wǎng)(IoT):最新的流行語是物聯(lián)網(wǎng)(I0T)oI0T通過

互聯(lián)網(wǎng)將嵌入式對象(傳感器，可穿戴設(shè)備，汽車，冰箱等)

中的計(jì)算設(shè)備進(jìn)行互連，并且能夠發(fā)送以及接收數(shù)據(jù)。I0T

生成大量數(shù)據(jù)，提供了大量大數(shù)據(jù)分析的機(jī)會。

鍵值數(shù)據(jù)庫(Key-ValueDatabases)：數(shù)據(jù)的存儲方式是

使用一個(gè)特定的鍵，指向一個(gè)特定的數(shù)據(jù)記錄，這種方式使

得數(shù)據(jù)的查找更加方便快捷。鍵值數(shù)據(jù)庫中所存的數(shù)據(jù)通常

為編程語言中基本數(shù)據(jù)類型的數(shù)據(jù)。

負(fù)載均衡(Loadbalancing)：將工作量分配到多臺電腦或

服務(wù)器上，以獲得最優(yōu)結(jié)果和最大的系統(tǒng)利用率。

位置信息(Locationdata)：GPS信息，即地理位置信息。

日志文件(Logfile)：由計(jì)算機(jī)系統(tǒng)自動(dòng)生成的文件，記

錄系統(tǒng)的運(yùn)行過程。

M2M數(shù)據(jù)(Machine2Machinedata)：兩臺或多臺機(jī)器間

交流與傳輸?shù)膬?nèi)容。

機(jī)器數(shù)據(jù)(Machinedata)：由傳感器或算法在機(jī)器上產(chǎn)生

的數(shù)據(jù)。

機(jī)器學(xué)習(xí)(Machinelearning)：人工智能的一部分，指的

是機(jī)器能夠從它們所完成的任務(wù)中進(jìn)行自我學(xué)習(xí)，通過長期

的累積實(shí)現(xiàn)自我改進(jìn)。

MapReduce：是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map：映射，

Reduce:歸納)。

大規(guī)模并行處理(MPP：MassivelyParallel

Processing)：同時(shí)使用多個(gè)處理器(或多臺計(jì)算機(jī))處理同

一個(gè)計(jì)算任務(wù)。

元數(shù)據(jù)(Metadata)：被稱為描述數(shù)據(jù)的數(shù)據(jù)，即描述數(shù)據(jù)

數(shù)據(jù)屬性(數(shù)據(jù)是什么)的信息。

多維數(shù)據(jù)庫(Multi-DimensionalDatabases)：用于優(yōu)化

數(shù)據(jù)聯(lián)機(jī)分析處理(OLAP)程序，優(yōu)化數(shù)據(jù)倉庫的一種數(shù)據(jù)庫。

多值數(shù)據(jù)庫(MultiValueDatabases)：是一種非關(guān)系型數(shù)

據(jù)庫(NoSQL),一種特殊的多維數(shù)據(jù)庫：能處理3個(gè)維度的數(shù)

據(jù)。主要針對非常長的字符串，能夠完美地處理HTML和XML

中的字串。

自然語言處理(NaturalLanguageProcessing)：是計(jì)算

機(jī)科學(xué)的一個(gè)分支領(lǐng)域，它研究如何實(shí)現(xiàn)計(jì)算機(jī)與人類語言

之間的交互。

網(wǎng)絡(luò)分析(Networkanalysis)：分析網(wǎng)絡(luò)或圖論中節(jié)點(diǎn)間

的關(guān)系，即分析網(wǎng)絡(luò)中節(jié)點(diǎn)間的連接和強(qiáng)度關(guān)系。

NewSQL：一個(gè)優(yōu)雅的、定義良好的數(shù)據(jù)庫系統(tǒng)，比SQL更易

學(xué)習(xí)和使用，比NoSQL更晚提出的新型數(shù)據(jù)庫。

NoSQL：顧名思義，就是“不使用SQL”的數(shù)據(jù)庫。這類數(shù)

據(jù)庫泛指傳統(tǒng)關(guān)系型數(shù)據(jù)庫以外的其他類型的數(shù)據(jù)庫。這類

數(shù)據(jù)庫有更強(qiáng)的一致性，能處理超大規(guī)模和高并發(fā)的數(shù)據(jù)。

對象數(shù)據(jù)庫(ObjectDatabases)：(也稱為面象對象數(shù)據(jù)

庫)以對象的形式存儲數(shù)據(jù)，用于面向?qū)ο缶幊獭Ｋ煌?/p>

關(guān)系型數(shù)據(jù)庫和圖形數(shù)據(jù)庫，大部分對象數(shù)據(jù)庫都提供一種

查詢語言，允許使用聲明式編程(declarativeprogramming)

訪問對象。

基于對象圖像分析(Object-basedImageAnalysis)：數(shù)

字圖像分析方法是對每一個(gè)像素的數(shù)據(jù)進(jìn)行分析，而基于對

象的圖像分析方法則只分析相關(guān)像素的數(shù)據(jù)，這些相關(guān)像素

被稱為對象或圖像對象。

操作型數(shù)據(jù)庫(OperationalDatabases)：這類數(shù)據(jù)庫可

以完成一個(gè)組織機(jī)構(gòu)的常規(guī)操作，對商業(yè)運(yùn)營非常重要，一

般使用在線事務(wù)處理，允許用戶訪問、收集、檢索公司內(nèi)部

的具體信息。

優(yōu)化分析(Optimizationanalysis)：在產(chǎn)品設(shè)計(jì)周期依

靠算法來實(shí)現(xiàn)的優(yōu)化過程，在這一過程中，公司可以設(shè)計(jì)各

種各樣的產(chǎn)品并測試這些產(chǎn)品是否滿足預(yù)設(shè)值。

本體論(Ontology):表示知識本體，用于定義一個(gè)領(lǐng)域中

的概念集及概念之間的關(guān)系的一種哲學(xué)思想。(譯者注：數(shù)據(jù)

被提高到哲學(xué)的高度，被賦予了世界本體的意義，成為一個(gè)

獨(dú)立的客觀數(shù)據(jù)世界)

異常值檢測(Outlierdetection)：異常值是指嚴(yán)重偏離

一個(gè)數(shù)據(jù)集或一個(gè)數(shù)據(jù)組合總平均值的對象，該對象與數(shù)據(jù)

集中的其他它相去甚遠(yuǎn)，因此，異常值的出現(xiàn)意味著系統(tǒng)發(fā)

生問題，需要對此另加分析。

聯(lián)機(jī)分析處理(On-LineAnalyticalProcessing,

OLAP):能讓用戶輕松制作、瀏覽報(bào)告的工具，這些報(bào)告總

結(jié)相關(guān)數(shù)據(jù)，并從多角度分析。

模式iR別(PattemRecognition):通過算法來識別數(shù)據(jù)

中的模式，并對同一數(shù)據(jù)源中的新數(shù)據(jù)作出預(yù)測

平臺即服務(wù)(PaaS:Platform-as-a-Service):為云計(jì)算

解決方案提供所有必需的基礎(chǔ)平臺的一種服務(wù)。

預(yù)測分析(Predictiveanalysis):大數(shù)據(jù)分析方法中最

有價(jià)值的一種分析方法，這種方法有助于預(yù)測個(gè)人未來(近

期)的行為，例如某人很可能會買某些商品，可能會訪問某

些網(wǎng)站，做某些事情或者產(chǎn)生某種行為。通過使用各種不同

的數(shù)據(jù)集，例如歷史數(shù)據(jù)，事務(wù)數(shù)據(jù)，社交數(shù)據(jù)，或者客戶

的個(gè)人信息數(shù)據(jù)，來識別風(fēng)險(xiǎn)和機(jī)遇。

公共數(shù)據(jù)(Publicdata):由公共基金創(chuàng)建的公共信息或公

共數(shù)據(jù)集。

數(shù)字化自我(QuantifiedSelf)：使用應(yīng)用程序跟蹤用戶

一天的一舉一動(dòng)，從而更好地理解其相關(guān)的行為。

R：是一種編程語言，在統(tǒng)計(jì)計(jì)算方面很出色。如果你不知

道R,你就稱不上是數(shù)據(jù)科學(xué)家。R是數(shù)據(jù)科學(xué)中最受歡迎

的語言之一。

再識別(Re-identification)：將多個(gè)數(shù)據(jù)集合并在一起，

從匿名化的數(shù)據(jù)中識別出個(gè)人信息。

回歸分析(Regressionanalysis)：確定兩個(gè)變量間的依

賴關(guān)系。這種方法假設(shè)兩個(gè)變量之間存在單向的因果關(guān)系

(譯者注：自變量，因變量，二者不可互換)。

實(shí)時(shí)數(shù)據(jù)(Real-timedata)：指在幾毫秒內(nèi)被創(chuàng)建、處理、

存儲、分析并顯示的數(shù)據(jù)。

推薦引擎(Recommendationengine)：推薦引擎算法根據(jù)

用戶之前的購買行為或其他購買行為向用戶推薦某種產(chǎn)品。

路徑分析(Routinganalysis)：-針對某種運(yùn)輸方法通過

使用多種不同的變量分析從而找到一條最優(yōu)路徑，以達(dá)到降

低燃料費(fèi)用，提高效率的目的。

半結(jié)構(gòu)化數(shù)據(jù)(Semi-structureddata)：半結(jié)構(gòu)化數(shù)據(jù)

并不具有結(jié)構(gòu)化數(shù)據(jù)嚴(yán)格的存儲結(jié)構(gòu)，但它可以使用標(biāo)簽或

其他形式的標(biāo)記方式以保證數(shù)據(jù)的層次結(jié)構(gòu)。

結(jié)構(gòu)化數(shù)據(jù)(Structureddata)：可以組織成行列結(jié)構(gòu),

可識別的數(shù)據(jù)。這類數(shù)據(jù)通常是一條記錄，或者一個(gè)文件，

或者是被正確標(biāo)記過的數(shù)據(jù)中的某一個(gè)字段，并且可以被精

確地定位到。

情感分析(SentimentAnalysis)：通過算法分析出人們是

如何看待某些話題。

信號分析(Signalanalysis)：指通過度量隨時(shí)間或空間

變化的物理量來分析產(chǎn)品的性能。特別是使用傳感器數(shù)據(jù)。

相似性搜索(Similaritysearches)：在數(shù)據(jù)庫中查詢最

相似的對象，這里所說的數(shù)據(jù)對象可以是任意類型的數(shù)據(jù)。

仿真分析(Simulationanalysis)：仿真是指模擬真實(shí)環(huán)

境中進(jìn)程或系統(tǒng)的操作。仿真分析可以在仿真時(shí)考慮多種不

同的變量，確保產(chǎn)品性能達(dá)到最優(yōu)。

軟件即月艮務(wù)(SaaS:Software-as—a-Service)：基于Web

的通過瀏覽器使用的一種應(yīng)用軟件。

空間分析(Spatialanalysis)：空間分析法分析地理信息

或拓?fù)湫畔⑦@類空間數(shù)據(jù)，從中得出分布在地理空間中的數(shù)

據(jù)的模式和規(guī)律。

SQL：在關(guān)系型數(shù)據(jù)庫中，用于檢索數(shù)據(jù)的一種編程語言。

流處理(Streamprocessing)：流處理旨在對有“連續(xù)”

要求的實(shí)時(shí)和流數(shù)據(jù)進(jìn)行處理。結(jié)合流分析，即在流內(nèi)不間

斷地計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析的能力。流處理解決方案旨在對高

流量進(jìn)行實(shí)時(shí)處理。

時(shí)序分析(Timeseriesanalysis)：分析在重復(fù)測量時(shí)間

里獲得的定義良好的數(shù)據(jù)。分析的數(shù)據(jù)必須是良好定義的，

并且要取自相同時(shí)間間隔的連續(xù)時(shí)間點(diǎn)。

拓?fù)鋽?shù)據(jù)分析(TopologicalDataAnalysis)：拓?fù)鋽?shù)據(jù)

分析主要關(guān)注三點(diǎn)：復(fù)合數(shù)據(jù)模型、集群

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語

文檔簡介

溫馨提示

最新文檔

評論

100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔