版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據分析行業(yè)服務參考文件
(征求意見稿)
編寫單位:中國商業(yè)聯(lián)合會
中國商業(yè)聯(lián)合會數(shù)據分析專業(yè)委員會
二零二一年九月
一、序言
隨著數(shù)據要素市場在逆勢中釋放出經濟增長新動能,大數(shù)據也迎來了重大發(fā)
展契機,當前數(shù)據作為新型生產要素,已成為信息時代國家重要戰(zhàn)略資源。近年
來,我國大數(shù)據從無到有、從有到優(yōu),大數(shù)據應用加速向各行各業(yè)滲透,市場主
體愈發(fā)重視數(shù)據這一重要企業(yè)資產和資源所蘊含的巨大商業(yè)價值。同時大數(shù)據與
各行業(yè)融合發(fā)展,助推數(shù)字化經濟轉型,實現(xiàn)企業(yè)級數(shù)據智能驅動業(yè)務,成為驅
動發(fā)展的強大引擎。
在大數(shù)據應用價值不斷凸顯的今天,數(shù)據分析師事務所作為一個全新的第三
方服務行業(yè),已經遍布在全國各省市,正在踐行以“大數(shù)據思維”助力政務數(shù)字
化發(fā)展、企業(yè)數(shù)字化轉型,圍繞數(shù)據的深度分析、業(yè)務場景構建、深層次的咨詢
等,以大數(shù)據思維幫助企、事業(yè)單位實現(xiàn)數(shù)字化轉型并提供行之有效的戰(zhàn)略決策。
為了倡導數(shù)據分析師事務所及大數(shù)據領域數(shù)據分析行業(yè)相關企業(yè)單位的合
規(guī)經營管理,提升其競爭力和可持續(xù)發(fā)展能力,監(jiān)督行業(yè)自律,維護行業(yè)正當競
爭,加強對數(shù)據分析從業(yè)行為的監(jiān)督和指導,促進中國數(shù)據分析行業(yè)健康發(fā)展,
中國商業(yè)聯(lián)合會數(shù)據分析專業(yè)委員會組織大數(shù)據領域的專家及業(yè)務突出的企業(yè)
單位,通過對數(shù)據分析服務內容的研究與探討,歷經數(shù)月,制定完成本《數(shù)據分
析行業(yè)服務參考文件》。
4
二、服務參考文件概述
1.編制背景
自2015年,黨的十八屆五中全會公報提出要實施“國家大數(shù)據戰(zhàn)略”,這
是大數(shù)據第一次寫入黨的全會決議,標志著大數(shù)據戰(zhàn)略正式上升為國家戰(zhàn)略。五
中全會,開啟了大數(shù)據建設的新篇章。2015年至2021年,我國陸續(xù)發(fā)布大數(shù)據
相關政策文件,持續(xù)加強大數(shù)據、數(shù)字經濟國家戰(zhàn)略部署。2021年,在建黨百年
之際,隨著《中華人民共和國國民經濟和社會發(fā)展第十四個五年規(guī)劃和2035年
遠景目標綱要》全文正式發(fā)布,數(shù)字化轉型也再次迎來熱議。其實在信息技術和
數(shù)字經濟的發(fā)展下,數(shù)字化轉型一直是企業(yè)的關鍵命題,熱度不減。
中國商業(yè)聯(lián)合會數(shù)據分析專業(yè)委員會成立于2008年4月,是經國務院國有
資產監(jiān)督管理委員會審核同意、中華人民共和國民政部正式批準和登記的中國數(shù)
據分析行業(yè)協(xié)會,是以數(shù)據分析師及數(shù)據分析師事務所等從事與數(shù)據分析業(yè)務相
關的團體與個人自愿組成的全國性數(shù)據分析行業(yè)組織,是中國較早堅持發(fā)展專業(yè)
型協(xié)會、靠專業(yè)引領市場的行業(yè)組織。本次《數(shù)據分析行業(yè)服務參考文件》由中
國商業(yè)聯(lián)合會數(shù)據分析專業(yè)委員會組織編寫。
目前我國擁有海量的數(shù)據資源,需要有相應豐富的落地應用場景,隨著國家
政策的日漸完善以及扶持力度的不斷增強,我國大數(shù)據產業(yè)不斷發(fā)展和進步。同
時企業(yè)面臨的數(shù)字化轉型是一個循序漸進的過程,是企業(yè)發(fā)展的必經之路。然而,
隨著我國大數(shù)據應用的進一步深入,企業(yè)數(shù)字化發(fā)展的痛點問題相繼暴露:認知
偏差,缺乏大數(shù)據思維;數(shù)據孤島嚴重,缺乏數(shù)據管理機制和保障;在提供企業(yè)
數(shù)字化轉型服務時,體系和框架流程不夠明確、業(yè)務范圍和服務模式模糊、服務
收費差異大……面對當前發(fā)展的瓶頸問題,不僅需要從行業(yè)機制的角度尋求突破,
也亟需從市場化維度持續(xù)加強支撐。本參考文件梳理了數(shù)據分析行業(yè)業(yè)務相關定
義規(guī)范、數(shù)據分析體系和標準化分析流程,對數(shù)據分析業(yè)務范圍的研究及通過市
場調研相關收費參考、服務模式、項目運營管理和項目交付標準,以及售后服務
等內容均做出了說明。并對數(shù)據分析行業(yè)相關企業(yè)和個人從業(yè)規(guī)范提出了意見。
5
呼吁社會各界共同關注數(shù)據分析行業(yè)發(fā)展,加強對數(shù)據分析業(yè)務的重視,共同助
力企業(yè)數(shù)字化轉型。
2.服務參考文件實行期
本服務參考文件自2021年12月1日正式實行,根據實施情況,不定期進行
修訂。
3.制定總體依據
本服務參考文件總體依據有:《中國數(shù)據分析行業(yè)自律公約》、《中國大數(shù)
據人才培養(yǎng)體系標準》、《企業(yè)經營決策數(shù)據分析服務內容及費用組成指導性文
件》、《數(shù)據分析師事務所從業(yè)規(guī)范》、《數(shù)據分析師執(zhí)業(yè)規(guī)范》等相關文件,
以及對眾多家優(yōu)質大數(shù)據公司、數(shù)據分析師事務所進行調研,最終擬定本服務參
考文件。
4.適用范圍
本服務參考文件主要適用范圍:數(shù)據分析行業(yè)從事專業(yè)數(shù)據分析的機構——
數(shù)據分析師事務所,以及大數(shù)據領域相關企業(yè)單位。
5.編制總原則
本服務參考文件編制總原則為滿足數(shù)據分析師事務所及大數(shù)據領域相關企
業(yè)單位的業(yè)務需求,促進數(shù)據分析行業(yè)公平、有序、健康發(fā)展。本次服務參考文
件統(tǒng)一了數(shù)據分析體系與分析方法、流程;規(guī)范了數(shù)據分析專業(yè)術語和定義;規(guī)
范了數(shù)據分析行業(yè)業(yè)務范圍;通過市場調研相關收費方式提供參考;對服務模式、
項目運營管理、項目交付標準及售后服務規(guī)范進行了統(tǒng)一說明;同時對數(shù)據分析
行業(yè)相關企業(yè)單位從業(yè)及數(shù)據分析師執(zhí)業(yè)進行規(guī)范,并且對違規(guī)事項及反饋機制
進行說明。
6
三、數(shù)據分析與數(shù)據分析標準化流程
為了進一步規(guī)范數(shù)據分析流程,該部分首先對數(shù)據分析和數(shù)據分析師兩個概
念進行闡述,然后引出行業(yè)數(shù)據分析標準化流程。
1.數(shù)據分析
1.1數(shù)據分析
數(shù)據分析是指基于業(yè)務目標,采用適當?shù)姆治龇椒ê凸ぞ邔κ占降臄?shù)據進
行處理和分析,并從中提取有價值的信息的過程。在大數(shù)據時代,很多企業(yè)收集
到實時的、大量的、種類豐富的數(shù)據,而這些數(shù)據通過匯總、預處理、構建模型
等過程幫助企業(yè)發(fā)現(xiàn)并解決問題,并提供高效的決策依據,這些也屬于數(shù)據分析
的范疇。
1.2數(shù)據分析師
隨著移動互聯(lián)網、大數(shù)據和云計算等高新技術的迅速發(fā)展,企業(yè)獲取數(shù)據的
邊界在不斷擴大,質量也取得大幅度提高。如何管理和應用這些數(shù)據幫助企業(yè)提
高效率,降低運營成本成為企業(yè)的熱門需求,所以,數(shù)據分析師崗位的需求逐年
遞增。
數(shù)據分析師是指在不同行業(yè)中,專門從事定義和發(fā)現(xiàn)問題,收集、整理和分
析數(shù)據,并根據數(shù)據結果提出有價值的決策信息的專業(yè)人員。“讓數(shù)據創(chuàng)造價值”
是對數(shù)據分析師崗位最好的闡述。
企業(yè)對數(shù)據分析師的角色定位至關重要。優(yōu)秀的數(shù)據分析師不僅是業(yè)務專家,
同時也是技術專家,在企業(yè)充當業(yè)務和技術之間的橋梁,為企業(yè)的決策方案提供
支持,一方面是對分析層面的支持,另一方面,還能夠為方案的具體實施提供保
障措施。所以,對任何企業(yè)來說,數(shù)據分析師崗位的重要性異常突出。
7
數(shù)據分析師無論解決何種問題,數(shù)據分析思維和流程都是基礎,只有打好基
礎,后續(xù)工作才能順利開展。
2.數(shù)據分析標準化流程
為了保證數(shù)據分析流程在整個行業(yè)的標準化,該體系的撰寫專家廣泛查閱了
各類相關材料,并綜合了目前數(shù)據分析相關的通用步驟,將數(shù)據分析流程劃分為
業(yè)務理解、數(shù)據收集、數(shù)據探索和預處理、數(shù)據分析、結果評估和展示、決策落
地六個階段作為數(shù)據分析行業(yè)的標準化流程。
該流程提供了一種開放的、使用便捷的、閉環(huán)的數(shù)據分析流程。該流程系統(tǒng)
科學,不只包括數(shù)據的收集,數(shù)據的分析等單一環(huán)節(jié),而且是一個數(shù)據分析的全
流程解決方案。該流程具有通用性,不僅適合企業(yè)的數(shù)據科學家、算法工程師等,
也適合不同行業(yè)、不同業(yè)務部門的數(shù)據運營和分析人員,適合數(shù)據分析全行業(yè)應
用。
下圖1展示了數(shù)據分析流程的6個階段。
3.數(shù)據探索
1.業(yè)務理解2.數(shù)據收集
和預處理
5.結果評估和
6.決策落地4.數(shù)據分析
展示
圖1:數(shù)據分析標準化流程圖
2.1業(yè)務理解階段
數(shù)據分析的第一個流程是業(yè)務理解,這也是全流程最關鍵的一個環(huán)節(jié)。由于
很多數(shù)據分析參考流程常常將數(shù)據獲取作為數(shù)據分析的第一步,所以實踐中仍存
8
在一些誤區(qū),認為先有數(shù)據才開始分析,導致有些項目在沒有明確業(yè)務問題和需
求的情況下盲目開展,從而效率低下,甚至達不到預期的目標。
運用規(guī)范的數(shù)據分析方法思考并解決業(yè)務問題對數(shù)據分析師來說至關重要,
數(shù)據分析工具的使用大同小異,然而分析思維的不同決定了數(shù)據分析師的差異。
初級數(shù)據分析師如何進階成為高級、資深的數(shù)據分析師,主要體現(xiàn)在思維模式上
的轉變。
作為一名合格的數(shù)據分析師,最基本的要求是站在業(yè)務需求方的角度思考問
題,從實際問題出發(fā),深刻理解項目的需求和分析目標,并將商業(yè)需求轉化為能
用數(shù)據分析解決的問題。要保證項目的目標是可量化、可衡量的。例如,如果想
預測機器的狀態(tài)是否正常,需要明確目標是想預測機器的壽命,還是要實時監(jiān)控
異常狀況,亦或是提前一段時間對機器故障進行預警,如果對商業(yè)問題的定義和
理解不同,所建立的模型和應用的方法都可能是不同的,同時,技術難度也并非
是完全一樣的。
本流程的要點主要包括以下幾個方面:
業(yè)務需求分析:實踐中,數(shù)據分析師可以借鑒管理中的“5W2H”原則進行數(shù)
據分析項目的業(yè)務需求理解,明確分析問題和目的。
(1)WHAT——項目的目標是什么?需要做什么工作?
(2)WHY——為什么要做該項目?是否有其他替代方案?
(3)WHO——項目為誰服務?項目由誰來做?項目相關的利益相關者有
誰?
(4)WHEN——項目什么時間做?什么時候截止?
(5)WHERE——項目在何處做?數(shù)據等資源在何處獲???
(6)HOW——項目如何做?項目過程如何實施?項目如何選擇方法和工
具?結果如何落地?
9
(7)HOWMUCH——項目需要做到什么程度?項目質量水平如何衡量?
費用如何?
業(yè)務需求分解:有些情況下,項目的問題和目標是較復雜和隱晦的,這時需
要把需求和目標進一步拆分成幾個子目標,同時,對子目標提出前提假設,假設
子目標的實現(xiàn)能夠推動總目標的實現(xiàn)。例如,目標為提高某產品的銷售額,通過
4P理論對該問題進行拆分,則可以假設通過產品改進、價格優(yōu)化、分銷和促銷四
個子問題提高銷售額,因此,復雜問題的商業(yè)理解需要對商業(yè)需求進行分解,同
時,受到各種條件的限制,分解成多個子問題的項目要對問題的重要程度進行優(yōu)
先級排序。
現(xiàn)狀評估:充分理解項目需求的前提下,還需要對項目的現(xiàn)狀進行評估。其
中包括:與數(shù)據分析問題相關的商業(yè)背景是什么?項目可用的資源有哪些?部門
間溝通方式如何?資源的約束有哪些?項目風險如何?項目成本和收益如何?
項目涉及的術語有哪些?等等。
項目計劃制定:制定數(shù)據分析計劃,包括:確定項目目標、制定整個項目
的實施方案、編制預算、組織人員、確立項目政策、確定項目執(zhí)行標準等。
2.2數(shù)據收集階段
該階段從數(shù)據收集開始,數(shù)據分析師應掌握對數(shù)據的洞察能力,識別數(shù)據的
質量問題,數(shù)據的偏差問題,數(shù)據的內部結構等問題,數(shù)據分析師應該能夠獲取
相關數(shù)據,同時對獲取的數(shù)據有一個基本的認識,識別數(shù)據是否能夠解決當前的
商業(yè)問題?是否還需要外部其他數(shù)據的支持?如果需要,成本和可行性如何?該
階段可能需要跨部門、甚至跨企業(yè)溝通,對商業(yè)問題的理解有變動時,該過程也
會發(fā)生變化,所以,數(shù)據收集階段可能是反復進行的。
本流程的要點主要包括以下幾個方面:
數(shù)據收集:明確與項目問題相關的數(shù)據大致有哪些?明確數(shù)據來源,數(shù)據的
體現(xiàn)形式、數(shù)據的存儲位置、數(shù)據的獲取渠道等,并進行數(shù)據獲取。巧婦難為無
米之炊,數(shù)據是項目成果的關鍵資源,但是,獲取數(shù)據的成本收益也必須明確。
10
根據商業(yè)問題的不同,采用不同的收集數(shù)據的方式是比較合理的,不要為了獲取
數(shù)據(尤其是大數(shù)據)而獲取數(shù)據,如果單純地追求高質量和大量的數(shù)據,項目
就進入了另一個極端,給項目的實施者造成極大負擔。數(shù)據獲取的方式多種多樣,
包括:企業(yè)內部數(shù)據庫、外部公開數(shù)據庫、互聯(lián)網大數(shù)據、問卷調查、實驗法等。
數(shù)據質量檢驗:數(shù)據的質量直接影響項目的成功與否,如果最初始階段不充
分檢驗數(shù)據的質量問題,在后續(xù)階段發(fā)現(xiàn)問題時,則還需要返回修正,將極大地
浪費時間,導致項目效率低下。數(shù)據質量的檢驗包括:數(shù)據的準確性、數(shù)據的時
效性、數(shù)據的無偏性、數(shù)據的全面性、數(shù)據的隱私保護等問題。
2.3數(shù)據探索和預處理階段
數(shù)據探索和預處理階段的主要任務是在第二步基礎上探索數(shù)據結構,并提取
建立模型或解決問題所需的數(shù)據,進行數(shù)據建模前的準備工作,如數(shù)據的清洗、
集成、轉換或規(guī)約等,數(shù)據的各項準備工作并無先后順序,而且該階段也很可能
會被反復執(zhí)行。
本流程的要點主要包括以下幾個方面:
數(shù)據的描述和探索:對數(shù)據的質量有基本的把握后,對收集來的數(shù)據進行
數(shù)據的描述和探索,目的是從現(xiàn)有數(shù)據中提取潛在信息,驗證項目中提到的前
提假設,并尋找那些與后續(xù)數(shù)據分析項目目標高度相關的數(shù)據等。數(shù)據的描述
和探索包括:數(shù)據的缺失和異常、數(shù)據的集中趨勢和離散程度、數(shù)據的對比分
析、趨勢分析、相關性診斷等。
數(shù)據選擇:數(shù)據獲取階段的數(shù)據范圍較廣泛,數(shù)據選擇是在獲取到的數(shù)據基
礎上,充分利用現(xiàn)有的業(yè)務知識對項目所需的數(shù)據進行選擇和排除,為下一步分
析做準備。數(shù)據的選擇并不是盲目的,有些成熟的問題和領域已經有相關的項目
或研究結論,數(shù)據分析師在選擇數(shù)據時可以借鑒。
數(shù)據清洗:結合業(yè)務問題,根據清洗數(shù)據的具體方法,采取合適的工具對數(shù)
據中存在的缺失值、異常值和數(shù)據不一致等現(xiàn)象進行處理。
11
數(shù)據集成:將不同位置的數(shù)據進行匹配和合并,以形成面向問題的數(shù)據倉庫。
數(shù)據轉換:根據后續(xù)分析的要求選擇合適的數(shù)據轉換方式,包括離散化、標
準化、數(shù)據形態(tài)轉化、獨熱編碼處理等。
數(shù)據規(guī)約:規(guī)約后的數(shù)據體量會小很多,但是仍比較接近原始數(shù)據,目的是
為了后續(xù)的分析更有效,效率更高。數(shù)據規(guī)約包括:維歸約、數(shù)量歸約和數(shù)據壓
縮等。
數(shù)據探索和預處理階段比較耗時,有統(tǒng)計表明50%以上的數(shù)據分析時間都消
耗在數(shù)據準備階段。
2.4數(shù)據分析階段
該流程是指應用合適的數(shù)據分析軟件,選擇合適的分析方法,對之前處理好
的數(shù)據進行分析,并識別出數(shù)據中潛在知識和規(guī)律的過程。分析過程并非越復雜
越好,要求數(shù)據分析師對分析工具和方法有深刻的認識,能在所掌握的眾多方法
中選擇恰當?shù)姆椒?,能夠對分析模型的參?shù)進行設置、調整和優(yōu)化,能夠基于業(yè)
務知識建立簡潔、易懂、可靠、可解釋性高、準確率高的分析模型等。
本流程的要點主要包括以下幾個方面:
分析工具選擇:選擇合適的分析工具,業(yè)務類的數(shù)據問題可能需要用Excel、
BI等工具等進行數(shù)據分析;開發(fā)類的數(shù)據問題可能需要用Python、R等編程語
言搭建算法模型。
分析方法選擇:選擇合適的分析方法,業(yè)務類的數(shù)據分析問題可能需要用數(shù)
據透視表、相關分析、回歸分析等方法進行分析,開發(fā)類的數(shù)據問題可能需要用
聚類、分類、關聯(lián)規(guī)則等機器學習算法進行分析。
數(shù)據分析過程實施:運用合適的方法在特定的工具上展開分析,并輸出分析
結果,給出合理的決策建議。
12
2.5結果評估和展示階段
分析完成以后,需要評估分析結果的質量,評估過程要全面,以確保結果更
符合業(yè)務要求。如果在評估過程中發(fā)現(xiàn)結果與業(yè)務目標相比仍存在差距,則需要
對分析過程進行修正,對分析過程的修正可能需要重新從第一階段開始,通過反
復多次的迭代,使結果更優(yōu)。
本流程的要點主要包括以下幾個方面:
結果評價:依據技術手段和實際商業(yè)范例雙重評價標準對分析結果和決策建
議進行評估。
分析過程再檢驗:從數(shù)據分析標準流程的第一個環(huán)節(jié)開始檢驗分析過程是否
存在紕漏,若發(fā)現(xiàn)問題及時指出,同時對分析過程重新予以修正,以更加符合實
踐要求。
數(shù)據結果展示:采用簡單明了的數(shù)據可視化圖表和文字解釋或形成數(shù)據分析
報告來展示數(shù)據結果。
2.6決策落地階段
決策落地階段是對分析結果給出的決策建議和知識進行落地,并實時檢驗過
程中的效果,與初始目標進行對比。實踐案例中,決策落地一般由企業(yè)用戶來執(zhí)
行,這也是用戶最關心的一個環(huán)節(jié)。所以數(shù)據分析并不是項目的本質目的,目的
是挖掘有用的信息和知識,并將其落地實現(xiàn),否則則不符合數(shù)據分析閉環(huán)的要求。
本流程的要點主要包括以下幾個方面:
決策計劃制定:制定項目成果如何落地的方案和計劃。
計劃執(zhí)行:在執(zhí)行過程中與項目目標進行比較,評估目標實現(xiàn)情況。
項目再檢驗:如果落地效果一般,則需要層層向上再檢驗每個流程的可能失
誤環(huán)節(jié)。
13
項目成果交付:依照合同要求將項目相關的資料全部予以交付,同時按要求
準備相關培訓和售后服務等。
14
四、數(shù)據分析專業(yè)術語及定義規(guī)范
本章節(jié)基于上一階段的六步流程,給出每個流程可能涉及的專業(yè)術語及定義
規(guī)范。
1.業(yè)務理解階段定義
數(shù)據分析問題:商業(yè)中現(xiàn)實和理想中的差距。
數(shù)據分析類型:根據需要解決的問題的不同,數(shù)據分析的類型可以分為現(xiàn)狀
分析,原因分析和預測分析三類,有些綜合的數(shù)據分析項目可能同時包含兩類或
三類分析。
現(xiàn)狀分析:是數(shù)據分析最常見的目標之一,包括企業(yè)現(xiàn)狀和競爭對手的現(xiàn)狀
分析等,例如,商家將企業(yè)現(xiàn)有客戶細分成幾類,總結每一類的特點,并對每類
客戶展開精準營銷,以提高銷售額?,F(xiàn)狀分析要避免落入只描述現(xiàn)狀,沒有得出
有用結論的境地,現(xiàn)狀分析要保證結論的客觀性、準確性和嚴謹性等。
原因分析:是對當前存在的問題尋找原因,并找出解決問題的辦法的分析,
例如,找出機器發(fā)生故障的可能原因,并加以改進,從而避免故障再次發(fā)生。原
因分析常常采用多維度分解、對比分析、提出假設、驗證假設、相關性分析、回
歸分析等方法來實現(xiàn)。原因分析要避免落入只能發(fā)現(xiàn)原因,不能提出解決問題的
辦法的境地,原因分析要保證原因的客觀性和嚴謹性,解決問題的可操作性等。
預測分析:是對企業(yè)未來的業(yè)務發(fā)展趨勢進行預測。如預測企業(yè)下一年度的
銷量,預測客戶在未來一段時間的流失情況等。
結構化思維:是指面對分析問題時能夠從多個角度進行思考,全面深刻地剖
析問題可能出現(xiàn)的原因,并采用系統(tǒng)的行動方案和恰當手段解決問題的思維。
2.數(shù)據收集階段定義
數(shù)據:現(xiàn)實世界的記錄。
15
信息:獲取并經過處理后的數(shù)據。
知識:通過對信息的分析和匯總而建立起來的關于世界的規(guī)律和模型。
數(shù)據收集:根據業(yè)務要求收集相關數(shù)據的過程,收集到的數(shù)據通常要與業(yè)務
問題高度相,并且需要滿足時效性、準確性、無偏性、可靠性等要求。
總體:所研究的全部個體的集合。
樣本:在總體中選取的一個子集。
抽樣:從總體中抽取一部分樣本的過程,目的是用樣本結果來推斷總體。
大數(shù)據:無法用常規(guī)軟件和工具進行收集、存儲和分析等的數(shù)據集合,具有
大量的(Volume)、高速的(Velocity)、多樣的(Variety)、價值密度低(Value)
和真實(Veracity)等特征。
數(shù)據庫:存儲在計算機中的有組織的、可共享的數(shù)據集合。具有低冗余度、
數(shù)據獨立性強、擴展性強、可共享等特點。
數(shù)據倉庫:用于支持企業(yè)管理決策的數(shù)據集合,存儲的一般是歷史數(shù)據。具
有面向主題、集成的、穩(wěn)定性強、反映歷史變化等特點。
數(shù)據中臺:數(shù)據的公共服務平臺,基于業(yè)務需求,把企業(yè)各項數(shù)據收集、加
工整理、封裝以后形成的一個公共數(shù)據產品和服務平臺。數(shù)據中臺的應用包括BI
報表、營銷推薦、用戶畫像、風險評估等。
結構化數(shù)據:也稱為行數(shù)據,由行和列二維表的邏輯結構存儲和表達的數(shù)據,
通過關系型數(shù)據庫進行存儲和管理。
非結構化數(shù)據:數(shù)據結構不規(guī)則,不能用結構化數(shù)據庫來存儲的數(shù)據類型,
包括文檔、圖片、視頻、音頻、XML、HTML等數(shù)據。
SQL語言:結構化查詢語言,用來存取、查詢、更新和管理關系型數(shù)據庫的
程序設計語言。
16
數(shù)據集:數(shù)據的集合,通常每一列代表一個特定變量,每一行代表某一個體
的所有變量的數(shù)據,數(shù)據集通常以二維表的形式出現(xiàn)。
數(shù)據準確性:數(shù)據值代表真實值的程度,如未經校準的儀器測量的結果、錯
誤的客戶電話號碼等,都屬于不準確的數(shù)據。
數(shù)據連貫性:多張表里的數(shù)據是否能夠以特定的方式組合在一起,如客戶信
息表、訂單信息表和商品信息表能否通過特定的字段聯(lián)系在一起。
數(shù)據完整性:數(shù)據是否有缺失信息,如姓名、聯(lián)系方式等。
數(shù)據一致性:不同表中的信息是否保持一致,如兩張表中同一客戶的郵件地
址是否一致,如果不一致則要及時解決。
數(shù)據明確性:數(shù)據表中每一個字段的定義和描述是否明確,只有字段信息明
確才能保證數(shù)據的質量。
數(shù)據相關性:數(shù)據表中,不同字段的信息是否有關聯(lián),如果數(shù)據間相關性很
強,則可能存在數(shù)據信息的冗余。
數(shù)據時效性:發(fā)布數(shù)據和收集數(shù)據間的時間間隔,間隔越短代表數(shù)據的時效
性越強。
3.數(shù)據探索和預處理階段定義
數(shù)據探索:即探索性數(shù)據分析,是一種思維方式,目的為了獲取對數(shù)據的初
步理解,如變量的分布、缺失值和異常值、對數(shù)據進行總結等,強烈建議將探索
性分析納入到數(shù)據分析中。
臟數(shù)據:數(shù)據不在給定的邏輯范圍內,格式錯誤,不規(guī)范編碼或對業(yè)務毫無
意義的數(shù)據。
數(shù)據缺失:數(shù)據不完整或有缺失,實際中的數(shù)據往往缺失值較多,但很多模
型不能處理含有缺失的數(shù)據。
17
數(shù)據重復:相同的記錄在表中多次重復出現(xiàn)。
集中趨勢:描述一組觀測值的代表值,指一組數(shù)據的一般水平,包括均值、
中位數(shù)和眾數(shù)等。
離散趨勢:描述一組觀測值偏離中心位置的趨勢,包括全距、四分位差、方
差和標準差等。
離散系數(shù):也稱變異系數(shù),是標準差與均值的比值,值越大,說明數(shù)據的離
散程度越大;值越小,說明數(shù)據的離散程度越小。
正態(tài)分布:也稱高斯分布,一組呈正態(tài)分布的數(shù)據分布曲線呈鐘形,兩頭低、
中間高,左右對稱。
異常值:樣本中的某些個別值,其觀測值明顯偏離其他觀測值。
皮爾遜相關系數(shù):衡量數(shù)值型指標之間相關程度的統(tǒng)計量,一般用字母r
表示。
特征:數(shù)據和模型間的紐帶。
特征工程:在給定的數(shù)據、模型和問題下篩選出關鍵特征的過程。恰當?shù)奶?/p>
征選擇是機器學習模型高效輸出的關鍵。
數(shù)據清洗:發(fā)現(xiàn)并處理數(shù)據中的缺失值、異常值和數(shù)據不一致等情況的過程。
數(shù)據集成:將數(shù)據進行合并的過程,如將各分公司的數(shù)據合并在一起。
數(shù)據轉換:將數(shù)據從一種表現(xiàn)形式轉換成另一種表現(xiàn)形式的過程。
數(shù)據標準化:將原數(shù)據按照某些計算方式等比例縮放,使之取值范圍落入一
個較小的特定區(qū)間內。
數(shù)據歸約:在盡可能保持數(shù)據原狀的情況下,對數(shù)據進行精簡。
數(shù)據降維:將原來較多的特征重新計算組合從而形成少量新的特征的過程。
18
數(shù)據壓縮:在不丟失有用信息的前提下對數(shù)據重新組織來降低數(shù)據的冗余
和存儲空間,從而提高數(shù)據的存儲、處理和運算效率。
4.數(shù)據分析階段定義
數(shù)據透視表:通過字段間的排列組合和相關聚合運算幫助數(shù)據分析人員發(fā)現(xiàn)
規(guī)律和知識的一種交互式的表格。
描述性分析:將原始數(shù)據抽象濃縮成幾個統(tǒng)計指標的過程,包括均值、標準
差、中位數(shù)、眾數(shù)等。
推斷分析:用較小的樣本去推斷總體的信息(如參數(shù)、分布或關系等)的過
程。
假設檢驗:檢驗和判斷樣本與樣本間、樣本與總體間的差異是本質存在的還
是由抽樣誤差引起的統(tǒng)計推斷方法。常用的方法是顯著性檢驗,提前做出某些假
設,然后根據統(tǒng)計計算結果推斷是接受還是拒絕原假設,常用方法包括:F檢驗、
t檢驗、Z檢驗、卡方檢驗等。
算法:解決問題的一系列的清晰的策略指令,由規(guī)范的輸入、計算規(guī)則和輸
出等要素構成。
算法模型化:用同一套算法解決不同的問題。算法模型化過程賦予了算法
超強的問題遷移能力,比如根據回歸算法可以開發(fā)一套銷量預測模型,也可以開
發(fā)出一套壽命預測模型等。
數(shù)據建模:將現(xiàn)實世界的各種數(shù)據通過某種抽象的模型組織在一起,目的
在于發(fā)現(xiàn)現(xiàn)實世界的規(guī)律,提出解決問題的辦法。
監(jiān)督學習:有一組已知類別的樣本,通過建立一個學習模型,使模型能夠在
給定的輸入狀態(tài)下,通過調整參數(shù)的設置,對已知的類別做出較精確的預測的過
程。監(jiān)督學習將數(shù)據集分為兩部分,訓練集和測試集,訓練集用于訓練預測模型,
測試集用于對模型的結果進行檢驗。
19
非監(jiān)督學習:不事先對數(shù)據進行標記,直接對數(shù)據進行建模的學習過程,因
此,針對輸入數(shù)據事先并不知道輸出結果是什么。
5.結果評估和展示階段定義
數(shù)據可視化:借助圖表等可視化工具,準確傳遞數(shù)據分析結論的手段,目的
在于獲取復雜數(shù)據的直觀、深刻洞察。
A/Btest:根據分析結果,為同一個業(yè)務目標制定兩個或多個不同的方案,
以此來比較和評價最優(yōu)方案的實驗方法。比如針對流失用戶采取召回策略,比較
免費贈送一個月的VIP和發(fā)放20元優(yōu)惠券兩個激勵措施哪個效果更優(yōu)。
誤差:模型結果與真實結果之間的差距,反映了模型的有效性。
時間復雜度:描述算法運行時間的函數(shù)。
魯棒性:模型在受到外力干擾的情況下,仍可維持某些性能的特性。也就是
模型有較高的精度,若出現(xiàn)較小的偏差,對模型只能產生較小影響,若出現(xiàn)較大
偏差,也不會對模型產生致命影響。
可擴展性:模型處理大數(shù)據集的能力。
可解釋性:模型的可理解性,如決策樹的分類規(guī)則很容易被使用者理解,但
是神經網絡分類模型則把過程設計成一個黑箱,不容易解釋。
6.決策落地階段定義
決策落地:將數(shù)據分析理論建議轉化為實踐的過程。
20
五、基礎共性參考
1.業(yè)務范圍
服務范圍包括大數(shù)據咨詢服務、大數(shù)據分析服務、大數(shù)據產品服務。
大數(shù)據咨詢服務是幫助企業(yè)梳理數(shù)據化資產,提高數(shù)據質量,做好數(shù)據規(guī)劃,
使得數(shù)據處于有序管理的狀態(tài),管理數(shù)據的目標使其數(shù)據以合理的方式組合在一
起,以便為后期的數(shù)據分析和數(shù)據服務打好基礎。大數(shù)據咨詢服務包括:數(shù)據治
理服務、企業(yè)大數(shù)據轉型規(guī)劃等。
大數(shù)據分析服務是幫助企業(yè)進行數(shù)據整理、處理、計算、分析、計量、研究
等,分析企業(yè)現(xiàn)有的狀況,建立一個強大的數(shù)據基礎,然后將現(xiàn)有數(shù)據價值挖掘
出來,不僅可以幫助企業(yè)優(yōu)化內部的管理,還可以幫助企業(yè)制定正確的市場營銷
方案,借助信息的力量幫助優(yōu)化經營業(yè)績,轉化為商業(yè)價值,助力企業(yè)騰飛。
大數(shù)據產品服務指大數(shù)據咨詢服務和大數(shù)據分析服務形成的成果進行商業(yè)
化、落地執(zhí)行的產物,固化成大數(shù)據產品,更好的服務企業(yè)本身發(fā)展,同時也可
以更好的進行技術推廣,幫助更多企業(yè)的發(fā)展,帶動整個行業(yè)的進步。
1.1大數(shù)據咨詢服務
當今的業(yè)務發(fā)展速度意味著變革不再是可選項,數(shù)字化轉型已經達成共識。
大數(shù)據咨詢服務指依托大數(shù)據專業(yè)知識優(yōu)勢,幫助企業(yè)進行數(shù)據管理咨詢服務,
幫助企業(yè)將數(shù)據向信息、知識、智慧邁進,提高數(shù)據質量,在數(shù)據安全的前提下
更好的進行數(shù)據服務,釋放數(shù)據價值,助力數(shù)字化轉型。
1.1.1數(shù)字化轉型方案咨詢服務
數(shù)字化轉型方案(企業(yè)數(shù)字化轉型解決方案、信息系統(tǒng)生態(tài)建設方案、數(shù)據
綜合平臺解決方案),通過分析公司目前大數(shù)據信息化現(xiàn)狀、同業(yè)的大數(shù)據發(fā)展
情況、以及行業(yè)趨勢、監(jiān)管要求,結合公自身發(fā)展規(guī)劃,設計數(shù)字化轉型方案,
21
包括組織架構、制度保障、團隊建設等方面,同時制定未來藍圖規(guī)劃,實施路徑,
實施方案等,幫助企業(yè)快速進行數(shù)字化變革。
1.1.2企業(yè)大數(shù)據治理咨詢
大數(shù)據管理咨詢(數(shù)據治理咨詢服務),通過分析公司現(xiàn)有的數(shù)據情況,結
合政策監(jiān)管要求和公司業(yè)務發(fā)展需要、以及大數(shù)據技術的不斷更新,制定數(shù)據治
理體系藍圖規(guī)劃,幫助企業(yè)進行數(shù)據架構設計、數(shù)據模型設計、數(shù)據生命周期管
理、標準化管理、數(shù)據質量管理、數(shù)據安全管理、數(shù)據資產管理、元數(shù)據管理、
主數(shù)據管理、數(shù)據集成與共享服務等一系列的數(shù)據管理服務,使得企業(yè)夯實數(shù)據
基礎,建立合理、科學的數(shù)據治理體系,提升數(shù)據質量和數(shù)據應用水平,從而提
高公司的價值創(chuàng)造能力和風險管理水平。
1.2大數(shù)據分析服務
1.2.1企業(yè)經營數(shù)據分析服務
企業(yè)經營數(shù)據分析服務一般包括采購和供應鏈管理分析、生產管理數(shù)據分析、
質量管理數(shù)據分析、銷售數(shù)據分析、營銷數(shù)據分析、市場數(shù)據分析、財務分析、
客戶分析、產品分析、人力資源分析、經營分析等通過數(shù)據的科學分析可以助力
企業(yè)高速發(fā)展,幫助領導層量化決策。
采購和供應鏈管理分析:采購優(yōu)化數(shù)據分析(最優(yōu)采購量、最佳庫存量、庫
存優(yōu)化等);運輸問題(最優(yōu)運輸路徑、最優(yōu)供貨順序、最優(yōu)路徑問題等);供
應商遴選和評估分析;供應商風險分析(商業(yè)風險、信用風險、生產風險、安
全風險等);產業(yè)集群分析;供應鏈優(yōu)化分析;招投標數(shù)據分析;采購品質檢驗
數(shù)據分析;價格預測分析(大宗商品價格、物料價格、部件價格估算、價格波動
趨勢預測等)等。
生產管理數(shù)據分析:包括生產效率數(shù)據分析;產能優(yōu)化數(shù)據分析;生產流程
優(yōu)化數(shù)據分析;生產監(jiān)控數(shù)據分析;產品回溯管理數(shù)據分析;生產浪費數(shù)據分
析(物料浪費、生產時間閑置、工人閑置、資金占用、能源浪費等);生產成本
22
核算數(shù)據分析;生產成本控制數(shù)據分析;庫存優(yōu)化數(shù)據分析;生產管理系統(tǒng)構建
和數(shù)據分析系統(tǒng)服務等。
質量管理數(shù)據分析:品質優(yōu)化數(shù)據分析;品質監(jiān)控數(shù)據分析;品質事故預警
數(shù)據分析;品質管理流程優(yōu)化數(shù)據分析等。
銷售管理數(shù)據分析:銷售人員有效性數(shù)據分析;銷售費用有效性數(shù)據分析;
銷售活動有效性數(shù)據分析;銷售人員管理數(shù)據分析;大客戶銷售流程分析(如漏
斗模型);銷售策略有效性評估分析;樣品使用有效性數(shù)據分析;門店管理數(shù)據
分析;相似業(yè)務單元相對有效性評價等。
營銷數(shù)據分析:價格、銷量預測數(shù)據分析;廣告測試數(shù)據分析;概念測試數(shù)
據分析;品牌測試、品牌健康度監(jiān)測等數(shù)據分析;口碑監(jiān)測、輿情監(jiān)測等數(shù)據分
析;營銷費用控制數(shù)據分析;媒體監(jiān)測數(shù)據分析;媒體費用優(yōu)化(最優(yōu)決策問題、
費用配比問題);媒體投入產出效率分析;營銷活動損益數(shù)據分析;社交媒體數(shù)
據分析;廣告效果評價數(shù)據分析;渠道數(shù)據分析等。
市場數(shù)據分析:宏觀經濟研究數(shù)據分析服務;行業(yè)研究數(shù)據分析;長期行業(yè)
數(shù)據監(jiān)測和數(shù)據分析服務;市場專項研究數(shù)據分析服務;產品測試數(shù)據分析服務;
競爭情報、市場監(jiān)測等數(shù)據分析;市場預測數(shù)據分析服務;專利或者技術跟蹤數(shù)
據分析服務等。
財務分析:財務分析包括企業(yè)的償債能力、營運能力、盈利能力、資金實力
等方面,財務分析包括財務報表數(shù)據分析、稅務優(yōu)化數(shù)據分析、財務規(guī)劃、現(xiàn)金
流規(guī)劃數(shù)據分析;現(xiàn)金流預算、預測、預警系統(tǒng);企業(yè)信用管理系統(tǒng);全面預算
數(shù)據分析;成本優(yōu)化數(shù)據分析;ABC成本核算系統(tǒng)構建及數(shù)據分析;財務指標管
理和控制方案;全面財務管理分析,幫助企業(yè)做好資產負債平衡管理,找到適合
的籌資策略,更好的做好預算規(guī)劃。
客戶分析:指通過客戶的基礎屬性、行為習慣以及對客戶社交等情況的分析,
進行客戶分群管理、完善客戶360度畫像,幫助企業(yè)深入了解客戶行為偏好和需
求特征;同時通過客戶社交行為分析,可以利用社交圈子提高營銷效率、改進服
23
務,低成本擴大產品影響力。完善的客戶分析體系幫助企業(yè)進行精準營銷、實時
營銷以及個性化推薦??蛻舴治霭蛻魯?shù)據分析、客戶需求量化分析;客戶滿
意度量化分析;客戶言論(評價、反饋、投訴等)分析;客戶細分;客戶定位數(shù)
據分析服務;客戶價值(包括生命周期價值)數(shù)據分析;客戶風險分析(流失
風險、商業(yè)風險、信用風險等);營銷活動客戶響應度分析;潛在客戶行為分析;
新產品設計數(shù)據分析等。
產品分析:指從產品定位、產品設計、產品價格測試、產品市場預測、產品
運營等多方面進行產品分析服務,幫助企業(yè)打造產品,滿足消費者需求,提升產
品市場競爭力。
人力資源分析:人才是企業(yè)發(fā)展的核心競爭力,優(yōu)秀的團隊,效率與創(chuàng)意并
存時,才能在新的市場上一舉成功。人力資源分析通過分析人力資源結構分析,
包括人力資源數(shù)量分析、人員類別分析、工作人員素質分析、人員年齡結構分析、
職位結構分析人力資源管理數(shù)據分析:人力成本核算數(shù)據分析;培訓調研數(shù)據分
析(培訓需求調研、培訓效果調研等);企業(yè)文化調研數(shù)據分析;員工滿意度、
薪酬滿意度調研數(shù)據分析;組織績效評價數(shù)據分析;稀缺人才產出分析模型和高
級人才能力評估模型;招聘效果評價;人力資源規(guī)劃數(shù)據分析;人員績效關聯(lián)分
析;人員產出評價模型(人當產出率、元當產出率等);激勵效果評價模型分
析;人事制度系統(tǒng)優(yōu)化分析;職業(yè)生涯價值分析等方面,通過人力資源規(guī)劃,幫
助企業(yè)更好的進行人才培養(yǎng),團隊建設,形成真正的核心競爭力。
經營管理數(shù)據分析:企業(yè)運營管理流程數(shù)據分析;任務管理和計劃管理數(shù)據
分析;工程管理數(shù)據分析;項目管理數(shù)據分析;流程優(yōu)化及流程價值創(chuàng)出數(shù)據分
析;組織效率數(shù)據分析;組織績效評價系統(tǒng)建設;組織運營指標系統(tǒng)構建等。通
過分析企業(yè)的預算達成情況、業(yè)績歸因分析、成本分攤分析、收入利潤分析、競
對分析、預警分析、預測分析等方面,更好的幫助企業(yè)做到知己知彼,量化經營
決策。
24
1.2.2大數(shù)據行業(yè)分析報告
大數(shù)據行業(yè)分析報告包含行業(yè)研究報告、大數(shù)據商業(yè)洞察報告、市場趨勢預
判等,屬于偏綜合性的年度、半年度報告,針對不同的專題有相應更為專業(yè)的方
法和分析模塊,整體分析內容有經典理論和客觀的數(shù)據支撐。從宏觀、行業(yè)、企
業(yè)進行自上而下的行業(yè)大數(shù)據分析服務,包括借用外部信息進行宏觀經濟政策分
析、行業(yè)發(fā)展環(huán)境分析、同業(yè)領先頭部分析、競爭對手分析,同時依據自身大數(shù)
據的發(fā)展,分析企業(yè)自身經營情況、客戶畫像、產品特色、營銷策略分析,預測
行業(yè)發(fā)展趨勢,指導企業(yè)量化決策,順勢而為,抓住機遇。
1.2.3投資決策數(shù)據分析服務
投資決策數(shù)據分析服務包括實業(yè)投資和金融投資,提供量化投資、項目可行
性分析報告、項目投資風險報告等,數(shù)據分析師可以通過現(xiàn)金流估值模型、以及
依托大數(shù)據,進行技術分析和基本面分析、金融風控模型,全面進行金融產品估
值和風險測量,對于預測類金融投資進行歷史推演、蒙特卡洛模擬等測算投資收
益,幫助企業(yè)在一定的約束條件下,通過規(guī)劃求解,給出最合理的投資組合和可
行性的方案,幫助企業(yè)實現(xiàn)效益最大化。
實業(yè)投資分析,針對項目類的實體經濟投資,進行費用效果法分析(費用現(xiàn)
值法、費用年值法);邊際分析法(動態(tài)路徑決策法);成本法(技術資產價值
估值、重置全價、成新率);收益法(超額收益分析、收益分成分析);期權法
(Black-Scholes模型);實業(yè)投資數(shù)據編制與估算表(資金的時間價值分析、
年金的系列計算);實業(yè)投資運營后的資產負債表預估(科目預估)、現(xiàn)金流量
表(科目預估)、收入利潤表預估(科目預估);指標類分析(投資收益率分析、
投資回收期、凈現(xiàn)值、內部收益率、獲利能力指數(shù));不確定性分析(盈虧平衡
分析、敏感性分析、蒙特卡洛分析),定性風險分析(概率分析),其他風險分
析(宏觀層面:政策風險分析、經濟風險分析、文化風險、市場風險分析、技術
風險分析;微觀層面:企業(yè)自身的指標分析;個人層面:心態(tài)和心理素質分析)。
金融投資分析:固收類金融分析(債券類);權益類分析(股票類)、衍生
品投資(期貨、遠期、互換、期權等)、另類投資(大宗商品交易、房地產交易、
25
PE、VC等),以及金融組合投資分析(私人財富規(guī)劃、理財規(guī)劃、基金組合類),
基礎面分析采用的分析方法為估值分析(現(xiàn)金流折現(xiàn)類模型、公司經營分析、宏
觀經濟分析等),技術類分析采用現(xiàn)代化的人工智能、數(shù)據挖掘、小波分析、支
持向量機、分形理論、隨機過程等方法去進行量化選股、量化擇時、股指套利、
商品套利、統(tǒng)計套利、算法交易、另類套利等一系列投資決策過程。
1.2.4企業(yè)風險數(shù)據分析服務
風險數(shù)據分析針對金融類行業(yè)更為關鍵,企業(yè)風險控制是對貸款用戶的信用
風險進行合理度量,是信貸業(yè)務關注的首要問題。風險數(shù)據分析指通過用戶信息
對用戶的信用度進行評估,并根據信用情況定制風險規(guī)避策略,也就是對用戶風
險進行管理和規(guī)避的過程。通過風險數(shù)據分析,幫助企業(yè)識別風險用戶,對用戶
信用風險進行合理度量,提升企業(yè)量化風險管理能力。
1.3大數(shù)據產品研發(fā)服務
數(shù)字化轉型,企業(yè)業(yè)務升級離不開技術工具的支持,數(shù)據分析師在日常的研
究工作當中,沉淀相應的知識體系和業(yè)務經驗,固化分析流程,轉換成技術類產
品,降低技術門檻,普及企業(yè)應用。
數(shù)據管控工具包括元數(shù)據管理工具、數(shù)據質量管理工具、數(shù)據標準管理工具、
數(shù)據安全管理工具(安全標準、安全監(jiān)控、權限管控)、數(shù)據模型管理、數(shù)據生
命周期管理工具、數(shù)據資產管理等。
元數(shù)據管理工具:管理EDW建設過程中涉及的業(yè)務、技術元數(shù)據,元數(shù)據范
圍包括系統(tǒng)信息、數(shù)據庫信息、表視圖信息、數(shù)據文件信息、數(shù)據映射信息。提
供圖形化展現(xiàn)邏輯模型的功能;管理EDW對外供數(shù)的數(shù)據文件信息,為業(yè)務人員
提供分析數(shù)據需求的查詢平臺。
數(shù)據質量管理工具:數(shù)據質量是指數(shù)據對其期望目的的切合度,即從使用者
的角度出發(fā),數(shù)據滿足用戶使用要求的程度。幫助數(shù)據分析師及時發(fā)現(xiàn)數(shù)據中的
26
錯誤、挖掘數(shù)據價值,保證數(shù)據的有效性、一致性、準確性,為客戶數(shù)據管理
服務。
數(shù)據標準管理工具:數(shù)據標準是對數(shù)據的規(guī)范化,包括業(yè)務屬性的規(guī)范化和
技術屬性的規(guī)范化,以及數(shù)據的歸屬管理。保證數(shù)據的規(guī)范化、標準化。
數(shù)據安全管理工具:數(shù)據安全管理主要涵蓋數(shù)據的安全加密管理和數(shù)據的權
限管理,通過對企業(yè)數(shù)據的分類分級,按照不通的安全級別,幫助企業(yè)在數(shù)據采
集、接入、加工、傳輸過程進行不同級別的安全管控,防止信息泄露。
數(shù)據模型管理工具:數(shù)據模型管理工具方便企業(yè)對數(shù)據架構直觀理解,同時
可以進行數(shù)據模型Mapping的腳本一鍵生成,加快數(shù)倉建設,同時可以對模型進
行事前、事中、事后的模型管理。
數(shù)據生命周期周期管理工具:數(shù)據生命周期,通常是指某個集合的數(shù)據從產
生或獲取到銷毀的過程。數(shù)據全生命周期分為:采集、存儲、整合、分析與應用、
歸檔和銷毀幾個階段。在數(shù)據的生命周期中,數(shù)據價值決定著數(shù)據全生命周期的
長度,并且數(shù)據價值會隨著時間的變化而遞減。同時,數(shù)據的采集粒度與時效性、
存儲方式、整合狀況、可視化程度、分析的深度和應用銜接的程度,都會影響數(shù)
據價值。所以需針對數(shù)據生命周期各個階段的特點采取不同的管理方法和控制手
段,這樣才能從數(shù)據中挖掘出更多有效的數(shù)據價值。數(shù)據生命周期管理工具幫助
企業(yè)優(yōu)化大數(shù)據的生命周期管理,使企業(yè)數(shù)據運行效率更高。
數(shù)據資產管理工具:數(shù)據地圖,幫忙企業(yè)梳理數(shù)據資產,盤點數(shù)據資產,釋
放數(shù)據價值。
上層應用數(shù)據產品包括指標管理、BI可視化、標簽管理、客戶畫像、關系圖
譜、數(shù)據服務(IDmapping、API標準化接口服務)、聯(lián)邦學習(聯(lián)合建模)、AI
實驗室,幫助企業(yè)釋放數(shù)據價值。
指標管理:指標管理是BI可視化的基礎,支持BI可視化靈活應用;幫助企
業(yè)靈活高效的報表分析。
27
BI可視化:支持報表展示、圖表展示、PC端、手機端、大屏端三端統(tǒng)一,
幫,幫助企業(yè)進行經營分析、管理駕駛艙靈活使用。
標簽管理:客戶標簽是客戶畫像的基礎,進行標簽體系管理;
客戶畫像:客戶畫像是客戶分析的主要商業(yè)應用,進行客戶分群管理和精準
營銷推薦。
關系圖譜:對于社交關系或者關系類數(shù)據,進行關系圖譜展示和圖計算,更
加直觀,運行效率更快。
數(shù)據服務:數(shù)據資產的商業(yè)化價值實現(xiàn),統(tǒng)一視圖管理,對外服務標準化接
口管理。
聯(lián)邦學習:聯(lián)合建模平臺,幫助企業(yè)進行數(shù)據模型共建,共享大數(shù)據建模成
功。
AI實驗室:數(shù)據挖掘和人工智能實驗工廠,是自動算法工程和自定義算法
雙驅動,幫助數(shù)據分析師和業(yè)務人員均可使用的算法畫布,支持算法測試成功后
一鍵生產部署。
智能營銷(營銷中心、策略中心、觸達中心、推薦中心、運營中心):提供
營銷策略開發(fā)、推送策略規(guī)則配置、推薦算法策略。
智能風控(智能反欺詐、智能預警、智能決策、智能催收、風險運營):提
供相應模塊的計算規(guī)則、模型算法等服務,與開發(fā)融合,形成智能化、標準化產
品。
28
2.市場調研參考收費方式
2.1按人天服務收費
2.1.1使用場景
該收費模式適用于大數(shù)據咨詢服務類項目,計費按照相應人員實際參與的工
作日計費,以下收費方式為市場調研價格,僅供參考。
2.1.2調研收費參考
大數(shù)據咨詢類人天服務調研參考
表2-1大數(shù)據咨詢專家服務調研參考收費表(單位:元)
地域維度一線城市新一線城市二線城市三線城市四五線城市
人員等級(系數(shù):1.00)(系數(shù):0.85)(系數(shù):0.6)(系數(shù):0.5)(系數(shù):0.4)
特聘專家6,0005,1003,6003,0002,400
資深專家5,0004,2503,0002,5002,000
優(yōu)秀專家4,0003,5002,4002,0001,600
高級大數(shù)據
3,5002,9752,1001,7501,400
咨詢顧問
中級大數(shù)據
2,5002,1251,5001,2501,000
咨詢顧問
初級大數(shù)據
1,5001,275900750600
咨詢顧問
29
數(shù)據分析服務類人天服務調研參考
表2-2數(shù)據分析專家人才服務調研參考收費表(單位:元)
地域維度一線城市新一線城市二線城市三線城市四五線城市
人員等級(系數(shù):1.00)(系數(shù):0.85)(系數(shù):0.6)(系數(shù):0.5)(系數(shù):0.4)
特聘數(shù)據分
6,0005,1003,6003,0002,400
析師專家
資深數(shù)據分
5,0004,2503,0002,5002,000
析師學家
優(yōu)秀數(shù)據分
4,0003,5002,4002,0001,600
析師專家
高級數(shù)據分
3,0002,5501,8001,5001,200
析師
中級數(shù)據分
2,0001,7001,2001,000800
析師
初級數(shù)據分
1000850600500400
析師
模型開發(fā)服務類人天調研參考
表2-3算法工程師人才服務調研參考收費表(單位:元)
地域維度一線城市新一線城市二線城市三線城市四五線城市
人員等級(系數(shù):1.00)(系數(shù):0.85)(系數(shù):0.6)(系數(shù):0.5)(系數(shù):0.4)
數(shù)據科學家6,0005,1003,6003,0002,400
資深算法工
5,0004,2503,0002,5002,000
程師學家
優(yōu)秀算法工
4,0003,5002,4002,0001,600
程師專家
高級算法工
3,0002,5501,8001,5001,200
程師
中級算法工
2,0001,7001,2001,000800
程師
初級算法工
1000850600500400
程師
差旅費調研參考
整體差旅費采用實報實銷制度,但不同的地域和級別均有不同的上限要求,以下內容
僅做參考
30
表2-4技術專業(yè)人才服務調研參考收費表(單位:元)
地域維度一線城市新一線城市二線城市三線城市四五線城市
人員等級/類
(系數(shù):1.00)(系數(shù):0.85)(系數(shù):0.6)(系數(shù):0.5)(系數(shù):0.4)
目
交通費專家飛機商務艙/高飛機商務艙/飛機商務艙/飛機商務艙/高飛機商務艙/高
次(上限)鐵一等座高鐵一等座高鐵一等座鐵一等座鐵一等座
交通費非專
飛機普通艙/高飛機普通艙/飛機普通艙/飛機普通艙/高飛機普通艙/高
家次(上
鐵二等座高鐵二等座高鐵二等座鐵二等座鐵二等座
限)
按照出租車
按照出租車(類按照出租車按照出租車按照出租車(類
(類出租車
室內交通出租車業(yè)務)實(類出租車業(yè)(類出租車業(yè)出租車業(yè)務)實
業(yè)務)實報
報實銷務)實報實銷務)實報實銷報實銷
實銷
住宿費專家
800680480400320
天(上限)
住宿費非專
家天(上500425300250200
限)
專家餐飲費
20017012010080
天(上限)
非專家餐飲
費天(上150128907560
限)
2.2按大數(shù)據產品收費
2.2.1使用場景
該收費模式適用于出售大數(shù)據產品服務等項目和內部開發(fā)大數(shù)據產品項目,
定價策略基本以成本加成的模式,同時參考市場同類產品的定價,具體按照產品
維度進行定價,以下收費方式為市場調研價格,最終以雙方合同約定計費。
2.2.2調研收費參考
技術產品作為特殊商品,其價格的構成主要由以下三部分組成:
31
1.在技術產品轉讓過程中所發(fā)生的直接費用。比如,派人洽談所需的旅差
費、資料費以及簽約后復制的大量技術文件資料的費用等。但這種直接費用在整
個技術產品價格中所占比例很小。如果是自研自用產品不涉及。
2.技術產品研究開發(fā)費用的分攤。它取決于該項技術產品所處的生命周期,
一般為主要的費用,包括大數(shù)據分析師的算法模型費用、智能營銷和風控策略模
型、分析報告的框架、分析方法的部署等費用。
3.技術產品創(chuàng)造利潤的能力,即供方依利潤分享原則所應分得的份額,產
品為按年付費或者按照運營效果進行分攤利潤形式,根據接收方每年的營收效果,
費用每年計提。
成本加成定價=(產品轉讓過程費用+產品研發(fā)投入成本+產品創(chuàng)造利潤能力
費用)*(1+產品收益率)/(1-所得稅),通常,產品收益率按照行業(yè)內上市公
司的年化利潤率。適用于新研發(fā)產品,市面上產品較少,產品處于初期階段。
市場跟隨定價=市場同類產品的參考定價,適用于標準化成熟的產品,市面
上產品較多,產品處于成熟穩(wěn)定期。
2.3按成果應用轉化收費
2.3.1使用場景
該收費模式適用于效果可衡量的項目,通常適用于聯(lián)合運營類項目,后期雙
方均參與,以雙方對收入利潤貢獻的程度進行利潤分成或者以雙方約定的效果計
費。以下收費方式為市場調研價格,僅供參考。
2.3.2調研收費參考
數(shù)據服務的調用量、查得量等支付收費,具體的收費參考同類行業(yè)市場情況,
通常首次采用雙方協(xié)商后確定,收費參考=查得次數(shù)*協(xié)商定價,后期按照框架類
合同續(xù)約即可。
32
營銷效果收費,按照效果轉化過程中各個重要指標進行收費,例如:瀏覽量、
點擊量、下單量等,通??梢圆捎脤€協(xié)議形式或者基金激勵形式進行效果收費。
預測提升類,例如違約率降低百分點,可以按照違約損失模型進行收費預估:
(原違約率*損失率*風險敞口-新違約率*損失率*風險敞口)*風險準備金收益分
成。
2.4按項目收費
2.4.1使用場景
適用于項目公開招投標方式。
2.4.2調研收費參考
依據項目預算,結合本公司經驗給出合理報價。同時要根據項目是否有后續(xù)
項目或很有希望進入新市場而進行報價策略的選擇。
成熟項目類(公司主要業(yè)務范圍):
項目參考報價=同類項目市場歷史平均報價-預期二期的概率*二期的預期收
益率*二期規(guī)模*30%(優(yōu)惠折讓)+公司品牌溢價
新拓展的項目類(為拓展新業(yè)務范圍,進行實踐案例的沉淀):
若此類項目無歷史參考價格,則項目參考報價=公司內部人力資本評估預算
若此類項目有市場報價參考,則項目類參考報價>=同類項目市場歷史平均報
價*80%
2.5售后服務調研收費參考
整體上分為免費和收費兩種模式,其中收費模式下,
按產品提供服務:可按照產品簽單價格的5%~10%/年提供服務;
33
按項目提供服務:可按照項目合同金額的5%~10%/年提供服務;
按人天提供服務:需要按照服務等級或問題處理難度收費,低難度-初級職
稱人員;中等難度-中級職稱人員;高難度-高級職稱人員。詳情同上。
3.服務模式:
3.1駐場
駐場指數(shù)據分析服務人員進入項目需求方現(xiàn)場,與項目需求公司一起辦公。
3.1.1使用場景
1.對于數(shù)據、文件安全級別較高的客戶場景,即需要大量使用客戶內部敏感
信息的情況;
2.需要大量溝通協(xié)調、需求實時變化的客戶場景;
3.對服務時間有及時性要求,一旦出問題可以即時跟進解決、快速響應的場
景。
3.1.2工作模式
需要相關人員到客戶現(xiàn)場進行項目實施、交付。一般情況下與需求公司的工
作模式一致,服從需求公司的管理制度,同時遵循本公司的管理制度,保持分析
師職業(yè)操守。
3.2線上
線上服務模式指采用一系列的信息技術進行遠程協(xié)助,非面對面形式。
34
3.2.1使用場景
1.適用于前期需求溝通完畢,范圍確定后可進行遠程服務模式;
2.為了節(jié)約辦公成本,采用居家辦公的線上模型;
3.無需用到客戶安全級別較高的內部材料的項目;
4.存在高危、遠距離等不利因素的客戶場景。
3.2.2工作模式
工作人員可以采用線上工作模式,工作要求:支持實時語音通話、工作會議
開展、正常上下班打卡,可供客戶全稱監(jiān)控的線上環(huán)境。
3.3云地協(xié)同
按照官方的定義,云地協(xié)同是指:云端和地端一起協(xié)作完成一系列的模型訓
練,提高了管理效率,加速AI更新,是網絡AI化的理念,而此處的云地協(xié)同模
式指駐場辦公人員與遠程的線上人員,以及本公司場地人員進行三維立體化共享
知識成果,共同完成項目的交付。
3.3.1使用場景
1.對于需求相對固定,可以遠程研發(fā),同時支持線下驗證或溝通的客戶場景。
2.一般性項目均可采用此模式,適用范圍較廣。
3.3.2工作模式
1.不定期根據需求和客戶情況,進行遠程或現(xiàn)場的支持,工作模式較為自由,
定期按照項目進度交付產出物。
2.為了控制項目成本進行本地化多項目支持,部分駐場,線上會議,知識進
行云端編輯共享。
35
六、項目運營管理標準
1.運營管理
1.1前期規(guī)劃
針對已經
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《立秋健康養(yǎng)生》課件
- 2021學年天津市楊村一中、寶坻一中等四校高一下學期期末聯(lián)考地理試題
- 小學一年級20以內數(shù)學口算練習題大全
- 國際貿易試卷答案解讀
- 幼兒園傳染病預防工作領導小組
- 年度第一學期歷史科期末考試試卷
- 高考語文分鐘專題突破(2):字形
- 北京市大興區(qū)2022-2023學年高三上學期期末試卷英語試題
- 餐飲娛樂場所保安工作經驗
- 能源行業(yè)話務員工作心得
- 港區(qū)船塢工程施工組織設計
- 2024年北京平谷區(qū)初三九年級上學期期末數(shù)學試題
- 2024年新人教版道德與法治七年級上冊全冊教案(新版教材)
- 初中物理期末復習+專題5+綜合能力題+課件++人教版物理九年級全一冊
- 2024年國開電大 統(tǒng)計學原理 形成性考核冊答案
- 幼兒園大班語言課件:不怕冷的大衣
- 2024年1月國開電大法律事務??啤镀髽I(yè)法務》期末考試試題及答案
- 2024全國能源行業(yè)火力發(fā)電集控值班員理論知識技能競賽題庫(多選題)
- 因式分解(分組分解法)專項練習100題及答案
- 冶煉煙氣制酸工藝設計規(guī)范
- 《上帝擲骰子嗎:量子物理史話》超星爾雅學習通章節(jié)測試答案
評論
0/150
提交評論