



版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)科學(xué)與大數(shù)據(jù)通識(shí)導(dǎo)論題庫(kù)及答案1. 數(shù)據(jù)科學(xué)的三大支柱與五大要素是什么?答:數(shù)據(jù)科學(xué)的三大主要支柱為:Datalogy (數(shù)據(jù)學(xué)):對(duì)應(yīng)數(shù)據(jù)管理 (Data management)Analytics (分析學(xué)):對(duì)應(yīng)統(tǒng)計(jì)方法 (Statistical method)Algorithmics (算法學(xué)):對(duì)應(yīng)算法方法 (Algorithmic method)數(shù)據(jù)科學(xué)的五大要素:A-SATA模型分析思維 (Analytical Thinking)統(tǒng)計(jì)模型 (Statistical Model)算法計(jì)算 (Algorithmic Computing)數(shù)據(jù)技術(shù) (Data Technology)綜
2、合應(yīng)用 (Application)2. 如何辨證看待“大數(shù)據(jù)”中的“大”和“數(shù)據(jù)”的關(guān)系?字面理解Large、vast和big都可以用于形容大小Big更強(qiáng)調(diào)的是相對(duì)大小的大,是抽象意義上的大大數(shù)據(jù)是抽象的大,是思維方式上的轉(zhuǎn)變量變帶來(lái)質(zhì)變,思維方式,方法論都應(yīng)該和以往不同計(jì)算機(jī)并不能很好解決人工智能中的諸多問(wèn)題,利用大數(shù)據(jù)突破性解決了,其核心問(wèn)題變成了數(shù)據(jù)問(wèn)題。3. 怎么理解科學(xué)的范式?今天如何利用這些科學(xué)范式?科學(xué)的范式指的是常規(guī)科學(xué)所賴(lài)以運(yùn)作的理論基礎(chǔ)和實(shí)踐規(guī)范,是從事某一科學(xué)的科學(xué)家群體所共同遵從的世界觀和行為方式。第一范式:經(jīng)驗(yàn)科學(xué)第二范式:理論科學(xué)第三范式:計(jì)算科學(xué)第四范式:數(shù)據(jù)密集
3、型科學(xué)今天,是數(shù)據(jù)科學(xué),統(tǒng)一于理論、實(shí)驗(yàn)和模擬4. 從人類(lèi)整個(gè)文明的尺度上看,IT和DT對(duì)人類(lèi)的發(fā)展有些什么樣的影響和沖擊?以控制為出發(fā)點(diǎn)的IT時(shí)代正在走向激活生產(chǎn)力為目的的DT(Data Technology)數(shù)據(jù)時(shí)代。大數(shù)據(jù)驅(qū)動(dòng)的DT時(shí)代由數(shù)據(jù)驅(qū)動(dòng)的世界觀大數(shù)據(jù)重新定義商業(yè)新模式大數(shù)據(jù)重新定義研發(fā)新路徑大數(shù)據(jù)重新定義企業(yè)新思維5. 大數(shù)據(jù)時(shí)代的思維方式有哪些?“大數(shù)據(jù)時(shí)代”和“智能時(shí)代”告訴我們:數(shù)據(jù)思維:講故事 à 數(shù)據(jù)說(shuō)話總體思維:樣本數(shù)據(jù) à 全局?jǐn)?shù)據(jù)容錯(cuò)思維:精確性 à 混雜性、不確定性相關(guān)思維:因果關(guān)系 à 相關(guān)關(guān)系智能思維:人 à
4、; 人機(jī)協(xié)同(人 + 人工智能)6. 請(qǐng)列舉出六大典型思維方式;直線思維、逆向思維、跳躍思維、歸納思維、并行思維、科學(xué)思維7. 大數(shù)據(jù)時(shí)代的思維方式有哪些?同58. 二進(jìn)制系統(tǒng)是如何實(shí)現(xiàn)的?計(jì)算機(jī)用0和1來(lái)表示和存儲(chǔ)所有的數(shù)據(jù),它的基數(shù)為2,進(jìn)位規(guī)則是“逢二進(jìn)一”,用1表示開(kāi),0表示關(guān)9. 解釋比特、字節(jié)和十六進(jìn)制表示。比特:一位 0、1 ;字節(jié):8比特,從000到111,十六進(jìn)制:0000到1111十六個(gè)數(shù)分別用0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F 來(lái)表示10. 請(qǐng)辨析現(xiàn)象、數(shù)據(jù)、信息和知識(shí)這幾個(gè)概念。信息是關(guān)于世界、人和事的描述,它比數(shù)據(jù)來(lái)得抽象;而數(shù)據(jù)則是信息的
5、載體。知識(shí)比信息更高一個(gè)層次,也更加抽象,它具有系統(tǒng)性的特征。比如通過(guò)測(cè)量星球的位置和對(duì)應(yīng)的時(shí)間,就得到數(shù)據(jù);通過(guò)這些數(shù)據(jù)得到星球運(yùn)轉(zhuǎn)的軌跡,這就是信息;通過(guò)信息總結(jié)出開(kāi)普勒三定律,就是知識(shí)。從現(xiàn)象、數(shù)據(jù)到信息、知識(shí),抽象層次是越來(lái)越高的。人類(lèi)的進(jìn)步就是靠使用知識(shí)不斷地改變我們的生活和周?chē)氖澜?,而?shù)據(jù)是知識(shí)的基礎(chǔ)。11. 簡(jiǎn)述馮·諾依曼計(jì)算機(jī)工作原理存儲(chǔ)程序控制程序和數(shù)據(jù)都用二進(jìn)制數(shù)表示機(jī)器以CPU為中心12. 簡(jiǎn)述GB2312編碼和Unicode編碼原理;GB2312編碼適用于漢字處理、漢字通信等系統(tǒng)之間的信息交換,通行于中國(guó)大陸;新加坡等地也采用此編碼。中國(guó)大陸幾乎所有的中文系
6、統(tǒng)和國(guó)際化的軟件都支持GB 2312。基本集共收入漢字6763個(gè)和非漢字圖形字符682個(gè)。整個(gè)字符集分成94個(gè)區(qū),每區(qū)有94個(gè)位。每個(gè)區(qū)位上只有一個(gè)字符,因此可用所在的區(qū)和位來(lái)對(duì)漢字進(jìn)行編碼,稱(chēng)為區(qū)位碼。Unicode(統(tǒng)一碼、萬(wàn)國(guó)碼、單一碼)是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn),包括字符集、編碼方案等。Unicode 是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,它為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿(mǎn)足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。13. 簡(jiǎn)述摩爾定律。摩爾定律是由英特爾(Intel)創(chuàng)始人之一戈登·摩爾(Gordon Moore)提出來(lái)的。其內(nèi)容為:當(dāng)價(jià)
7、格不變時(shí),集成電路上可容納的元器件的數(shù)目,約每隔18-24個(gè)月便會(huì)增加一倍,性能也將提升一倍。換言之,每一美元所能買(mǎi)到的電腦性能,將每隔18-24個(gè)月翻一倍以上。這一定律揭示了信息技術(shù)進(jìn)步的速度。14. 為什么計(jì)算機(jī)系統(tǒng)要往并行與異構(gòu)的方向發(fā)展?單核CPU已經(jīng)走到盡頭,不能承載更多的晶體,所以采用多核和GPU及FPGA等并行與異構(gòu),多臺(tái)計(jì)算機(jī)一起工作,進(jìn)一步提升計(jì)算性能15. 什么是云計(jì)算?云計(jì)算的定義:云計(jì)算是一個(gè)模型,這個(gè)模型可以方便地按需通過(guò)網(wǎng)絡(luò)訪問(wèn)一個(gè)可配置的計(jì)算資源(例如,網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)設(shè)備、應(yīng)用程序以及服務(wù))的公共及。這額資源可以迅速提供并發(fā)布,同時(shí)最小化管理成本或服務(wù)提供商的
8、干涉。16. 為什么說(shuō)數(shù)據(jù)上云是一種趨勢(shì)?大數(shù)據(jù)上云,數(shù)據(jù)上云,分析上云,人工智能上云,數(shù)據(jù)上云是一種趨勢(shì)17. 從技術(shù)體系和資源結(jié)構(gòu)兩方面談一下云計(jì)算的邏輯平臺(tái)組成。云平臺(tái)的邏輯組成技術(shù)體系:IaaS, PaaS, SaaS(Technically)資源結(jié)構(gòu):計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)18. 數(shù)據(jù)獲取過(guò)程可分為哪幾個(gè)步驟?數(shù)據(jù)獲取階段的任務(wù)是以數(shù)字形式將信息聚合, 以待存儲(chǔ)和分析處理,數(shù)據(jù)獲取過(guò)程可分為三個(gè)步驟:數(shù)據(jù)采集數(shù)據(jù)傳輸數(shù)據(jù)預(yù)處理19. 數(shù)據(jù)預(yù)處理需要做哪些工作?數(shù)據(jù)預(yù)處理由于數(shù)據(jù)源的多樣性,數(shù)據(jù)集由于干擾、冗余和一致性因素的影響具有不同的質(zhì)量。一些數(shù)據(jù)分析工具和應(yīng)用對(duì)數(shù)據(jù)質(zhì)量有著嚴(yán)格的要求。
9、因此在大數(shù)據(jù)系統(tǒng)中需要數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)集成(Data integration)數(shù)據(jù)清洗(Data cleansing)冗余消除(Redundancy elimination20. 數(shù)據(jù)的存儲(chǔ)方式有哪些?數(shù)據(jù)的存儲(chǔ)方式:紙帶磁帶數(shù)字存儲(chǔ)隨機(jī)存取存儲(chǔ)器(Random access memory,RAM)磁盤(pán)(HDD)和磁盤(pán)陣列存儲(chǔ)級(jí)存儲(chǔ)器:閃存、SSD光盤(pán)21. 什么是大數(shù)據(jù)的計(jì)算模式?所謂大數(shù)據(jù)計(jì)算模式,即根據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計(jì)算特征,從多樣性的大數(shù)據(jù)計(jì)算問(wèn)題和需求中提煉并建立的各種高層抽象(abstraction)或模型(model)。22. 簡(jiǎn)述大數(shù)據(jù)的四種主要分析技
10、術(shù)。大數(shù)據(jù)的四種主要分析技術(shù)(1)統(tǒng)計(jì)分析(2)機(jī)器學(xué)習(xí)是一門(mén)研究機(jī)器獲取新知識(shí)和新技能,并識(shí)別現(xiàn)有知識(shí)的學(xué)問(wèn)。(3)數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。(4)可視化分析統(tǒng)計(jì)學(xué)主要是通過(guò)機(jī)器學(xué)習(xí)來(lái)對(duì)數(shù)據(jù)挖掘發(fā)揮影響,而機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)則是數(shù)據(jù)挖掘的兩大支撐技術(shù)。23. 簡(jiǎn)述數(shù)據(jù)庫(kù)的事務(wù)ACID性質(zhì)數(shù)據(jù)庫(kù)的事務(wù)處理(ACID)性質(zhì):原子性(Atomicity):不可分割 一致性(Consistency):前后一致隔離性(Isolation):并發(fā)持久性(Durability):永久24. 關(guān)系代
11、數(shù)的五種基本運(yùn)算分別是什么?關(guān)系代數(shù)的五種基本運(yùn)算分別是并、差、投影、選擇、笛卡爾積25. 簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)的四種類(lèi)型。數(shù)據(jù)倉(cāng)庫(kù)的四種類(lèi)型:傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)實(shí)時(shí)處理數(shù)據(jù)倉(cāng)庫(kù)關(guān)聯(lián)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市26. 什么是GFS?請(qǐng)簡(jiǎn)述GFS的特點(diǎn)?GFS是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問(wèn)的應(yīng)用。它運(yùn)行于廉價(jià)的普通硬件上,將服務(wù)器故障視為正常現(xiàn)象,通過(guò)軟件的方式自動(dòng)容錯(cuò),在保證系統(tǒng)可靠性和可用性的同時(shí),大大減少了系統(tǒng)的成本。系統(tǒng)分為三類(lèi)角色:Master(主服務(wù)器)Chunk Server(數(shù)據(jù)塊服務(wù)器)。Client(客戶(hù)端)27. 請(qǐng)簡(jiǎn)述HDFS的特點(diǎn)。Hadoop是一個(gè)分
12、布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā)。用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱(chēng)HDFS。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。HDFS 集群包含:一個(gè)主節(jié)點(diǎn)( NameNode )多個(gè)從屬節(jié)點(diǎn)(DataNodes )多個(gè)客戶(hù)端訪問(wèn)28. 大數(shù)據(jù)系統(tǒng)為什么要采用分布式的架構(gòu)?大數(shù)據(jù)是數(shù)據(jù)庫(kù)的自然延伸:分布式。由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各處理環(huán)節(jié)中都可以采用并行處理。目前,Hadoop、MapRed
13、uce和Spark等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。29. 什么是有向圖、鄰接矩陣、超鏈接矩陣。一個(gè)有向圖D是指一個(gè)有序三元組(V(D),A(D),D),其中D)為關(guān)聯(lián)函數(shù),它使A(D)中的每一個(gè)元素(稱(chēng)為有向邊或弧)對(duì)應(yīng)于V(D)中的一個(gè)有序元素(稱(chēng)為頂點(diǎn)或點(diǎn))為研究需要,我們定義鄰接矩陣進(jìn)一步,如果將鄰接矩陣中的元素除以對(duì)應(yīng)節(jié)點(diǎn)的出度,可以得到該圖的超鏈接矩陣30. 如何計(jì)算PageRank的值?PageRank算法第一步:將互聯(lián)網(wǎng)作為一個(gè)有向圖,并用鄰接矩陣進(jìn)行表示;第二步:將該鄰接矩陣轉(zhuǎn)換為超鏈接矩陣;第三步:求解該超鏈接矩陣的最大特征向量(如冪迭代法);第四步:
14、求得的特征向量中的值即為對(duì)應(yīng)網(wǎng)頁(yè)的PageRank值。31. 典型的數(shù)據(jù)挖掘技術(shù)有哪些?典型的數(shù)據(jù)挖掘技術(shù):關(guān)聯(lián)分析、序列模式、分類(lèi)(預(yù)言)、聚集、異常檢測(cè)32. 數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程分為那幾個(gè)步驟?請(qǐng)分別簡(jiǎn)述它們。商業(yè)理解:找問(wèn)題確定商業(yè)目標(biāo)、 對(duì)現(xiàn)有資源的評(píng)估, 確定問(wèn)題是否能夠通過(guò)數(shù)據(jù)挖掘來(lái)解決, 確定數(shù)據(jù)挖掘的目標(biāo), 制定數(shù)據(jù)挖掘計(jì)劃數(shù)據(jù)理解: 數(shù)據(jù)準(zhǔn)備:確定數(shù)據(jù)挖掘所需要的數(shù)據(jù), 對(duì)數(shù)據(jù)進(jìn)行描述, 數(shù)據(jù)的初步探索, 檢查數(shù)據(jù)的質(zhì)量 建立模型:對(duì)各個(gè)模型進(jìn)行評(píng)價(jià), 選擇數(shù)據(jù)挖掘模型, 建立模型 模型評(píng)估:評(píng)估數(shù)據(jù)挖掘的結(jié)果, 對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程的前面步驟進(jìn)行評(píng)估,確定下一步怎么辦?是發(fā)布
15、模型?還是對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型 模型發(fā)布:把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中, 對(duì)模型進(jìn)行日常的監(jiān)測(cè)和維護(hù), 定期更新數(shù)據(jù)挖掘模型33. 典型的分類(lèi)方法有哪些?典型分類(lèi)方法:判定樹(shù)歸納分類(lèi),貝葉斯分類(lèi),后向傳播分類(lèi),k-最臨近分類(lèi),基于案例的推理,遺傳算法,粗糙集方法,模糊集方法34. 典型的預(yù)測(cè)方法有哪些?典型預(yù)測(cè)方法:回歸方法,線性回歸,多元回歸,非線性回35. 請(qǐng)簡(jiǎn)述分類(lèi)過(guò)程。數(shù)據(jù)分類(lèi):兩步過(guò)程第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類(lèi)集和概念集假定每個(gè)元組屬于一個(gè)預(yù)定義的類(lèi),由一個(gè)類(lèi)標(biāo)號(hào)屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)
16、練數(shù)據(jù)集中的單個(gè)樣本(元組)學(xué)習(xí)模型可以用分類(lèi)規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類(lèi)首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本,將已知的類(lèi)標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類(lèi)預(yù)測(cè)比較模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類(lèi)的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況36. 簡(jiǎn)述預(yù)測(cè)和分類(lèi)的相同點(diǎn)和不同點(diǎn)。預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)樣本類(lèi),或評(píng)估給定樣本可能具有的屬性或值空間。預(yù)測(cè)和分類(lèi)的相同點(diǎn):兩者都需要構(gòu)建模型都用模型來(lái)估計(jì)未知值預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸預(yù)測(cè)和分類(lèi)的不同點(diǎn):分類(lèi)法主要是用來(lái)預(yù)測(cè)類(lèi)標(biāo)號(hào)
17、(分類(lèi)屬性值)預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值(量化屬性值)37. 什么是離群點(diǎn)分析?離群點(diǎn)分析可以應(yīng)用在哪些領(lǐng)域?離群點(diǎn)分析離群點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)通常孤立點(diǎn)被作為“噪音”或異常被丟棄,但在欺騙檢測(cè)中卻可以通過(guò)對(duì)罕見(jiàn)事件進(jìn)行孤立點(diǎn)分析而得到結(jié)論。應(yīng)用:信用卡欺詐檢測(cè),移動(dòng)電話欺詐檢測(cè),客戶(hù)劃分,醫(yī)療分析(異常)38. 什么是異常檢測(cè)?異常監(jiān)測(cè)可以應(yīng)用在哪些領(lǐng)域?異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來(lái)發(fā)現(xiàn)”小的模式”(相對(duì)于聚類(lèi)),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。異常探測(cè)應(yīng)用:電信和信用卡欺騙,貸款審批,藥物研究,氣象預(yù)報(bào),金融領(lǐng)域,客戶(hù)分類(lèi),網(wǎng)絡(luò)入侵檢測(cè),故障檢測(cè)與
18、診斷等39. 列舉四種機(jī)器學(xué)習(xí)方法中的監(jiān)督學(xué)習(xí)算法并對(duì)它們進(jìn)行簡(jiǎn)要解釋。監(jiān)督學(xué)習(xí)算法:線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),SVM回歸算法有兩個(gè)重要的子類(lèi):即線性回歸和邏輯回歸神經(jīng)網(wǎng)絡(luò)(也稱(chēng)之為人工神經(jīng)網(wǎng)絡(luò),ANN),是80年代機(jī)器學(xué)習(xí)界非常流行的方法,其誕生起源于對(duì)大腦工作機(jī)理的研究。簡(jiǎn)單來(lái)說(shuō),就是分解與整合SVM(支持向量機(jī))40. 什么是高級(jí)編程語(yǔ)言?高級(jí)編程語(yǔ)言:為了克服低級(jí)語(yǔ)言的缺點(diǎn),科學(xué)家設(shè)計(jì)出了更加易用的高級(jí)編程語(yǔ)言(high-level programming language)。高級(jí)語(yǔ)言吸收了人們熟悉的自然語(yǔ)言和數(shù)學(xué)語(yǔ)言的某些成分,因此非常易學(xué)、易用、易讀; 高級(jí)語(yǔ)言在構(gòu)造形式和意義
19、方面具有嚴(yán)格定義,從而避免了語(yǔ)言的歧義性;高 級(jí)語(yǔ)言與計(jì)算機(jī)硬件沒(méi)有關(guān)系,用高級(jí)語(yǔ)言寫(xiě)的程序可以移植到各種計(jì)算機(jī)上執(zhí)行。41. 列舉出10大數(shù)據(jù)挖掘的算法。數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,andCART.42. 簡(jiǎn)述深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能三者的關(guān)系。人工智能包括了機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)包括了深度學(xué)習(xí)43. 三大數(shù)據(jù)編程語(yǔ)言分別是哪三種?它們分別適用于哪些場(chǎng)景?R語(yǔ)言:最常用數(shù)據(jù)分析工具之一,兼容性強(qiáng)Python:編程類(lèi)數(shù)據(jù)分析,如文本字符等非機(jī)構(gòu)化數(shù)據(jù)的處理SQL: 側(cè)重?cái)?shù)據(jù)
20、庫(kù)方面,如數(shù)據(jù)倉(cāng)庫(kù)等,作為Oracle等數(shù)據(jù)庫(kù)方面的基礎(chǔ)知識(shí)不可或缺44. 數(shù)據(jù)工程的主要研究?jī)?nèi)容可分為哪三個(gè)方面?請(qǐng)分別簡(jiǎn)述它們。數(shù)據(jù)工程的主要研究?jī)?nèi)容可概括為三個(gè)方面: 數(shù)據(jù)產(chǎn)品的創(chuàng)新,具體包括非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化、數(shù)據(jù)衍生品的創(chuàng)造;數(shù)據(jù)產(chǎn)品及其數(shù)據(jù)衍生品的價(jià)值分析,包括數(shù)據(jù)產(chǎn)品及其數(shù)據(jù)衍生品內(nèi)在關(guān)系(線性關(guān)系與非線性關(guān)系)的識(shí)別,數(shù)據(jù)產(chǎn)品及其數(shù)據(jù)衍生品價(jià)值評(píng)價(jià)模型的構(gòu)建;建立在數(shù)據(jù)有效性基礎(chǔ)上的理論探討,包括理論體系的構(gòu)建,定律與模型的發(fā)現(xiàn)等。45. 標(biāo)準(zhǔn)的數(shù)據(jù)科學(xué)過(guò)程可分為哪六步?(1)Setting the research goal(2)Retrieving data(3)Data preparation(4)Data exploration(5)Data modeling(6)Presentation and automation46. 為什么要開(kāi)放公共數(shù)據(jù)?把數(shù)據(jù)當(dāng)原料應(yīng)用價(jià)值,數(shù)據(jù)是一種基礎(chǔ)設(shè)施,開(kāi)放公共數(shù)據(jù)本質(zhì)上是提供一種公共產(chǎn)品,促進(jìn)合作共創(chuàng),通過(guò)開(kāi)放數(shù)據(jù),利用數(shù)據(jù),解決問(wèn)題創(chuàng)造價(jià)值,讓社會(huì),供給方,利用方合作共贏。47. 什么是智慧城市,智慧城市有哪些應(yīng)用?智慧城市就是運(yùn)用信息和通信技術(shù)手段感測(cè)、分析、整合城市運(yùn)行核心系統(tǒng)的各項(xiàng)關(guān)鍵信息,從而對(duì)包括民生、環(huán)保、公共安全、城市服務(wù)、工商業(yè)活動(dòng)在內(nèi)的各種需求做出智能響應(yīng)。其實(shí)質(zhì)是利用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)技術(shù)推廣服務(wù)責(zé)任協(xié)議
- 網(wǎng)絡(luò)工程網(wǎng)絡(luò)通信理論測(cè)試
- 深度學(xué)習(xí) 課件 第0章-課程簡(jiǎn)介
- 工程項(xiàng)目管理文獻(xiàn)回顧試題及答案
- 投資項(xiàng)目的資金流動(dòng)分析試題及答案
- 人工智能技術(shù)在教育領(lǐng)域的應(yīng)用合作協(xié)議
- 智慧供應(yīng)鏈管理 課件 第五章 智慧物流管理
- 2024年固廢污染治理項(xiàng)目投資申請(qǐng)報(bào)告代可行性研究報(bào)告
- 房產(chǎn)小區(qū)測(cè)試題及答案
- 著眼未來(lái)水利水電工程考試試題及答案
- 滅火和應(yīng)急疏散流程圖
- 毒蛇咬傷防治
- 不再種植桉樹(shù)承諾書(shū)
- 氧氣應(yīng)急處置卡
- YX51-380-760型金屬屋面板專(zhuān)項(xiàng)施工方案(32頁(yè))
- sql優(yōu)化-oracle數(shù)據(jù)庫(kù)ppt課件
- 腎癌-診療ppt
- 土地模板-市場(chǎng)比較法
- 附5北京理工大學(xué)本科畢業(yè)生德育答辯論
- 中國(guó)疾病預(yù)防控制中心健康體檢表
- 康復(fù)評(píng)定——感覺(jué)功能評(píng)定
評(píng)論
0/150
提交評(píng)論