《數(shù)據(jù)科學(xué)與大數(shù)據(jù)通識導(dǎo)論》題庫及答案-2019年溫州市工程技術(shù)系列專業(yè)技術(shù)人員繼續(xù)教育.doc_第1頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)通識導(dǎo)論》題庫及答案-2019年溫州市工程技術(shù)系列專業(yè)技術(shù)人員繼續(xù)教育.doc_第2頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)通識導(dǎo)論》題庫及答案-2019年溫州市工程技術(shù)系列專業(yè)技術(shù)人員繼續(xù)教育.doc_第3頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)通識導(dǎo)論》題庫及答案-2019年溫州市工程技術(shù)系列專業(yè)技術(shù)人員繼續(xù)教育.doc_第4頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)通識導(dǎo)論》題庫及答案-2019年溫州市工程技術(shù)系列專業(yè)技術(shù)人員繼續(xù)教育.doc_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1.數(shù)據(jù)科學(xué)的三大支柱與五大要素是什么? 答:數(shù)據(jù)科學(xué)的三大主要支柱為:Datalogy (數(shù)據(jù)學(xué)):對應(yīng)數(shù)據(jù)管理(Data management)Analytics ( 分析學(xué)):對應(yīng)統(tǒng)計方法(Statistical method)Algorithmics ( 算法學(xué)):對應(yīng)算法方法(Algorithmic method)數(shù)據(jù)科學(xué)的五大要素:A-SATA模型分析思維(An alytical Thin ki ng)統(tǒng)計模型(Statistical Model)算法計算(Algorithmic Computi ng)數(shù)據(jù)技術(shù)(Data Tech no logy)綜合應(yīng)用(Application)

2、2.如何辨證看待“大數(shù)據(jù)”中的“大”和“數(shù)據(jù)”的關(guān)系?字面理解Large、vast和big都可以用于形容大小Big更強調(diào)的是相對大小的大,是抽象意義上的大 大數(shù)據(jù)是抽象的大,是思維方式上的轉(zhuǎn)變 量變帶來質(zhì)變,思維方式,方法論都應(yīng)該和以往不同 計算機并不能很好解決人工智能中的諸多問題,利用大數(shù)據(jù)突破性解決了,其核心問題變成 了數(shù)據(jù)問題。3.怎么理解科學(xué)的范式?今天如何利用這些科學(xué)范式?科學(xué)的范式指的是常規(guī)科學(xué)所賴以運作的理論基礎(chǔ)和實踐規(guī)范,是從事某一科學(xué)的科學(xué)家 群體所共同遵從的世界觀和行為方式。第一范式:經(jīng)驗科學(xué)第二范式:理論科學(xué)第三范式:計算科學(xué)第四范式:數(shù)據(jù)密集型科學(xué)今天,是數(shù)據(jù)科學(xué),統(tǒng)一

3、于理論、實驗和模擬4.從人類整個文明的尺度上看,IT和DT對人類的發(fā)展有些什么樣的影響和沖擊?以控制為出發(fā)點的IT時代正在走向激活生產(chǎn)力為目的的 D( Data Technology )數(shù)據(jù)時代。大數(shù)據(jù)驅(qū)動的DT時代 由數(shù)據(jù)驅(qū)動的世界觀大數(shù)據(jù)重新定義商業(yè)新模式大數(shù)據(jù)重新定義研發(fā)新路徑大數(shù)據(jù)重新定義企業(yè)新思維5.大數(shù)據(jù)時代的思維方式有哪些?“大數(shù)據(jù)時代”和“智能時代”告訴我們:數(shù)據(jù)說話全局數(shù)據(jù)混雜性、不確定性相關(guān)關(guān)系數(shù)據(jù)思維:講故事總體思維:樣本數(shù)據(jù) 容錯思維:精確性 相關(guān)思維:因果關(guān)系智能思維:人 人機協(xié)同(人人工智能)6請列舉出六大典型思維方式;直線思維、逆向思維、跳躍思維、歸納思維、并行思

4、維、科學(xué)思維數(shù)據(jù)科學(xué)與大數(shù)據(jù)通識導(dǎo)論題庫及答案7.大數(shù)據(jù)時代的思維方式有哪些?同58.二進制系統(tǒng)是如何實現(xiàn)的?計算機用0和1來表示和存儲所有的數(shù)據(jù),它的基數(shù)為 2,進位規(guī)則是“逢二進一”,用1表 示開,0表示關(guān)9.解釋比特、字節(jié)和十六進制表示。比特:一位0、1 ;字節(jié):8比特,從000到111,十六進制:0000到1111十六個數(shù)分別用 0,1,2,3,4,5,6,7,8,9 ,A,B, C,D,E,F 來表示10.請辨析現(xiàn)象、數(shù)據(jù)、信息和知識這幾個概念。信息是關(guān)于世界、人和事的描述,它比數(shù)據(jù)來得抽象;而數(shù)據(jù)則是信息的載體。知識比信息更高一個層次,也更加抽象,它具有系統(tǒng)性的特征。比如通過測量星

5、球的位置和對應(yīng)的時間,就得到數(shù)據(jù);通過這些數(shù)據(jù)得到星球運轉(zhuǎn)的軌跡, 這就是信息;通過信息總結(jié)出開普勒三定律,就是知識。從現(xiàn)象、數(shù)據(jù)到信息、知識,抽象層次是越來越高的。 人類的進步就是靠使用知識不斷地改變我們的生活和周圍的世界,而數(shù)據(jù)是知識的基礎(chǔ)。11.簡述馮諾依曼計算機工作原理存儲程序控制程序和數(shù)據(jù)都用二進制數(shù)表示機器以CPU為中心12.簡述GB2312編碼和Unicode編碼原理;GB2312編碼適用于漢字處理、漢字通信等系統(tǒng)之間的信息交換,通行于中國大陸 ;新加坡等地也采用此編碼。中國大陸幾乎所有的中文系統(tǒng)和國際化的軟件都支持 GB 2312?;炯彩杖霛h字6763個和非漢字圖形字符68

6、2個。整個字符集分成94個區(qū),每區(qū)有94個 位。每個區(qū)位上只有一個字符,因此可用所在的區(qū)和位來對漢字進行編碼,稱為區(qū)位碼。Unicode(統(tǒng)一碼、萬國碼、單一碼)是計算機科學(xué)領(lǐng)域里的一項業(yè)界標準,包括字符集、 編碼方案等。Uni code是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,它為每種語言中的 每個字符設(shè)定了統(tǒng)一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的 要求。13.簡述摩爾定律。摩爾定律是由英特爾(In tel )創(chuàng)始人之一戈登摩爾(Gordon Moore )提出來的。其內(nèi) 容為:當價格不變時,集成電路上可容納的元器件的數(shù)目,約每隔18-24個月便會增加一倍, 性能

7、也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上。 這一定律揭示了信息技術(shù)進步的速度。14.為什么計算機系統(tǒng)要往并行與異構(gòu)的方向發(fā)展?單核CPI已經(jīng)走到盡頭,不能承載更多的晶體,所以采用多核和GPU及 FPGA等并行與異構(gòu), 多臺計算機一起工作,進一步提升計算性能15.什么是云計算?云計算的定義:云計算是一個模型,這個模型可以方便地按需通過網(wǎng)絡(luò)訪問一個可配置的計算資源(例如, 網(wǎng)絡(luò)、服務(wù)器、存儲設(shè)備、應(yīng)用程序以及服務(wù))的公共及。這額資源可以迅速提供并發(fā)布, 同時最小化管理成本或服務(wù)提供商的干涉。16.為什么說數(shù)據(jù)上云是一種趨勢?大數(shù)據(jù)上云,數(shù)據(jù)上云,分析上云,人

8、工智能上云,數(shù)據(jù)上云是一種趨勢17.從技術(shù)體系和資源結(jié)構(gòu)兩方面談一下云計算的邏輯平臺組成。云平臺的邏輯組成技術(shù)體系:laaS, PaaS, SaaS (Technically )資源結(jié)構(gòu):計算、存儲、網(wǎng)絡(luò)18.數(shù)據(jù)獲取過程可分為哪幾個步驟?數(shù)據(jù)獲取階段的任務(wù)是以數(shù)字形式將信息聚合,以待存儲和分析處理,數(shù)據(jù)獲取過程可分為 三個步驟:數(shù)據(jù)米集數(shù)據(jù)傳輸數(shù)據(jù)預(yù)處理19.數(shù)據(jù)預(yù)處理需要做哪些工作?數(shù)據(jù)預(yù)處理由于數(shù)據(jù)源的多樣性,數(shù)據(jù)集由于干擾、冗余和一致性因素的影響具有不同的質(zhì)量。一些數(shù)據(jù)分析工具和應(yīng)用對數(shù)據(jù)質(zhì)量有著嚴格的要求。因此在大數(shù)據(jù)系統(tǒng)中需要數(shù)據(jù)預(yù)處理 技術(shù)提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)集成(Data in

9、tegration )數(shù)據(jù)清洗(Data cleansing )冗余消除(Redundancy elimination20.數(shù)據(jù)的存儲方式有哪些?數(shù)據(jù)的存儲方式:紙帶磁帶數(shù)字存儲隨機存取存儲器(Random access memory RAM磁盤(HDD和磁盤陣列存儲級存儲器:閃存、SSD光盤21什么是大數(shù)據(jù)的計算模式?所謂大數(shù)據(jù)計算模式,即根據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計算特征,從多樣性的大數(shù)據(jù)計算問 題和需求中提煉并建立的各種高層抽象(abstraction )或模型(model)。22.簡述大數(shù)據(jù)的四種主要分析技術(shù)。大數(shù)據(jù)的四種主要分析技術(shù)(1)統(tǒng)計分析(2)機器學(xué)習(xí)是一門研究機器獲取新知識

10、和新技能,并識別現(xiàn)有知識的學(xué)問。(3)數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人 們事先不知道的、但又是潛在有用的信息和知識的過程。(4)可視化分析統(tǒng)計學(xué)主要是通過機器學(xué)習(xí)來對數(shù)據(jù)挖掘發(fā)揮影響,而機器學(xué)習(xí)和數(shù)據(jù)庫則是數(shù)據(jù)挖掘的兩 大支撐技術(shù)。23.簡述數(shù)據(jù)庫的事務(wù)ACID性質(zhì)數(shù)據(jù)庫的事務(wù)處理(ACID)性質(zhì):原子性(Atomicity ):不可分割一致性(Consistency ):前后一致隔離性(Isolation ):并發(fā)持久性(Durability ):永久24.關(guān)系代數(shù)的五種基本運算分別是什么?關(guān)系代數(shù)的五種基本運算分別是并、差、投影、選擇

11、、笛卡爾積25.簡述數(shù)據(jù)倉庫的四種類型。數(shù)據(jù)倉庫的四種類型: 傳統(tǒng)數(shù)據(jù)倉庫 實時處理數(shù)據(jù)倉庫 關(guān)聯(lián)發(fā)現(xiàn)數(shù)據(jù)倉庫 數(shù)據(jù)集市26.什么是GFS請簡述GFS的特點?GFS是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應(yīng)用。 它運行于廉價的普通硬件上,將服務(wù)器故障視為正?,F(xiàn)象,通過軟件的方式自動容錯,在保 證系統(tǒng)可靠性和可用性的同時,大大減少了系統(tǒng)的成本。系統(tǒng)分為三類角色:Master (主服務(wù)器)Chunk Server (數(shù)據(jù)塊服務(wù)器)。Clie nt (客戶端)27.請簡述HDFS的特點。Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由 Apache基金會開發(fā)。用戶可以在不了解

12、分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運算和存儲。 Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System ),簡稱 HDFSHDFS有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上。HDFS集群包含:一個主節(jié)點(NameNode)多個從屬節(jié)點(DataNodes)多個客戶端訪問28.大數(shù)據(jù)系統(tǒng)為什么要采用分布式的架構(gòu)? 大數(shù)據(jù)是數(shù)據(jù)庫的自然延伸:分布式。由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各處理環(huán)節(jié)中都可以采用并行處理。目前,Hadoop Map Reduce和Spark等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通

13、用處 理方法。29.什么是有向圖、鄰接矩陣、超鏈接矩陣。一個有向圖D是指一個有序三元組(V(D),A(D),書D),其中書D)為關(guān)聯(lián)函數(shù),它使 A(D)中 的每一個元素(稱為有向邊或?。?yīng)于V(D)中的一個有序元素(稱為頂點或點)為研究需要,我們定義鄰接矩陣G = (gij)i 其中 g舒=L如果存在從J到I的弧進一步,如果將鄰接矩陣中的元素除以對應(yīng)節(jié)點的出度,可以得到該圖的超鏈接矩陣30.如何計算PageRank的值?PageRa nk算法第一步:將互聯(lián)網(wǎng)作為一個有向圖,并用鄰接矩陣進行表示;第二步:將該鄰接矩陣轉(zhuǎn)換為超鏈接矩陣;第三步:求解該超鏈接矩陣的最大特征向量(如幕迭代法); 第四

14、步:求得的特征向量中的值即為對應(yīng)網(wǎng)頁的 PageRa nk值。31.典型的數(shù)據(jù)挖掘技術(shù)有哪些?典型的數(shù)據(jù)挖掘技術(shù):關(guān)聯(lián)分析、序列模式、分類(預(yù)言)、聚集、異常檢測32.數(shù)據(jù)挖掘的標準流程分為那幾個步驟?請分別簡述它們。商業(yè)理解:找問題-確定商業(yè)目標、 對現(xiàn)有資源的評估, 確定問題是否能夠通過數(shù)據(jù)挖掘來解決,確定數(shù)據(jù)挖掘的目標, 制定數(shù)據(jù)挖掘計劃 數(shù)據(jù)理解:數(shù)據(jù)準備:確定數(shù)據(jù)挖掘所需要的數(shù)據(jù), 對數(shù)據(jù)進行描述, 數(shù)據(jù)的初步探索, 檢查數(shù)據(jù)的質(zhì)量建立模型:對各個模型進行評價, 選擇數(shù)據(jù)挖掘模型, 建立模型模型評估:評估數(shù)據(jù)挖掘的結(jié)果, 對整個數(shù)據(jù)挖掘過程的前面步驟進行評估,確定下一步怎么辦?是發(fā)布

15、模型?還是對數(shù)據(jù)挖掘過程進行進一步的調(diào)整,產(chǎn)生新的模型模型發(fā)布:把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中, 對模型進行日常的監(jiān)測和維護,定期更新數(shù)據(jù)挖掘模型33.典型的分類方法有哪些?典型分類方法:判定樹歸納分類,貝葉斯分類,后向傳播分類, k-最臨近分類,基于案例的推理,遺傳算法,粗糙集方法,模糊集方法34.典型的預(yù)測方法有哪些?典型預(yù)測方法:回歸方法,線性回歸,多元回歸,非線性回35.請簡述分類過程。 數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集 假定每個元組屬于一個預(yù)定義的類,由一個類標號屬性確定 基本概念 訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成 訓(xùn)練樣本:

16、訓(xùn)練數(shù)據(jù)集中的單個樣本(元組) 學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供 第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預(yù)測準確率 對每個測試樣本,將已知的類標號和該樣本的學(xué)習(xí)模型類預(yù)測比較 模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 測試集要獨立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況36.簡述預(yù)測和分類的相同點和不同點。預(yù)測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。 預(yù)測和分類的相同點: 兩者都需要構(gòu)建模型 都用模型來估計未知值預(yù)測當中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸預(yù)測和分類的不同點:分類法主

17、要是用來預(yù)測類標號(分類屬性值)預(yù)測法主要是用來估計連續(xù)值(量化屬性值)37.什么是離群點分析?離群點分析可以應(yīng)用在哪些領(lǐng)域? 離群點分析離群點:一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù) 通常孤立點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行孤立點分析而得到結(jié)論。應(yīng)用:信用卡欺詐檢測,移動電話欺詐檢測,客戶劃分,醫(yī)療分析(異常)38.什么是異常檢測?異常監(jiān)測可以應(yīng)用在哪些領(lǐng)域?異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式” (相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應(yīng)用:電信和信用卡欺騙,貸款審批,藥物研究,氣象預(yù)報,金融領(lǐng)域,客戶分類, 網(wǎng)

18、絡(luò)入侵檢測,故障檢測與診斷等39.列舉四種機器學(xué)習(xí)方法中的監(jiān)督學(xué)習(xí)算法并對它們進行簡要解釋。監(jiān)督學(xué)習(xí)算法:線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò), SVM回歸算法有兩個重要的子類:即線性回歸和邏輯回歸神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN)是80年代機器學(xué)習(xí)界非常流行的方法,其誕生起 源于對大腦工作機理的研究。簡單來說,就是分解與整合SVM(支持向量機)40.什么是咼級編程語言?高級編程語言:為了克服低級語言的缺點,科學(xué)家設(shè)計出了更加易用的高級編程語言(high-level programming Ianguage )。高級語言吸收了人們熟悉的自然語言和數(shù)學(xué)語言的某些成分,因此非常易學(xué)、易用、易讀; 高

19、級語言在構(gòu)造形式和意義方面具有嚴格定義,從而避免了語言的歧義性;高級語言與計算機硬件沒有關(guān)系,用高級語言寫的程序可以移植到各種計算機上執(zhí)行。41.列舉出10大數(shù)據(jù)挖掘的算法。 數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.42.簡述深度學(xué)習(xí)、機器學(xué)習(xí)、人工智能三者的關(guān)系。 人工智能包括了機器學(xué)習(xí),機器學(xué)習(xí)包括了深度學(xué)習(xí)43.三大數(shù)據(jù)編程語言分別是哪三種?它們分別適用于哪些場景?R語言:最常用數(shù)據(jù)分析工具之一,兼容性強Python:編程類數(shù)據(jù)分析,如文本字

20、符等非機構(gòu)化數(shù)據(jù)的處理SQL側(cè)重數(shù)據(jù)庫方面,如數(shù)據(jù)倉庫等,作為 Oracle等數(shù)據(jù)庫方面的基礎(chǔ)知識不可或缺44.數(shù)據(jù)工程的主要研究內(nèi)容可分為哪三個方面?請分別簡述它們。數(shù)據(jù)工程的主要研究內(nèi)容可概括為三個方面:數(shù)據(jù)產(chǎn)品的創(chuàng)新,具體包括非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化、數(shù)據(jù)衍生品的創(chuàng)造;數(shù)據(jù)產(chǎn)品及其數(shù)據(jù)衍生品的價值分析,包括數(shù)據(jù)產(chǎn)品及其數(shù)據(jù)衍生品內(nèi)在關(guān)系(線性關(guān)系與 非線性關(guān)系)的識別,數(shù)據(jù)產(chǎn)品及其數(shù)據(jù)衍生品價值評價模型的構(gòu)建;建立在數(shù)據(jù)有效性基礎(chǔ)上的理論探討,包括理論體系的構(gòu)建,定律與模型的發(fā)現(xiàn)等。45.標準的數(shù)據(jù)科學(xué)過程可分為哪六步?(1)Setting the research goal(2)Retri

21、eving data(3)Data preparation(4)Data exploration(5)Data modeling(6)Presentation and automation46.為什么要開放公共數(shù)據(jù)?把數(shù)據(jù)當原料應(yīng)用價值,數(shù)據(jù)是一種基礎(chǔ)設(shè)施,開放公共數(shù)據(jù)本質(zhì)上是提供一種公共產(chǎn)品, 促進合作共創(chuàng),通過開放數(shù)據(jù),利用數(shù)據(jù),解決問題創(chuàng)造價值,讓社會,供給方,利用方合 作共贏。47.什么是智慧城市,智慧城市有哪些應(yīng)用?智慧城市就是運用信息和通信技術(shù)手段感測、分析、整合城市運行核心系統(tǒng)的各項關(guān)鍵信 息,從而對包括民生、環(huán)保、公共安全、城市服務(wù)、工商業(yè)活動在內(nèi)的各種需求做出智能響 應(yīng)。其實質(zhì)是利用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論