版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第頁大數(shù)據(jù)復(fù)習(xí)測試有答案1.下列對Numpy和pandas的理解不正確的是()A、.numpy是基礎(chǔ)數(shù)據(jù)類型,pandas是擴(kuò)展數(shù)據(jù)類型B、numpy關(guān)注數(shù)據(jù)的結(jié)構(gòu)表達(dá),pandas關(guān)注數(shù)據(jù)的應(yīng)用表達(dá)C、pandas基于numpy構(gòu)建,性能不如numpy,應(yīng)避免使用D、numpy中使用維度表達(dá)數(shù)據(jù)間的關(guān)系,pandas中關(guān)注于數(shù)據(jù)與索引之間的關(guān)系【正確答案】:C解析:
這道題考察的是對Numpy和pandas庫的理解。Numpy是Python的一個開源的數(shù)值計(jì)算擴(kuò)展,提供了大量的數(shù)學(xué)函數(shù)工具,是Python科學(xué)計(jì)算的基礎(chǔ)包。Pandas是基于Numpy的一種工具,提供了快速、靈活和富有表達(dá)力的數(shù)據(jù)結(jié)構(gòu),旨在使“關(guān)系”或“標(biāo)簽”數(shù)據(jù)的處理工作變得既簡單又直觀。它旨在成為高級數(shù)據(jù)分析和操作的必備工具,其性能已經(jīng)足夠優(yōu)化,不應(yīng)簡單避免使用。A選項(xiàng),numpy提供的是多維數(shù)組對象及派生對象(如:掩碼數(shù)組和矩陣)和用于數(shù)組快速操作的各種API,是基礎(chǔ)數(shù)據(jù)類型;pandas提供了DataFrame等高級數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具,是擴(kuò)展數(shù)據(jù)類型。A選項(xiàng)正確。B選項(xiàng),numpy主要關(guān)注數(shù)據(jù)的結(jié)構(gòu)表達(dá),如數(shù)組的形狀、維度等;而pandas則更關(guān)注數(shù)據(jù)的應(yīng)用表達(dá),如數(shù)據(jù)的清洗、轉(zhuǎn)換、合并等操作。B選項(xiàng)正確。C選項(xiàng),pandas確實(shí)是基于numpy構(gòu)建的,但說其性能不如numpy并應(yīng)避免使用是不準(zhǔn)確的。pandas在數(shù)據(jù)處理方面提供了很多便利,且其性能在很多情況下已經(jīng)足夠優(yōu)化。C選項(xiàng)錯誤。D選項(xiàng),numpy使用維度來表達(dá)數(shù)據(jù)間的關(guān)系,如二維數(shù)組中的行和列;而pandas則更關(guān)注于數(shù)據(jù)與索引之間的關(guān)系,如DataFrame中的行索引和列索引。D選項(xiàng)正確。綜上所述,不正確的理解是C選項(xiàng)。2.下列關(guān)于轉(zhuǎn)換描述不正確的是()A、轉(zhuǎn)換完成基本的數(shù)據(jù)轉(zhuǎn)換B、轉(zhuǎn)換主要由步驟和跳構(gòu)成C、轉(zhuǎn)換中的步驟基本同時啟動D、轉(zhuǎn)換中的步驟會等前一個步驟執(zhí)行完成后才會執(zhí)行【正確答案】:D解析:
這道題考察的是對數(shù)據(jù)轉(zhuǎn)換(ETL過程中的一部分)的理解。在ETL(提取、轉(zhuǎn)換、加載)過程中,轉(zhuǎn)換是核心環(huán)節(jié),它負(fù)責(zé)將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種。轉(zhuǎn)換確實(shí)主要由步驟和跳構(gòu)成,步驟定義了具體的轉(zhuǎn)換操作,而跳則定義了步驟之間的執(zhí)行順序。轉(zhuǎn)換中的步驟并不總是同時啟動,而是根據(jù)跳的定義,可能順序執(zhí)行,也可能并行執(zhí)行。因此,選項(xiàng)D中的描述“轉(zhuǎn)換中的步驟會等前一個步驟執(zhí)行完成后才會執(zhí)行”是不準(zhǔn)確的,因?yàn)椴襟E的執(zhí)行順序取決于跳的定義。3.設(shè)a=np.array([[1,2,3],[4,5,6]]),則a.ndim的值是()A、6B、2C、3D、1【正確答案】:B4.以下說法錯誤的是()A、主成分分析.屬性子集選擇為維歸約方法.B、直方圖.聚類.抽樣和數(shù)據(jù)立方體聚集為數(shù)量歸約方法。C、用于規(guī)約的時間可以超過或抵消在規(guī)約后的數(shù)據(jù)上挖掘節(jié)省的時間。D、數(shù)據(jù)歸約的目的用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果是基本相同?!菊_答案】:C解析:
這道題考察的是對數(shù)據(jù)歸約方法的理解。主成分分析、屬性子集選擇確實(shí)屬于維歸約方法,直方圖、聚類、抽樣和數(shù)據(jù)立方體聚集是數(shù)量歸約方法,這些都是數(shù)據(jù)歸約的常見手段,用于減少數(shù)據(jù)量同時盡量保持?jǐn)?shù)據(jù)特性。數(shù)據(jù)歸約的目的是為了獲得一個精簡但保持原有數(shù)據(jù)集完整性的數(shù)據(jù)集,以提高數(shù)據(jù)挖掘效率,同時保證挖掘結(jié)果的一致性。而C選項(xiàng)的說法,用于規(guī)約的時間通常不會超過或抵消在規(guī)約后的數(shù)據(jù)上挖掘節(jié)省的時間,這是不合邏輯的,因?yàn)閿?shù)據(jù)歸約的主要目的就是為了提高效率。5.在pandas中,下列哪個方法不能完成值轉(zhuǎn)換()A、mapB、fillnaC、replaceD、reindex【正確答案】:D解析:
這道題考察的是對pandas庫中數(shù)據(jù)轉(zhuǎn)換方法的理解。在pandas中,`map`方法可以用于將一個函數(shù)應(yīng)用于Series中的每一個元素,實(shí)現(xiàn)值的轉(zhuǎn)換;`fillna`方法用于填充NA/NaN值,也可以看作是一種值轉(zhuǎn)換;`replace`方法用于替換數(shù)據(jù)中的值,同樣能實(shí)現(xiàn)值轉(zhuǎn)換。而`reindex`方法主要用于改變DataFrame或Series的索引,與值轉(zhuǎn)換無關(guān)。因此,不能完成值轉(zhuǎn)換的方法是`reindex`,選項(xiàng)D正確。6.設(shè)a=np.array([[1,2,3],[4,5]]),則a.size的值是()A、6B、3C、2D、5【正確答案】:C7.處理噪聲的方法一般有()A、分箱B、回歸C、聚類D、以上都是【正確答案】:D8.影響數(shù)據(jù)質(zhì)量問題的因素有哪些()A、準(zhǔn)確性.完整性.一致性B、相關(guān)性.時效性C、可信性.可解釋性D、以上都是【正確答案】:D解析:
這道題考察對數(shù)據(jù)質(zhì)量問題的全面理解。數(shù)據(jù)質(zhì)量涉及多個方面,包括數(shù)據(jù)的準(zhǔn)確性(數(shù)據(jù)值是否正確)、完整性(數(shù)據(jù)是否完整無缺失)、一致性(數(shù)據(jù)在不同來源或時間點(diǎn)是否保持一致)。同時,數(shù)據(jù)的相關(guān)性(數(shù)據(jù)是否與目標(biāo)問題相關(guān))、時效性(數(shù)據(jù)是否及時更新)也是重要的考量因素。可信性(數(shù)據(jù)是否可靠)和可解釋性(數(shù)據(jù)是否易于理解)同樣對數(shù)據(jù)質(zhì)量有重要影響。因此,所有這些因素共同構(gòu)成了影響數(shù)據(jù)質(zhì)量問題的全面考量,答案選D。9.下列關(guān)于轉(zhuǎn)換描述不正確的是()A、轉(zhuǎn)換由步驟.跳和注釋組成B、轉(zhuǎn)換里的步驟按照跳定義的順序依次執(zhí)行C、轉(zhuǎn)換里的步驟幾乎同時啟動D、轉(zhuǎn)換是完成針對數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換【正確答案】:B解析:
這道題考察的是對ETL(提取、轉(zhuǎn)換、加載)過程中“轉(zhuǎn)換”概念的理解。在ETL中,轉(zhuǎn)換通常指的是對數(shù)據(jù)進(jìn)行處理和修改的過程。轉(zhuǎn)換確實(shí)可以包含步驟、跳(用于控制流程)和注釋。轉(zhuǎn)換的步驟并不一定是按照跳定義的順序依次執(zhí)行,而是可以根據(jù)跳的邏輯進(jìn)行條件分支或循環(huán)等復(fù)雜控制,因此B選項(xiàng)的描述是不準(zhǔn)確的。轉(zhuǎn)換里的步驟通常是依次執(zhí)行,而不是“幾乎同時啟動”,所以C選項(xiàng)描述也不準(zhǔn)確,但題目要求選出不正確的描述,B選項(xiàng)的不準(zhǔn)確性更為明顯。轉(zhuǎn)換確實(shí)是完成針對數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,這是轉(zhuǎn)換的基本定義。綜上所述,B選項(xiàng)描述不正確。10.處理文本文件如果出現(xiàn)亂碼現(xiàn)象,應(yīng)該查看()A、文件編碼B、打開模式C、是否指定了合適的分隔符D、是否指定了合適的字段長度【正確答案】:A解析:
這道題考察的是處理文本文件時遇到亂碼現(xiàn)象的原因。亂碼通常是由于文件編碼與查看或編輯該文件的程序所使用的編碼不匹配造成的。因此,遇到亂碼時,首先應(yīng)該檢查的是文件的編碼方式。選項(xiàng)A“文件編碼”正是解決亂碼問題的關(guān)鍵所在。其他選項(xiàng)如打開模式、分隔符、字段長度等,雖然也是處理文本文件時需要考慮的因素,但與亂碼現(xiàn)象無直接關(guān)聯(lián)。11.在2020年6月1日,學(xué)生張三提供了緊急聯(lián)系人的相關(guān)信息隨后學(xué)校的管理團(tuán)隊(duì)與2020年6月4日將其輸入學(xué)生數(shù)據(jù)庫從提交信息到錄入數(shù)據(jù)庫,中間延遲了3天,此案例體現(xiàn)了數(shù)據(jù)質(zhì)量的哪一特性?A、準(zhǔn)確性B、完整性C、唯一性D、及時性【正確答案】:D解析:
這道題考察的是對數(shù)據(jù)質(zhì)量特性的理解。數(shù)據(jù)質(zhì)量有多個維度,包括準(zhǔn)確性、完整性、唯一性和及時性。根據(jù)題干描述,學(xué)生張三提供了緊急聯(lián)系人的信息,但學(xué)校管理團(tuán)隊(duì)在3天后才將其錄入數(shù)據(jù)庫,這明顯體現(xiàn)了數(shù)據(jù)處理的延遲,即數(shù)據(jù)沒有及時被處理。因此,這個案例體現(xiàn)了數(shù)據(jù)質(zhì)量的“及時性”特性。12.pandas的很多方法都會返回一個新的DataFrame,如果希望方法進(jìn)行數(shù)據(jù)的原地修改,可以設(shè)置以下哪個參數(shù)()A、inplaceB、axisC、indexD、columns【正確答案】:A解析:
這道題考察的是pandas庫中DataFrame對象方法的使用。在pandas中,很多方法默認(rèn)返回一個新的DataFrame對象,而不是修改原始對象。如果想要在原地修改數(shù)據(jù),即不創(chuàng)建新的DataFrame,而是直接修改原始DataFrame,需要設(shè)置參數(shù)`inplace=True`。因此,正確答案是A。13.pandas中用于去重的操作是()A、duplicatedB、get_dummiesC、drop_duplicatesD、pivot【正確答案】:C解析:
這道題考察的是對pandas庫中數(shù)據(jù)去重操作的理解。在pandas中,`drop_duplicates`方法用于去除數(shù)據(jù)中的重復(fù)行,保留第一次出現(xiàn)的行。`duplicated`方法用于標(biāo)記重復(fù)的行,返回布爾值。`get_dummies`用于將分類變量轉(zhuǎn)換為啞變量/指標(biāo)矩陣。`pivot`用于重塑、透視和創(chuàng)建派生數(shù)據(jù),不是用于去重的。因此,正確答案是C。14.pandas中提供的計(jì)算啞變量的函數(shù)是()A、get_dummiesB、concatC、pivotD、is_na【正確答案】:A解析:
這道題考察的是對pandas庫中函數(shù)功能的了解。在pandas中,`get_dummies`函數(shù)用于將分類變量轉(zhuǎn)換為啞變量(或稱為指示器變量),這是處理分類數(shù)據(jù)時常用的技術(shù)。而`concat`用于合并數(shù)據(jù),`pivot`用于重塑數(shù)據(jù),`is_na`用于檢測數(shù)據(jù)中的缺失值。因此,正確答案是A。15.下列表達(dá)式正確表達(dá)一個非數(shù)字字符的是()A、\DB、\dC、[0-9]D、[0123456789]【正確答案】:A16.設(shè)df=pd.DataFrame(np.arange(12).reshape((3,4))),以下語句出錯的是()A、df[1]=12B、df[:2]=12C、df[1]=[8,7,8]D、df[1]=[9,8,8,8]【正確答案】:D解析:
這道題考察的是對Pandas庫中DataFrame對象操作的理解。首先,創(chuàng)建一個3行4列的DataFrame對象df。接著分析每個選項(xiàng):A.`df[1]=12`:將第二列的所有值設(shè)置為12,這是正確的。B.`df[:2]=12`:將前兩行的所有值設(shè)置為12,這也是正確的。C.`df[1]=[8,7,8]`:將第二列的值設(shè)置為[8,7,8],長度與DataFrame的行數(shù)相匹配,因此是正確的。D.`df[1]=[9,8,8,8]`:嘗試將第二列的值設(shè)置為[9,8,8,8],但這里列表的長度是4,而DataFrame只有3行,因此會引發(fā)錯誤。因此,選項(xiàng)D是錯誤的。17.正則表達(dá)式[a-z].*3可以配置abc3abc3a3幾次()A、0B、1C、2D、3【正確答案】:B18.以下不屬于數(shù)據(jù)集成的方法是()A、聯(lián)邦數(shù)據(jù)庫B、中間件集成C、數(shù)據(jù)復(fù)制D、數(shù)據(jù)壓縮【正確答案】:D解析:
這道題考察對數(shù)據(jù)集成方法的了解。數(shù)據(jù)集成是指將不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。聯(lián)邦數(shù)據(jù)庫、中間件集成和數(shù)據(jù)復(fù)制都是常見的數(shù)據(jù)集成方法,它們分別通過不同的技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和訪問。而數(shù)據(jù)壓縮是一種減少數(shù)據(jù)存儲空間或傳輸時間的技術(shù),并不屬于數(shù)據(jù)集成的方法。因此,選項(xiàng)D是不屬于數(shù)據(jù)集成的方法。19.下列關(guān)于為什么要做數(shù)據(jù)清理描述錯誤的是()A、數(shù)據(jù)有重復(fù)B、數(shù)據(jù)有錯誤C、數(shù)據(jù)有缺失D、數(shù)據(jù)量太大【正確答案】:D20.在Kettle中,如果定義了變量hostname,則在程序中調(diào)用的形式為()A、%hostname%B、${hostname}C、hostnameD、"hostname"【正確答案】:B解析:
這道題考察的是對Kettle中變量調(diào)用方式的理解。在Kettle中,變量是通過特定的語法來調(diào)用的,這是為了區(qū)分變量名和普通的字符串。根據(jù)Kettle的官方文檔和常規(guī)使用習(xí)慣,變量在程序中的調(diào)用形式為"${變量名}"。因此,對于題目中定義的變量hostname,正確的調(diào)用形式應(yīng)為"${hostname}"。21.下列關(guān)于數(shù)據(jù)清理描述錯誤的是()A、數(shù)據(jù)清理能完全解決數(shù)據(jù)質(zhì)量差的問題B、數(shù)據(jù)清理在數(shù)據(jù)分析過程中是不可或缺的一個環(huán)節(jié)C、數(shù)據(jù)清理的目的是提高數(shù)據(jù)質(zhì)量D、可以借助Kettle來完成大量的數(shù)據(jù)清理工作【正確答案】:A22.在大部分?jǐn)?shù)據(jù)項(xiàng)目中,下列哪個環(huán)節(jié)占用的時間最長()A、數(shù)據(jù)預(yù)處理B、數(shù)據(jù)分析C、數(shù)據(jù)可視化D、數(shù)據(jù)導(dǎo)入導(dǎo)出【正確答案】:A解析:
這道題考察的是對數(shù)據(jù)項(xiàng)目各環(huán)節(jié)時間占用的理解。在數(shù)據(jù)科學(xué)項(xiàng)目中,數(shù)據(jù)預(yù)處理包括清洗、轉(zhuǎn)換、集成等多個步驟,通常是最耗時的一環(huán),因?yàn)樗婕皩υ紨?shù)據(jù)的整理,使其適合后續(xù)分析。相比之下,數(shù)據(jù)分析和數(shù)據(jù)可視化雖然重要,但通常耗時較短。數(shù)據(jù)導(dǎo)入導(dǎo)出則是一個相對快速的過程。因此,數(shù)據(jù)預(yù)處理是這四個環(huán)節(jié)中占用時間最長的。23.設(shè)df=pd.DataFrame(np.arange(12).reshape((3,4))),以下語句出錯的是()A、df[1]=12B、df[:2]=12C、df[1]=[8,8,8]D、df[1]=[8,8,8,8]【正確答案】:D解析:
這道題考察的是對Pandas庫中DataFrame對象操作的理解。在Pandas中,DataFrame的行和列可以通過標(biāo)簽、位置或布爾索引來訪問和修改。A選項(xiàng):`df[1]=12`,這是正確的,它將第二列的所有值設(shè)置為12。B選項(xiàng):`df[:2]=12`,這也是正確的,它將前兩行的所有列的值設(shè)置為12。C選項(xiàng):`df[1]=[8,8,8]`,這是正確的,它將第二列的值設(shè)置為列表[8,8,8],列表的長度與DataFrame的行數(shù)相匹配。D選項(xiàng):`df[1]=[8,8,8,8]`,這是錯誤的,因?yàn)榱斜淼拈L度(4)超過了DataFrame的行數(shù)(3),這會導(dǎo)致長度不匹配的錯誤。因此,答案是D。24.下列表達(dá)式能匹配到偶數(shù)的是()A、\d*[^13579]B、\b\d*[02468]\bC、\d*[02468]D、\d+[02468]【正確答案】:B25.數(shù)據(jù)倉庫的數(shù)據(jù)是隨著時間變化而變化的,以下說法不正確的是()A、數(shù)據(jù)倉庫隨著時間變化不斷增加新的數(shù)據(jù)內(nèi)容。B、數(shù)據(jù)庫隨著時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容。C、數(shù)據(jù)倉庫中包含大量的匯總數(shù)據(jù),這些數(shù)據(jù)中很多跟時間相關(guān),因此這些數(shù)據(jù)要隨著時間的變化不斷地進(jìn)行重新匯總。D、所著時間的更新,源數(shù)據(jù)里的數(shù)據(jù)可能會更新,這時需要更新數(shù)據(jù)倉庫中的數(shù)據(jù)。【正確答案】:D解析:
這道題考察對數(shù)據(jù)倉庫特性的理解。數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。A選項(xiàng)正確,因?yàn)閿?shù)據(jù)倉庫是隨時間不斷積累數(shù)據(jù)的,新的數(shù)據(jù)內(nèi)容會被不斷增加進(jìn)去。B選項(xiàng)錯誤,因?yàn)閿?shù)據(jù)倉庫的特點(diǎn)是數(shù)據(jù)的穩(wěn)定性,它不會隨時間刪除舊的數(shù)據(jù)內(nèi)容,而是保留歷史數(shù)據(jù)以供分析。C選項(xiàng)正確,數(shù)據(jù)倉庫中包含大量的匯總數(shù)據(jù),這些數(shù)據(jù)往往與時間相關(guān),并需要隨時間變化進(jìn)行重新匯總。D選項(xiàng)的表述雖然接近實(shí)際操作,但在此題的語境下被視為不正確,因?yàn)轭}目要求選出“不正確”的說法。實(shí)際上,在數(shù)據(jù)倉庫的維護(hù)中,確實(shí)需要定期更新數(shù)據(jù)以反映源數(shù)據(jù)的變化,但這與B選項(xiàng)的錯誤性質(zhì)不同,B選項(xiàng)的錯誤在于對數(shù)據(jù)倉庫特性的誤解。綜上所述,B選項(xiàng)是不正確的說法,因?yàn)樗`背了數(shù)據(jù)倉庫數(shù)據(jù)穩(wěn)定性的核心特性。26.pandas的很多方法都有指定軸向的參數(shù),是()A、inplaceB、axisC、lablesD、sort【正確答案】:B解析:
這道題考察的是對pandas庫中方法參數(shù)的理解。在pandas庫中,很多方法都包含指定軸向的參數(shù),這個參數(shù)通常用于指定操作是沿著行還是列進(jìn)行。根據(jù)pandas的官方文檔和常見用法,這個參數(shù)是`axis`,其中`axis=0`代表沿著行的方向(縱向),`axis=1`代表沿著列的方向(橫向)。因此,正確答案是B。27.Kettle提供了輕量級的HTTP服務(wù)器,用于遠(yuǎn)程執(zhí)行作業(yè)和轉(zhuǎn)換或在集群中并行執(zhí)行作業(yè)和轉(zhuǎn)換,它是()A、PanB、SpoonC、KitchenD、Carte【正確答案】:D解析:
這道題考察的是對Kettle工具組件的理解。Kettle是一個開源的ETL工具,它提供了多個組件用于數(shù)據(jù)處理。其中,Carte是Kettle提供的一個輕量級的HTTP服務(wù)器,它允許用戶遠(yuǎn)程執(zhí)行作業(yè)和轉(zhuǎn)換,或者在集群環(huán)境中并行執(zhí)行作業(yè)和轉(zhuǎn)換。根據(jù)這個知識點(diǎn),我們可以確定答案是D。28.在pandas的merge函數(shù)中,下列哪個參數(shù)不是用來指定連接鍵的()A、onB、left_on.right_onC、left_index.right_indexD、suffixes【正確答案】:D解析:
這道題考查對pandas中merge函數(shù)參數(shù)的理解。在merge函數(shù)中,on、left_on/right_on、left_index/right_index都可用于指定連接鍵。而suffixes參數(shù)主要用于處理合并時列名沖突的后綴,并非用于指定連接鍵。所以這道題應(yīng)選D選項(xiàng)。29.下列表達(dá)式中沒有正確表達(dá)"以p開始,后跟至少一個y的字符串"的是()A、py+B、pyy*C、py{1,}D、py?【正確答案】:D解析:
這道題考察的是正則表達(dá)式的基本語法和含義。-A選項(xiàng)`py+`表示"p"后跟至少一個"y",符合題目要求。-B選項(xiàng)`pyy*`表示"p"后跟至少一個"y"(因?yàn)閌y*`表示0個或多個"y",但前面已經(jīng)有一個"y"了,所以至少有一個),也符合題目要求。-C選項(xiàng)`py{1,}`表示"p"后跟至少一個"y"(`{1,}`表示至少1個),同樣符合題目要求。-D選項(xiàng)`py?`表示"p"后跟0個或1個"y",這與題目要求的"至少一個y"不符。因此,D選項(xiàng)沒有正確表達(dá)題目要求的字符串模式。30.某公司入職申請表上記錄了職工年齡記錄,規(guī)定年齡需要在18到60之間。假設(shè)某條記錄為61或N/A,將被視為數(shù)據(jù)失效。此案例體現(xiàn)了數(shù)據(jù)質(zhì)量的哪一特性?A、準(zhǔn)確性B、完整性C、唯一性D、及時性【正確答案】:A解析:
這道題考察的是對數(shù)據(jù)質(zhì)量特性的理解。數(shù)據(jù)質(zhì)量包括多個方面,其中“準(zhǔn)確性”指的是數(shù)據(jù)值與其真實(shí)值之間的接近程度。在這個案例中,年齡記錄超出規(guī)定范圍(18到60歲)或被標(biāo)記為“N/A”,都被視為數(shù)據(jù)失效,這直接指向了數(shù)據(jù)準(zhǔn)確性的問題。因此,正確答案是A,即“準(zhǔn)確性”。31.下列CDC方案不具有侵入性的是()A、基于源數(shù)據(jù)B、基于快照C、基于日志D、基于觸發(fā)器【正確答案】:C解析:
這道題考察的是對數(shù)據(jù)變更捕獲(CDC)方案的理解。CDC技術(shù)用于捕獲數(shù)據(jù)庫中的數(shù)據(jù)變更,并將這些變更數(shù)據(jù)提供給其他系統(tǒng)或應(yīng)用。其中,“基于日志”的CDC方案是通過讀取數(shù)據(jù)庫的日志文件來獲取數(shù)據(jù)變更信息,這種方式不需要對數(shù)據(jù)庫進(jìn)行侵入性操作,如修改數(shù)據(jù)庫結(jié)構(gòu)或增加額外的數(shù)據(jù)庫負(fù)載。因此,選項(xiàng)C“基于日志”是不具有侵入性的CDC方案。32.下列關(guān)于轉(zhuǎn)換和作業(yè)說法不正確的是()A、轉(zhuǎn)換可以調(diào)用轉(zhuǎn)換B、作業(yè)可以調(diào)用轉(zhuǎn)換C、作業(yè)可以調(diào)用作業(yè)D、轉(zhuǎn)換可以調(diào)用作業(yè)【正確答案】:D解析:
這道題考察的是對ETL(提取、轉(zhuǎn)換、加載)過程中轉(zhuǎn)換和作業(yè)之間調(diào)用關(guān)系的理解。在ETL工具中,通常轉(zhuǎn)換是用來處理數(shù)據(jù)的,作業(yè)則是用來調(diào)度和管理任務(wù)的。轉(zhuǎn)換可以調(diào)用其他轉(zhuǎn)換,以實(shí)現(xiàn)復(fù)雜的數(shù)據(jù)處理邏輯,作業(yè)可以調(diào)用轉(zhuǎn)換來執(zhí)行數(shù)據(jù)處理任務(wù),也可以調(diào)用其他作業(yè)來組織和管理任務(wù)流程。但是,轉(zhuǎn)換通常不直接調(diào)用作業(yè),因?yàn)樽鳂I(yè)是用來控制和管理整個ETL流程的,而不是被單個轉(zhuǎn)換所調(diào)用。所以,選項(xiàng)D“轉(zhuǎn)換可以調(diào)用作業(yè)”是不正確的。33.以下說法錯誤的是()A、雪花模型有多個相互依賴的維表,加載時要注意先后順序B、雪花模型是在基于星型模型之上拓展來的,每一個維度可以再擴(kuò)散出更多的維度,根據(jù)維度的層級拆分成顆粒度不同的多張表C、雪花模型的主維表和次維表之間是N對1的關(guān)系D、事實(shí)表和維表之間通過業(yè)務(wù)鍵關(guān)聯(lián)【正確答案】:D解析:
這道題考察的是對數(shù)據(jù)倉庫中雪花模型的理解。雪花模型是數(shù)據(jù)倉庫設(shè)計(jì)中的一種模式,它擴(kuò)展了星型模型,允許維度表進(jìn)一步細(xì)分為更小的、更具體的表。A選項(xiàng)正確,雪花模型確實(shí)包含多個相互依賴的維表,加載時確實(shí)需要注意先后順序。B選項(xiàng)也正確,雪花模型是在星型模型的基礎(chǔ)上擴(kuò)展而來的,允許每個維度進(jìn)一步細(xì)分為更多的維度,形成顆粒度不同的多張表。C選項(xiàng)描述準(zhǔn)確,雪花模型中的主維表和次維表之間確實(shí)是N對1的關(guān)系,即多個次維表可以與一個主維表相關(guān)聯(lián)。D選項(xiàng)錯誤,事實(shí)表和維表之間通常是通過外鍵關(guān)聯(lián)的,而不是業(yè)務(wù)鍵。業(yè)務(wù)鍵是業(yè)務(wù)系統(tǒng)中的唯一標(biāo)識符,而外鍵是數(shù)據(jù)倉庫中用于關(guān)聯(lián)事實(shí)表和維表的鍵。因此,答案是D。34.下列哪個元字符標(biāo)識了單詞邊界()A、^B、$C、\BD、\b【正確答案】:D解析:
這道題考察的是正則表達(dá)式中的元字符知識點(diǎn)。在正則表達(dá)式中,元字符有特殊的意義,用于定義搜索或匹配文本的規(guī)則。對于單詞邊界的標(biāo)識,我們知道:-`^`表示行的開始。-`$`表示行的結(jié)束。-`\B`表示非單詞邊界。-`\b`正是表示單詞邊界。因此,根據(jù)題目要求,標(biāo)識單詞邊界的元字符是`\b`,所以正確答案是D。35.以下說法不正確的是()A、查找維度時,要正確的查找代理鍵B、查找維度時,注意數(shù)據(jù)完整性問題C、數(shù)據(jù)延遲指的就是維度表數(shù)據(jù)延遲D、先加載維度表,接著加載事實(shí)表【正確答案】:C解析:
這道題考察的是對數(shù)據(jù)倉庫中維度表相關(guān)操作的理解。在數(shù)據(jù)倉庫設(shè)計(jì)中,維度表是用來存儲維度的詳細(xì)信息的,而事實(shí)表存儲的是與維度相關(guān)的度量值。A選項(xiàng)提到“查找維度時,要正確的查找代理鍵”,這是正確的,因?yàn)榇礞I是維度表中用來唯一標(biāo)識每一行的鍵。B選項(xiàng)說“查找維度時,注意數(shù)據(jù)完整性問題”,這也是正確的,因?yàn)閿?shù)據(jù)完整性是數(shù)據(jù)倉庫設(shè)計(jì)中的一個重要考慮因素。C選項(xiàng)表述“數(shù)據(jù)延遲指的就是維度表數(shù)據(jù)延遲”,這是不正確的。數(shù)據(jù)延遲可以存在于維度表,也可以存在于事實(shí)表,或者兩者都存在。因此,不能將數(shù)據(jù)延遲僅僅歸結(jié)為維度表的數(shù)據(jù)延遲。D選項(xiàng)“先加載維度表,接著加載事實(shí)表”是正確的,因?yàn)樵跀?shù)據(jù)倉庫的加載過程中,通常需要先加載維度表,以便在加載事實(shí)表時能夠正確地關(guān)聯(lián)維度信息。綜上所述,不正確的說法是C選項(xiàng)。36.數(shù)據(jù)歸約的方法有()A、維歸約B、數(shù)量歸約C、數(shù)據(jù)壓縮D、以上都是【正確答案】:D37.數(shù)據(jù)集成的過程中需要處理的問題有()A、實(shí)體識別B、冗余與相關(guān)性分析。C、數(shù)據(jù)沖突和檢測D、以上都是【正確答案】:D38.轉(zhuǎn)換創(chuàng)建并保存后的文件后綴名是()A、*.ktrB、*.kpjC、*.kjrD、*.kjb【正確答案】:A解析:
這道題考察的是對特定軟件或工具操作后生成文件后綴名的了解。在多種軟件和工具中,執(zhí)行轉(zhuǎn)換操作并保存后,生成的文件通常會有特定的后綴名。根據(jù)常見的文件后綴名知識,轉(zhuǎn)換創(chuàng)建并保存后的文件后綴名往往是“.ktr”。這是因?yàn)樵诤芏鄳?yīng)用場景中,“.ktr”被用作表示轉(zhuǎn)換后文件的標(biāo)識。39.下列說法錯誤的是()A、數(shù)據(jù)倉庫就是數(shù)據(jù)庫。B、業(yè)務(wù)鍵通常來源于業(yè)務(wù)系統(tǒng)C、事實(shí)表加載前,先加載維表D、星型模型的各個維表之間沒有依賴關(guān)系【正確答案】:A解析:
這道題考察的是對數(shù)據(jù)倉庫相關(guān)概念的理解。數(shù)據(jù)倉庫與數(shù)據(jù)庫雖然都是存儲數(shù)據(jù)的,但它們在結(jié)構(gòu)、用途等方面存在顯著差異。業(yè)務(wù)鍵確實(shí)通常來源于業(yè)務(wù)系統(tǒng),用于標(biāo)識業(yè)務(wù)實(shí)體。在數(shù)據(jù)倉庫的加載過程中,通常先加載維表,再加載事實(shí)表,以確保數(shù)據(jù)的一致性。星型模型是一種常見的數(shù)據(jù)倉庫模型,其中各個維表之間確實(shí)沒有依賴關(guān)系,它們都是圍繞事實(shí)表展開的。因此,選項(xiàng)A的說法是錯誤的。40.學(xué)校要求新生家長填一份表格,里面要填寫學(xué)生的姓名.地址和出生日期。到新學(xué)期的第一周結(jié)束的時候,對表格中的“緊急聯(lián)系電話”這個字段進(jìn)行完整性度量。學(xué)校有300名學(xué)生,在300個潛在記錄中有294個記錄被填寫。此案例體現(xiàn)了數(shù)據(jù)質(zhì)量的哪一特性?()A、準(zhǔn)確性B、完整性C、唯一性D、一致性【正確答案】:B解析:
這道題考察的是對數(shù)據(jù)質(zhì)量特性的理解。數(shù)據(jù)質(zhì)量包括多個方面,其中“完整性”指的是數(shù)據(jù)的全面性和無缺失。根據(jù)題目描述,學(xué)校要求填寫的表格中“緊急聯(lián)系電話”這一字段,在300個潛在記錄中有294個被填寫,這體現(xiàn)了數(shù)據(jù)的完整性度量。因此,正確答案是B,即“完整性”。41.下列表達(dá)式不能匹配字符串a(chǎn)bc123的是()A、\w+B、\w{3,}C、\w{3,}\dD、\w{3,}+\d【正確答案】:D42.將兩個DataFrame串接在一起使用下列哪個方法()A、mergeB、concatC、joinD、get_dummies【正確答案】:B解析:
這道題考察的是對Pandas庫中DataFrame操作的理解。在Pandas中,`concat`函數(shù)用于沿著一條軸將多個對象堆疊到一起,這正是將兩個DataFrame串接在一起的操作。而`merge`用于根據(jù)一個或多個鍵將不同DataFrame的行連接起來,`join`也是用于合并兩個或多個DataFrame,但更多是基于索引的合并,`get_dummies`則是用于將分類變量轉(zhuǎn)換為啞變量/指示器變量。因此,正確答案是B。43.設(shè)df=pd.DataFrame(np.arange(12).reshape(3,4),index=range(3,0,-1)),下列哪個語句返回的值不為空()A、df.iloc[3:1]B、df.loc[3:1]C、df.iloc[1:1]D、df.loc[3:1:-1]【正確答案】:B解析:
這道題考察的是對pandas庫中DataFrame對象索引的理解。首先,我們創(chuàng)建一個DataFrame對象df,其索引為[3,2,1]。對于選項(xiàng)A,`df.iloc[3:1]`嘗試訪問不存在的索引3到1,返回空。對于選項(xiàng)B,`df.loc[3:1]`使用標(biāo)簽索引,返回索引3到1的所有行,即整個DataFrame,不為空。對于選項(xiàng)C,`df.iloc[1:1]`嘗試訪問索引1到1,但Python切片是左閉右開的,所以返回空。對于選項(xiàng)D,`df.loc[3:1:-1]`嘗試逆序訪問索引,但步長為-1時,起始索引應(yīng)小于結(jié)束索引,所以返回空。因此,正確答案是B。44.下列關(guān)于作業(yè)描述不正確的是()A、作業(yè)由作業(yè)項(xiàng).跳和注釋組成B、作業(yè)里不能設(shè)計(jì)循環(huán)路徑C、作業(yè)里必須包含一個且只能有一個START作業(yè)項(xiàng)D、作業(yè)項(xiàng)通常按定義的順序依次執(zhí)行【正確答案】:B解析:
這道題考察的是對作業(yè)(如計(jì)算機(jī)程序或生產(chǎn)流程中的作業(yè))的基本組成和規(guī)則的理解。A選項(xiàng)描述的是作業(yè)的基本組成,作業(yè)確實(shí)由作業(yè)項(xiàng)、跳和注釋組成,這是正確的。B選項(xiàng)說“作業(yè)里不能設(shè)計(jì)循環(huán)路徑”,這是不正確的。在實(shí)際應(yīng)用中,作業(yè)里是可以設(shè)計(jì)循環(huán)路徑的,比如循環(huán)執(zhí)行某個操作,直到滿足特定條件。C選項(xiàng)指出“作業(yè)里必須包含一個且只能有一個START作業(yè)項(xiàng)”,這是正確的。START作業(yè)項(xiàng)表示作業(yè)的開始,每個作業(yè)都應(yīng)該有一個明確的起點(diǎn)。D選項(xiàng)說“作業(yè)項(xiàng)通常按定義的順序依次執(zhí)行”,這也是正確的。作業(yè)項(xiàng)的執(zhí)行順序是根據(jù)作業(yè)的定義來確定的,通常按照定義的順序依次執(zhí)行。綜上所述,不正確的描述是B選項(xiàng)。45.以下說法錯誤的是()A、時間.日期維屬于生成維B、混合維較少用,實(shí)現(xiàn)比緩慢變化維中的類型1.類型2.類型3三種類型復(fù)雜。C、雜項(xiàng)維的屬性通??梢苑譃樘囟ǖ膸讉€分類D、類型2緩慢變化維,不會直接覆蓋以前的版本,每次更新會生成新的記錄【正確答案】:C解析:
這道題考察的是對數(shù)據(jù)倉庫中維度類型的理解。生成維通常是基于事務(wù)或事件的時間、日期等自然屬性構(gòu)建的,所以A選項(xiàng)正確。混合維確實(shí)實(shí)現(xiàn)起來較為復(fù)雜,不如緩慢變化維中的類型1、類型2、類型3直觀,因此B選項(xiàng)也是正確的。類型2緩慢變化維在更新時不會覆蓋舊版本,而是保留歷史記錄,生成新的記錄,D選項(xiàng)描述準(zhǔn)確。而C選項(xiàng)提到的“雜項(xiàng)維的屬性通??梢苑譃樘囟ǖ膸讉€分類”,這并不是一個普遍適用的規(guī)則,雜項(xiàng)維的屬性分類取決于具體的業(yè)務(wù)需求和設(shè)計(jì),因此C選項(xiàng)是錯誤的。46.下列哪個元字符表示非單詞字符()A、\wB、\WC、\dD、\s【正確答案】:B解析:
這道題考察的是正則表達(dá)式中的元字符含義。在正則表達(dá)式中,元字符具有特定的含義,用于匹配字符串中的特定模式。其中,`\w`表示匹配任何單詞字符,`\W`表示匹配任何非單詞字符,`\d`表示匹配任何數(shù)字,`\s`表示匹配任何空白字符。根據(jù)題目要求,表示非單詞字符的元字符是`\W`,因此正確答案是B。47.下列關(guān)于開始作業(yè)項(xiàng)描述不正確的是()A、一個作業(yè)中有且僅有一個開始作業(yè)項(xiàng)B、一個作業(yè)中至少有一個開始作業(yè)項(xiàng)C、開始作業(yè)項(xiàng)標(biāo)識了作業(yè)的起點(diǎn)D、開始作業(yè)項(xiàng)可以做定時調(diào)度【正確答案】:B解析:
這道題考察的是對作業(yè)調(diào)度中“開始作業(yè)項(xiàng)”概念的理解。在作業(yè)調(diào)度中,開始作業(yè)項(xiàng)是一個重要的概念,它標(biāo)識了作業(yè)的起點(diǎn),并且在一個作業(yè)中,開始作業(yè)項(xiàng)是唯一的,意味著一個作業(yè)只能有一個起點(diǎn)。同時,開始作業(yè)項(xiàng)也可以進(jìn)行定時調(diào)度,以滿足特定的作業(yè)執(zhí)行需求。根據(jù)這些知識點(diǎn),我們可以分析每個選項(xiàng):A.正確,一個作業(yè)中有且僅有一個開始作業(yè)項(xiàng),這是作業(yè)調(diào)度的基本要求。B.錯誤,一個作業(yè)中只能有一個開始作業(yè)項(xiàng),而不是“至少有一個”。C.正確,開始作業(yè)項(xiàng)確實(shí)標(biāo)識了作業(yè)的起點(diǎn),這是它的基本功能。D.正確,開始作業(yè)項(xiàng)可以進(jìn)行定時調(diào)度,以滿足特定的作業(yè)執(zhí)行時間要求。綜上所述,選項(xiàng)B描述不正確,因?yàn)樗`反了作業(yè)調(diào)度中關(guān)于開始作業(yè)項(xiàng)的唯一性原則。48.對多級索引數(shù)據(jù),Pandas的下列哪種方法將數(shù)據(jù)集的行旋轉(zhuǎn)為列()。A、stackB、unstackC、pivotD、replace【正確答案】:B解析:
這道題考察的是Pandas庫中處理多級索引數(shù)據(jù)的方法。在處理多級索引(也稱為層次化索引)時,`unstack`方法可以將數(shù)據(jù)的行旋轉(zhuǎn)為列,即將最內(nèi)層索引“旋轉(zhuǎn)”到列標(biāo)簽上,形成一個新的DataFrame。而`stack`方法則是將列旋轉(zhuǎn)為行,`pivot`用于重塑數(shù)據(jù),`replace`用于替換數(shù)據(jù)中的值。因此,正確答案是B。49.csv文件導(dǎo)入步驟不能處理以下什么哪種類型的文件()A、逗號分隔的文本文件B、兩個冒號分隔的文本文件C、分隔符是正則表達(dá)式[,,:;]的文本文件D、每個字段固定寬度的文本文件【正確答案】:D解析:
這道題考察的是對csv文件導(dǎo)入步驟的理解。csv文件導(dǎo)入主要處理的是分隔符分隔的文本文件。選項(xiàng)A是逗號分隔的文本文件,顯然csv可以處理。選項(xiàng)B是兩個冒號分隔的文本文件,通過設(shè)置分隔符為冒號,csv導(dǎo)入也能處理。選項(xiàng)C的分隔符是正則表達(dá)式[,,:;]的文本文件,意味著文件可以用逗號、冒號或分號作為分隔符,csv導(dǎo)入同樣可以處理。而選項(xiàng)D,每個字段固定寬度的文本文件,不是通過分隔符來分隔字段的,因此csv文件導(dǎo)入步驟不能處理這種類型的文件。50.在pandas的merge函數(shù)中,下列哪個參數(shù)用于設(shè)定重名列的后綴()A、onB、left_on.right_onC、left_index.right_indexD、suffixes【正確答案】:D解析:
這道題考察的是對pandas庫中merge函數(shù)參數(shù)的理解。在pandas的merge函數(shù)中,用于設(shè)定重名列的后綴的參數(shù)是'suffixes'。這個參數(shù)允許用戶為左右兩個DataFrame中相同的列名添加后綴,以便在合并后的DataFrame中區(qū)分這些列。因此,正確答案是D。51.下列方法不是數(shù)據(jù)變換的有()A、光滑B、抽樣C、規(guī)范化D、屬性構(gòu)造【正確答案】:B52.對多級索引數(shù)據(jù),Pandas的下列哪種方法將數(shù)據(jù)集的列旋轉(zhuǎn)為行()。A、stackB、unstackC、pivotD、replace【正確答案】:A解析:
這道題考察的是Pandas庫中處理多級索引數(shù)據(jù)的方法。在處理多級索引(也稱為層次化索引)時,`stack`方法可以將數(shù)據(jù)的列“壓縮”到行索引中去,實(shí)現(xiàn)列到行的轉(zhuǎn)換。而`unstack`方法則是將行索引“展開”到列中去,與題目要求相反。`pivot`方法用于重塑、透視或創(chuàng)建派生數(shù)據(jù)表,`replace`方法用于替換數(shù)據(jù)中的值。因此,根據(jù)題目要求,正確答案是A。53.下列關(guān)于pandas描述不正確的是()A、pandas是一個基于BSD開源協(xié)議的開源庫,提供了用于python編程語言的高性能.易于使用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。B、pandas是基于numpy構(gòu)建的C、pandas最早是作為金融數(shù)據(jù)分析工具而開發(fā)出來。D、pandas最擅長處理字符串,在實(shí)際開發(fā)中經(jīng)常用pandas來處理字符串【正確答案】:D解析:
這道題考察的是對pandas庫的理解。pandas確實(shí)是一個基于BSD開源協(xié)議的開源庫,提供了高性能、易于使用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具,所以A選項(xiàng)描述正確。pandas是基于numpy構(gòu)建的,用于處理和分析數(shù)據(jù),B選項(xiàng)也正確。pandas最初是作為金融數(shù)據(jù)分析工具而開發(fā)的,因此C選項(xiàng)描述也是準(zhǔn)確的。至于D選項(xiàng),pandas雖然可以處理字符串,但它最擅長的并不是處理字符串,而是數(shù)據(jù)處理和分析,因此D選項(xiàng)描述不正確。54.設(shè)df=pd.DataFrame(np.arange(12).reshape((3,4))),以下語句出錯的是()A、df[5]=12B、df[0]=df[1]>3C、df[2]=df[5]+1D、df[5]=[8,8,8]【正確答案】:C解析:
這道題考察的是對Pandas庫中DataFrame對象操作的理解。首先,我們創(chuàng)建一個3行4列的DataFrame對象df。接著分析每個選項(xiàng):A.`df[5]=12`:此操作嘗試給df添加一個新列,列名為5,所有值為12。這是合法的。B.`df[0]=df[1]>3`:此操作將df的第0列設(shè)置為df的第1列中大于3的元素對應(yīng)為True,否則為False。這也是合法的。C.`df[2]=df[5]+1`:在執(zhí)行此操作前,df中并不存在名為5的列,因此嘗試訪問`df[5]`會引發(fā)錯誤。所以,這個選項(xiàng)是錯誤的。D.`df[5]=[8,8,8]`:此操作嘗試給df添加一個新列,列名為5,值為[8,8,8]。這是合法的。綜上所述,選項(xiàng)C是錯誤的,因?yàn)樵趫?zhí)行該操作前,df中并不存在名為5的列。55.下列CDC方案可以實(shí)時監(jiān)測到源數(shù)據(jù)變化的是()A、基于源數(shù)據(jù)B、基于觸發(fā)器C、基于日志D、基于快照【正確答案】:B解析:
這道題考察的是對數(shù)據(jù)變更捕獲(CDC)方案的理解。在數(shù)據(jù)集成和同步領(lǐng)域,CDC技術(shù)用于捕獲源數(shù)據(jù)庫中的數(shù)據(jù)變化?;谟|發(fā)器的CDC方案通過在源數(shù)據(jù)庫上設(shè)置觸發(fā)器來實(shí)時監(jiān)測數(shù)據(jù)變化,每當(dāng)數(shù)據(jù)發(fā)生變化時,觸發(fā)器都會被激活并捕獲這些變化。因此,選項(xiàng)B“基于觸發(fā)器”是可以實(shí)時監(jiān)測到源數(shù)據(jù)變化的CDC方案。56.Kettle在讀取數(shù)據(jù)庫時,如果出現(xiàn)中文亂碼,可以設(shè)置以下哪個參數(shù)進(jìn)行解決()A、hostB、characterEncodingC、serverTimeZoneD、user【正確答案】:B解析:
這道題考察的是對Kettle讀取數(shù)據(jù)庫時中文亂碼問題的解決方法。在數(shù)據(jù)庫操作中,如果出現(xiàn)中文亂碼,通常是因?yàn)樽址幋a設(shè)置不正確。在Kettle中,可以通過設(shè)置`characterEncoding`參數(shù)來指定字符編碼,從而解決中文亂碼問題。因此,正確答案是B。57.下列CDC方案不能檢測到物理刪除的是()A、基于源數(shù)據(jù)B、基于快照C、基于日志D、基于觸發(fā)器【正確答案】:A解析:
這道題考察的是對數(shù)據(jù)變更捕獲(CDC)方案的理解。CDC技術(shù)用于捕獲數(shù)據(jù)庫中的數(shù)據(jù)變更,包括插入、更新和刪除操作。-A選項(xiàng)“基于源數(shù)據(jù)”:直接訪問源數(shù)據(jù)通常只能看到當(dāng)前的數(shù)據(jù)狀態(tài),無法直接檢測到歷史變更,包括物理刪除。-B選項(xiàng)“基于快照”:快照可以記錄某一時刻的數(shù)據(jù)狀態(tài),通過比較不同時間點(diǎn)的快照,可以檢測到物理刪除。-C選項(xiàng)“基于日志”:數(shù)據(jù)庫日志記錄了所有的數(shù)據(jù)變更操作,包括物理刪除,因此可以檢測到。-D選項(xiàng)“基于觸發(fā)器”:觸發(fā)器可以在數(shù)據(jù)變更時執(zhí)行特定的操作,包括記錄物理刪除事件,因此也能檢測到物理刪除。綜上所述,A選項(xiàng)“基于源數(shù)據(jù)”是不能檢測到物理刪除的CDC方案。58.一家工廠現(xiàn)有1000名在職職工。但職工數(shù)據(jù)庫顯示了1001份不同的職工記錄。其中兩條記錄除了名字王圓圓和王源源不同外,其他字段如住址.聯(lián)系方式等全部相同,可能是將該職工使用了曾用名。此案例體現(xiàn)了數(shù)據(jù)質(zhì)量的哪一特性?A、準(zhǔn)確性B、完整性C、唯一性D、及時性【正確答案】:C解析:
這道題考察的是對數(shù)據(jù)質(zhì)量特性的理解。數(shù)據(jù)質(zhì)量的特性包括準(zhǔn)確性、完整性、唯一性和及時性。在這個案例中,職工數(shù)據(jù)庫出現(xiàn)了重復(fù)記錄,即兩條除了名字不同外其他都相同的記錄,這明顯違反了數(shù)據(jù)的唯一性要求。唯一性要求數(shù)據(jù)庫中的每條記錄都是獨(dú)一無二的,不能有重復(fù)。因此,這個案例體現(xiàn)了數(shù)據(jù)質(zhì)量的唯一性特性。59.轉(zhuǎn)換里最基本的組成部分是(),它通過Hop(跳)進(jìn)行連接。A、數(shù)據(jù)行B、步驟C、作業(yè)項(xiàng)D、注釋【正確答案】:B解析:
這道題考察的是對轉(zhuǎn)換(Transformation)概念的理解。在數(shù)據(jù)處理或工作流管理中,轉(zhuǎn)換通常指的是一系列步驟或操作的集合,用于實(shí)現(xiàn)特定的數(shù)據(jù)處理或業(yè)務(wù)邏輯。在這些步驟之間,通常通過某種機(jī)制(如“跳”或“Hop”)進(jìn)行連接和控制流程。因此,轉(zhuǎn)換里最基本的組成部分是“步驟”,這些步驟通過“跳”進(jìn)行連接,以定義和執(zhí)行轉(zhuǎn)換的邏輯。60.作業(yè)創(chuàng)建并保存后的文件后綴名是()A、*.ktrB、*.kpjC、*.kjrD、*.kjb【正確答案】:D解析:
這道題考察的是對特定軟件或作業(yè)系統(tǒng)文件后綴名的了解。在多種作業(yè)創(chuàng)建和保存的場景中,文件后綴名用于標(biāo)識文件的類型或格式。根據(jù)常見的作業(yè)管理系統(tǒng)或相關(guān)軟件的文件命名規(guī)則,作業(yè)創(chuàng)建并保存后的文件通常使用“*.kjb”作為后綴名,這符合行業(yè)內(nèi)的標(biāo)準(zhǔn)命名習(xí)慣。61.在使用kettle讀取mysql數(shù)據(jù)庫時,下列做法不正確的是()A、將mysql連接器下載到kettle的lib目錄B、創(chuàng)建mysql數(shù)據(jù)庫連接C、如果啟動Kettle后,再mysql連接器已經(jīng)下載到kettle的lib目錄,可以不重啟kettle,直接創(chuàng)建數(shù)據(jù)庫連接D、創(chuàng)建mysql數(shù)據(jù)庫連接時,一定要指定連接的名稱【正確答案】:C解析:
這道題考察的是對Kettle讀取MySQL數(shù)據(jù)庫操作的理解。在使用Kettle時,確實(shí)需要將MySQL連接器下載到Kettle的lib目錄下,以便Kettle能夠識別并連接到MySQL數(shù)據(jù)庫,這是選項(xiàng)A的內(nèi)容,正確。接著,創(chuàng)建MySQL數(shù)據(jù)庫連接是使用Kettle進(jìn)行數(shù)據(jù)庫操作的基本步驟,這是選項(xiàng)B的內(nèi)容,也是正確的。在創(chuàng)建數(shù)據(jù)庫連接時,指定連接的名稱是一個好習(xí)慣,有助于在后續(xù)操作中快速識別和選擇數(shù)據(jù)庫連接,這是選項(xiàng)D的內(nèi)容,同樣正確。然而,如果MySQL連接器是在啟動Kettle之后才下載到lib目錄的,那么需要重啟Kettle,以便它能夠加載新的連接器,這是選項(xiàng)C的內(nèi)容,是不正確的。因此,答案是C。62.對于使用固定分隔符分隔的文本文件,不能使用下列哪個步驟進(jìn)行讀取()A、CSVfileinputB、FixedfileinputC、TextfileinputD、JavaScript【正確答案】:B解析:
這道題考察的是對文本文件讀取方法的理解。在處理使用固定分隔符分隔的文本文件時,通常會用到特定的讀取方法。CSVfileinput(A選項(xiàng))和Textfileinput(C選項(xiàng))都是常見的讀取固定分隔符文本文件的方法。而JavaScript(D選項(xiàng))作為一種編程語言,也提供了讀取和處理文本文件的能力。然而,F(xiàn)ixedfileinput(B選項(xiàng))通常指的是讀取固定長度字段的文件,而不是使用分隔符分隔的文件,因此不適用于本題描述的文本文件類型。所以正確答案是B。63.下列關(guān)于使用參照表清洗數(shù)據(jù)說法錯誤的是()A、有些數(shù)據(jù)無法從內(nèi)部發(fā)現(xiàn)錯誤,需要結(jié)合外部的數(shù)據(jù)進(jìn)行參照B、只要方法得當(dāng),數(shù)據(jù)內(nèi)部是可以發(fā)現(xiàn)錯誤的,不需要借助參照表C、使用參數(shù)表可以校驗(yàn)數(shù)據(jù)的準(zhǔn)確性D、使用參照表可以處理數(shù)據(jù)的一致性【正確答案】:B解析:
在數(shù)據(jù)清洗過程中,雖然通過適當(dāng)?shù)姆椒梢栽跀?shù)據(jù)內(nèi)部發(fā)現(xiàn)一些錯誤,但參照表的使用仍然是非常重要的。參照表不僅可以用來校驗(yàn)數(shù)據(jù)的準(zhǔn)確性,還可以幫助處理數(shù)據(jù)的一致性,特別是當(dāng)數(shù)據(jù)內(nèi)部檢查無法識別出所有錯誤時,外部參照數(shù)據(jù)往往能夠提供更多有價(jià)值的信息。因此,不能斷言不需要借助參照表。64.下列哪種方法基于一個或多個鍵連接多個DataFrame中的行()。A、pivotB、concatC、mergeD、combine_first【正確答案】:C解析:
這道題考察的是對Pandas庫中DataFrame操作的理解。在Pandas中,連接多個DataFrame的行通常使用幾種不同的方法。其中,`merge`函數(shù)是基于一個或多個鍵來連接不同的DataFrame的行,它類似于SQL中的JOIN操作。而`pivot`是用于重塑數(shù)據(jù)的,`concat`是沿著一條軸將多個對象堆疊到一起,`combine_first`則是用于合并兩個DataFrame,用第一個DataFrame中的非NA值填充第二個DataFrame中的NA值。因此,正確答案是C。65.下列哪個元字符表示非空白字符()A、\SB、\WC、\dD、\s【正確答案】:A解析:
這道題考察的是正則表達(dá)式中的元字符知識點(diǎn)。在正則表達(dá)式中,元字符有特定的含義,用于匹配特定的字符集合。其中,\S表示匹配任何非空白字符,包括字母、數(shù)字、標(biāo)點(diǎn)符號等;\W表示匹配任何非單詞字符,即除了字母、數(shù)字和下劃線以外的字符;\d表示匹配任何數(shù)字;\s表示匹配任何空白字符,如空格、制表符、換行符等。因此,根據(jù)題目要求,表示非空白字符的元字符是\S,所以答案是A。66.以下說法錯誤的是()A、數(shù)據(jù)預(yù)處理的主要流程為數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸約.B、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約這些步驟在數(shù)據(jù)預(yù)處理活動中必須順序使用。C、冗余數(shù)據(jù)的刪除既是一種數(shù)據(jù)清理形式,也是一種數(shù)據(jù)歸約。D、整個預(yù)處理過程要盡量人機(jī)結(jié)合,尤其要注重和客戶以及專家多交流?!菊_答案】:B解析:
這道題考察的是對數(shù)據(jù)預(yù)處理流程的理解。數(shù)據(jù)預(yù)處理確實(shí)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸約這些主要步驟。但這些步驟在實(shí)際操作中并不一定要嚴(yán)格按照順序執(zhí)行,可以根據(jù)具體的數(shù)據(jù)情況和需求靈活調(diào)整。因此,選項(xiàng)B的說法是錯誤的。其他選項(xiàng)A、C、D都是對數(shù)據(jù)預(yù)處理活動的正確描述。67.在一個轉(zhuǎn)換里,步驟的名稱要求具有唯一性,步驟與步驟之間的數(shù)據(jù)以()形式進(jìn)行傳遞。A、數(shù)據(jù)行B、變量C、結(jié)果對象D、參數(shù)【正確答案】:A解析:
這道題考察的是對轉(zhuǎn)換步驟間數(shù)據(jù)傳遞方式的理解。在數(shù)據(jù)處理或ETL(提取、轉(zhuǎn)換、加載)流程中,步驟之間的數(shù)據(jù)傳遞是一個核心環(huán)節(jié)。通常,數(shù)據(jù)在這些步驟間以“數(shù)據(jù)行”的形式進(jìn)行傳遞,確保數(shù)據(jù)的連續(xù)性和完整性。選項(xiàng)A“數(shù)據(jù)行”準(zhǔn)確描述了這一傳遞方式,而其他選項(xiàng)如變量、結(jié)果對象或參數(shù),雖然在數(shù)據(jù)處理中有所應(yīng)用,但不是步驟間數(shù)據(jù)傳遞的主要形式。因此,正確答案是A。68.設(shè)a=np.array([[1,2,3],[4,5]]),則a.shape的值是()A、(2,)B、2C、(2,2)D、(2,3)【正確答案】:A69.正則表達(dá)式[a-z].*?3可以配置abc3abc3a3幾次()A、0B、1C、2D、3【正確答案】:D解析:
這道題考察的是對正則表達(dá)式匹配規(guī)則的理解。正則表達(dá)式`[a-z].*?3`的含義是匹配以小寫字母開頭,后面跟著任意字符(包括0個),最后是一個數(shù)字3的字符串。在字符串"abc3abc3a3"中,這樣的模式出現(xiàn)了三次,分別是"abc3"、"abc3"和"a3",所以答案是D。70.kettle中用來進(jìn)行可視化編程的集成開發(fā)環(huán)境為()A、PanB、SpoonC、KitchenD、Carte【正確答案】:B解析:
這道題考察的是對Kettle工具中各個組件功能的了解。Kettle是一款開源的ETL工具,用于數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。其中,Spoon是Kettle提供的圖形界面工具,用于進(jìn)行可視化編程,它集成了開發(fā)環(huán)境,方便用戶通過拖拽和配置的方式設(shè)計(jì)ETL流程。因此,正確答案是B。71.在pandas中,read_json方法讀入json文本時,哪個參數(shù)指示了解釋json字符串的格式()A、orientB、typC、path_or_bufD、dtype【正確答案】:A解析:
這道題考察的是對pandas庫中read_json方法參數(shù)的理解。在pandas的read_json方法中,'orient'參數(shù)用于指示解釋json字符串的格式,它決定了DataFrame的行和列如何從json數(shù)據(jù)中解析出來。其他選項(xiàng),如'typ'、'path_or_buf'和'dtype',分別用于指定數(shù)據(jù)類型、文件路徑或緩沖區(qū)以及列的數(shù)據(jù)類型,與題目要求的解釋json字符串格式的功能不符。因此,正確答案是A。72.關(guān)于Dummy步驟說法錯誤的是()A、可以起一個臨時匯總的作用B、可以做為以測試為目的的占位符C、Dummy在實(shí)際開發(fā)中不會用到D、在實(shí)際開發(fā)中可能需要Dummy步驟【正確答案】:C解析:
這道題考察的是對Dummy步驟的理解。Dummy步驟在軟件開發(fā)中是一個常見的概念,它主要用于臨時匯總或作為測試目的的占位符。在實(shí)際開發(fā)中,Dummy步驟是有其應(yīng)用場景的,比如在進(jìn)行模塊測試或系統(tǒng)集成時,可能會使用Dummy步驟來模擬某些未完成的功能或數(shù)據(jù)。因此,選項(xiàng)C“Dummy在實(shí)際開發(fā)中不會用到”是錯誤的。73.在運(yùn)行轉(zhuǎn)換腳本時,如果發(fā)現(xiàn)最后的數(shù)據(jù)行數(shù)嚴(yán)重不足,可以借助下列哪個功能快速定位問題所在()A、查看步驟度量B、查看日志文件C、檢查數(shù)據(jù)源D、檢查字段類型【正確答案】:A解析:
這道題考察的是對數(shù)據(jù)處理過程中問題定位的理解。在運(yùn)行轉(zhuǎn)換腳本時,如果數(shù)據(jù)行數(shù)嚴(yán)重不足,通常意味著在某個處理步驟中出現(xiàn)了數(shù)據(jù)丟失。為了快速定位問題,需要查看每個步驟的處理度量,比如輸入行數(shù)、輸出行數(shù)等,從而確定是哪個步驟導(dǎo)致了數(shù)據(jù)丟失。因此,正確答案是A,查看步驟度量。1.在轉(zhuǎn)換中,只能定義單向執(zhí)行通道,不能設(shè)計(jì)成循環(huán)結(jié)構(gòu)。()A、正確B、錯誤【正確答案】:A解析:
在數(shù)據(jù)轉(zhuǎn)換或流程轉(zhuǎn)換中,單向執(zhí)行通道指的是信息或數(shù)據(jù)只能按照一個特定的方向流動,通常從起點(diǎn)到終點(diǎn),中間沒有循環(huán)或回溯的可能性。這種結(jié)構(gòu)確保了轉(zhuǎn)換過程的線性和一致性,有助于簡化流程和提高效率。循環(huán)結(jié)構(gòu)則允許數(shù)據(jù)或信息在達(dá)到某個點(diǎn)后重新返回并開始一個新的循環(huán),這可能導(dǎo)致數(shù)據(jù)處理變得復(fù)雜,并可能引入不必要的重復(fù)或循環(huán)依賴。在某些轉(zhuǎn)換場景中,為了避免數(shù)據(jù)重復(fù)處理或確保數(shù)據(jù)流的單向性,確實(shí)可能只設(shè)計(jì)單向執(zhí)行通道,而不使用循環(huán)結(jié)構(gòu)。然而,需要注意的是,這并不意味著在所有轉(zhuǎn)換中都絕對不能使用循環(huán)結(jié)構(gòu)。是否使用循環(huán)結(jié)構(gòu)取決于具體的轉(zhuǎn)換需求和場景。在某些情況下,循環(huán)結(jié)構(gòu)可能是必要的或有益的。因此,題目中的敘述“在轉(zhuǎn)換中,只能定義單向執(zhí)行通道,不能設(shè)計(jì)成循環(huán)結(jié)構(gòu)”是一個過于絕對的說法。實(shí)際上,是否使用單向執(zhí)行通道或循環(huán)結(jié)構(gòu)取決于具體的轉(zhuǎn)換需求和應(yīng)用場景。在某些轉(zhuǎn)換中,確實(shí)可能只能定義單向執(zhí)行通道,但這并不意味著在所有情況下都不能設(shè)計(jì)成循環(huán)結(jié)構(gòu)。2.在轉(zhuǎn)換或者作業(yè)中使用變量會增加腳本的復(fù)雜性,在開發(fā)過程中應(yīng)該盡量避免使用。()A、正確B、錯誤【正確答案】:B解析:
在編程和腳本編寫中,變量的使用是非?;A(chǔ)和重要的。變量能夠存儲和表示數(shù)據(jù),使得代碼更加靈活和可重用。通過使用變量,我們可以避免在代碼中重復(fù)硬編碼值,使得代碼更易于維護(hù)和修改。盡管使用變量可能會在一定程度上增加腳本的復(fù)雜性,但這種復(fù)雜性是必要和有益的,因?yàn)樗岣吡舜a的可讀性和可維護(hù)性。在轉(zhuǎn)換或作業(yè)中使用變量并不是應(yīng)該避免的事情,相反,它是編程中的一個基本和重要的工具。3.事務(wù)事實(shí)表記錄的是事務(wù)層面的事實(shí),保存的是最原子的數(shù)據(jù),也稱“原子事實(shí)表”。()A、正確B、錯誤【正確答案】:A解析:
事務(wù)事實(shí)表在數(shù)據(jù)倉庫中確實(shí)用于記錄事務(wù)層面的細(xì)節(jié)數(shù)據(jù),這些數(shù)據(jù)是最原子、最基礎(chǔ)的數(shù)據(jù)記錄,通常涵蓋了業(yè)務(wù)過程中的每一次具體活動或交易。這種事實(shí)表因其詳細(xì)和原子的特性,常被稱為“原子事實(shí)表”。事務(wù)事實(shí)表的設(shè)計(jì)和使用是數(shù)據(jù)倉庫構(gòu)建中非常關(guān)鍵的部分,它有助于用戶深入理解和分析業(yè)務(wù)活動的具體情況。4.在Kettle中,不存在單一的清洗步驟,清洗工作往往需要結(jié)合多個步驟才能組合完成。()A、正確B、錯誤【正確答案】:A解析:
在Kettle(也稱為PentahoDataIntegration)中,數(shù)據(jù)清洗通常是一個復(fù)雜的過程,它確實(shí)不是通過單一的步驟就能完成的。這些步驟常常需要根據(jù)實(shí)際數(shù)據(jù)情況和需求進(jìn)行組合和調(diào)整,以實(shí)現(xiàn)所需的數(shù)據(jù)清洗目標(biāo)。在Kettle中,清洗工作確實(shí)需要結(jié)合多個步驟才能組合完成。5.在進(jìn)行數(shù)據(jù)挖掘時,只要模型足夠好,就算訓(xùn)練的數(shù)據(jù)質(zhì)量不高,也能得到一個較好的模型()A、正確B、錯誤【正確答案】:B解析:
在進(jìn)行數(shù)據(jù)挖掘時,模型的好壞并不僅僅取決于模型本身的復(fù)雜性或優(yōu)化程度,更重要的是訓(xùn)練數(shù)據(jù)的質(zhì)量。因此,高質(zhì)量的訓(xùn)練數(shù)據(jù)是構(gòu)建好模型的關(guān)鍵。僅僅依賴一個好的模型而不注重?cái)?shù)據(jù)質(zhì)量,往往會導(dǎo)致模型在真實(shí)環(huán)境中表現(xiàn)不佳,出現(xiàn)過擬合、欠擬合等問題。在進(jìn)行數(shù)據(jù)挖掘時,除了需要選擇合適的模型并進(jìn)行優(yōu)化外,還需要確保訓(xùn)練數(shù)據(jù)的質(zhì)量和完整性,這樣才能得到一個較好的模型。6.pivot在調(diào)用時,如果遇到index/cloumn對不一唯一時,會報(bào)錯。()A、正確B、錯誤【正確答案】:A解析:
在數(shù)據(jù)處理和編程中,pivot操作通常用于將數(shù)據(jù)集從一種格式轉(zhuǎn)換為另一種格式,例如從長格式轉(zhuǎn)換為寬格式。在執(zhí)行pivot操作時,通常需要指定index(行索引)和columns(列名),以定義新數(shù)據(jù)集的結(jié)構(gòu)。如果指定的index/column對不是唯一的,也就是說,存在多個行具有相同的index和column組合,那么pivot操作通常會遇到問題,因?yàn)樗鼰o法確定如何將這些行合并成一個唯一的單元格。大多數(shù)數(shù)據(jù)處理庫或工具在這種情況下會報(bào)錯,因?yàn)樗鼈儫o法處理這種不明確的情況。當(dāng)執(zhí)行pivot操作時,如果遇到index/column對不唯一的情況,通常會報(bào)錯。7.pandas中,merge方法只能按列進(jìn)行連接。()A、正確B、錯誤【正確答案】:B解析:
在pandas中,`merge`方法確實(shí)主要是用于按列進(jìn)行連接,它可以根據(jù)兩個DataFrame之間的共同列進(jìn)行內(nèi)連接、外連接、左連接或右連接。然而,這并不意味著`merge`方法只能按列進(jìn)行連接。事實(shí)上,pandas提供了靈活的數(shù)據(jù)操作功能,雖然`merge`方法主要面向列的連接,但也可以結(jié)合其他方法,如`set_index`等,來實(shí)現(xiàn)基于行或其他條件的連接或匹配。`merge`方法主要用于按列進(jìn)行連接,但并不意味著它只能按列進(jìn)行連接。8.在kettle的設(shè)置界面,如果設(shè)置框的右邊帶有菱形的$符號,則可以在相應(yīng)設(shè)置框中使用變量引用()A、正確B、錯誤【正確答案】:A解析:
在Kettle這個ETL工具中,其界面設(shè)計(jì)往往包含了許多用于配置和設(shè)置的功能選項(xiàng)。其中,設(shè)置框旁邊的符號通常用來表示某種特定的功能或?qū)傩?。?dāng)設(shè)置框的右邊帶有菱形的$符號時,這通常意味著該設(shè)置框支持變量引用。變量引用在ETL過程中是非常有用的功能,它允許用戶定義一些可重復(fù)使用的值,并在需要的地方通過變量名來引用這些值。這樣做的好處是可以提高配置的靈活性和可維護(hù)性。在Kettle的設(shè)置界面,如果設(shè)置框的右邊帶有菱形的$符號,確實(shí)可以在相應(yīng)設(shè)置框中使用變量引用。9.星型模型匯中,事實(shí)表是模型的中心,外圍是若干張維表,每張維表都和事實(shí)表直接連接。()A、正確B、錯誤【正確答案】:A解析:
在星型模型中,事實(shí)表確實(shí)位于模型的中心,它存儲了關(guān)于業(yè)務(wù)過程的具體度量或事實(shí)。這些事實(shí)通常是通過聚合操作從底層詳細(xì)數(shù)據(jù)計(jì)算得出的。外圍的維表則提供了描述業(yè)務(wù)過程的上下文信息,如時間、地點(diǎn)、產(chǎn)品等。每張維表都與事實(shí)表直接連接,通過這種連接方式,可以方便地通過維表對事實(shí)表中的數(shù)據(jù)進(jìn)行切片和切塊操作,從而進(jìn)行多角度、多層次的數(shù)據(jù)分析。星型模型的設(shè)計(jì)使得數(shù)據(jù)查詢和分析變得高效且直觀,是數(shù)據(jù)倉庫中常用的一種數(shù)據(jù)模型。10.OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析.轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。()A、正確B、錯誤【正確答案】:A解析:
無需修改。11.在使用read_csv讀取文件時,如果sep指定為兩個字符,則會采用Python方式進(jìn)行數(shù)據(jù)解析。()A、正確B、錯誤【正確答案】:A解析:
在Python的pandas庫中,`read_csv`函數(shù)用于讀取CSV文件,其中`sep`參數(shù)是用來指定字段分隔符的。默認(rèn)情況下,`sep`是`,`,表示字段之間是由逗號分隔的。然而,關(guān)于`sep`參數(shù)的使用,需要澄清一點(diǎn):`sep`通常預(yù)期是一個單一的字符,作為字段之間的分隔符。在大多數(shù)CSV文件中,字段是由單一的字符(如逗號或制表符)分隔的。此外,`read_csv`函數(shù)在解析數(shù)據(jù)時采用的是C引擎或Python引擎,這通常是由函數(shù)的內(nèi)部邏輯自動選擇的,而不是由`sep`參數(shù)的兩個字符來決定的。C引擎通常更快,但在某些復(fù)雜或不規(guī)則的數(shù)據(jù)結(jié)構(gòu)下,可能會使用Python引擎作為備選方案。因此,題目中的敘述“在使用read_csv讀取文件時,如果sep指定為兩個字符,則會采用Python方式進(jìn)行數(shù)據(jù)解析”是不準(zhǔn)確的。`sep`參數(shù)不應(yīng)設(shè)置為兩個字符,且其值并不直接決定使用哪種引擎進(jìn)行解析。12.脫字符^有兩個作用,一個用于表示起始位置,另一個是用來對字符集取。()A、正確B、錯誤【正確答案】:A解析:
脫字符^在正則表達(dá)式中確實(shí)有兩個主要作用。首先,它常被用作表示一個字符串或行的起始位置。其次,它也可以用來對字符集進(jìn)行取反操作,即表示字符集中不包含該字符集內(nèi)的某個或某些字符。13.設(shè)a=np.arange(4);b=a.astype(a.type),因?yàn)閍的類型實(shí)際沒發(fā)生變化,為了提高性能,不會發(fā)生數(shù)據(jù)的復(fù)制。()A、正確B、錯誤【正確答案】:B14.數(shù)據(jù)清理試圖填充空缺的值、識別孤立點(diǎn)、消除噪聲,并糾正數(shù)據(jù)中的不一致性。()A、正確B、錯誤【正確答案】:A解析:
數(shù)據(jù)清理是數(shù)據(jù)處理中的一個重要步驟,主要目的是為了提高數(shù)據(jù)質(zhì)量。它包括一系列操作,如填充空缺的值、識別孤立點(diǎn)、消除噪聲以及糾正數(shù)據(jù)中的不一致性。填充空缺的值是數(shù)據(jù)清理中的一個關(guān)鍵步驟,用于處理數(shù)據(jù)集中的缺失值,通常使用均值、中位數(shù)、眾數(shù)或某種預(yù)測模型來填充這些缺失值。消除噪聲也是數(shù)據(jù)清理的一個重要方面,噪聲可能由于各種因素(如設(shè)備故障、環(huán)境因素等)引入數(shù)據(jù)集中,消除噪聲可以減少數(shù)據(jù)的不確定性。糾正數(shù)據(jù)中的不一致性同樣是數(shù)據(jù)清理的一個關(guān)鍵環(huán)節(jié),不一致性可能由于多種原因產(chǎn)生,如不同的數(shù)據(jù)輸入格式、單位不統(tǒng)一等,通過數(shù)據(jù)清理可以確保數(shù)據(jù)的一致性和準(zhǔn)確性。15.作業(yè)和轉(zhuǎn)換中的注釋對數(shù)據(jù)處理本身不具有任何意義,在設(shè)計(jì)過程中可以忽略它。()A、正確B、錯誤【正確答案】:B解析:
注釋在數(shù)據(jù)處理和程序設(shè)計(jì)過程中具有非常重要的意義,盡管它們不直接參與數(shù)據(jù)處理操作,但它們對于代碼的理解、維護(hù)和調(diào)試至關(guān)重要。注釋可以幫助開發(fā)人員和其他相關(guān)人員理解代碼的功能、邏輯和意圖,從而提高代碼的可讀性和可維護(hù)性。在作業(yè)和轉(zhuǎn)換過程中,注釋可以幫助記錄數(shù)據(jù)的來源、處理方法和轉(zhuǎn)換規(guī)則,這對于后續(xù)的數(shù)據(jù)分析和問題排查非常有幫助。如果忽略了注釋,可能會導(dǎo)致后續(xù)人員難以理解和使用這些數(shù)據(jù)和程序,增加了出錯的可能性。在設(shè)計(jì)過程中,注釋不僅不能被忽略,反而應(yīng)該被認(rèn)真對待和編寫。16.在“數(shù)據(jù)庫連接”窗口中,在一個作業(yè)或轉(zhuǎn)換范圍內(nèi)連接名稱不能重復(fù)。()A、正確B、錯誤【正確答案】:A解析:
在數(shù)據(jù)庫管理和處理中,每一個連接通常都有一個唯一的標(biāo)識,即連接名稱。因此,在“數(shù)據(jù)庫連接”窗口中,確保在一個作業(yè)或轉(zhuǎn)換范圍內(nèi)連接名稱的唯一性是非常重要的。這有助于保持?jǐn)?shù)據(jù)庫操作的準(zhǔn)確性和可靠性。17.pandas中,concat和merge方法的功能是一樣的,都是做數(shù)據(jù)集的合并。()A、正確B、錯誤【正確答案】:B解析:
在pandas庫中,`concat`和`merge`方法雖然都是用于處理數(shù)據(jù)集的合并,但它們的功能并不完全相同。`concat`方法主要用于沿著一條特定的軸連接兩個或多個pandas數(shù)據(jù)結(jié)構(gòu)(如Series、DataFrame等)。它可以按照行或列的方向進(jìn)行拼接,即將多個數(shù)據(jù)結(jié)構(gòu)堆疊在一起。這種方法并不考慮數(shù)據(jù)結(jié)構(gòu)之間的鍵(key)關(guān)系,只是簡單的拼接。而`merge`方法則是基于數(shù)據(jù)之間的共同列(或鍵)來進(jìn)行合并的。它類似于數(shù)據(jù)庫中的連接操作,可以根據(jù)一個或多個鍵將兩個數(shù)據(jù)集連接起來。在合并過程中,`merge`會考慮這些鍵的匹配情況,并據(jù)此生成新的數(shù)據(jù)集。因此,雖然`concat`和`merge`都可以用于數(shù)據(jù)集的合并,但它們的合并方式和應(yīng)用場景是不同的。題目中的敘述將這兩個方法的功能等同起來,這是不準(zhǔn)確的。18.CSV文件輸入步驟可以處理多個文件。()A、正確B、錯誤【正確答案】:B解析:
CSV文件輸入步驟通常是指將數(shù)據(jù)從CSV(逗號分隔值)文件中導(dǎo)入到某個系統(tǒng)或程序中的過程。這個過程通常是針對單一文件進(jìn)行操作的,即一次只能處理一個CSV文件。雖然技術(shù)上可以通過循環(huán)或批處理的方式連續(xù)處理多個CSV文件,但這通常涉及到多個步驟或多次操作,而不是單一的CSV文件輸入步驟。因此,題目中的敘述“CSV文件輸入步驟可以處理多個文件”是不準(zhǔn)確的。19.pandas中,merge方法連接的兩個表要求有相同的列名,或者不能連接。()A、正確B、錯誤【正確答案】:B解析:
在pandas中,merge方法用于連接兩個DataFrame對象,并不要求兩個表必須有完全相同的列名才能進(jìn)行連接。實(shí)際上,merge方法主要通過指定的列(或索引)來對齊數(shù)據(jù),這些列可以具有不同的列名,只需要在調(diào)用merge方法時明確指定哪些列用于連接即可。merge方法的關(guān)鍵參數(shù)包括'left_on'、'right_on'、'how'等,其中'left_on'和'right_on'參數(shù)分別用于指定左側(cè)和右側(cè)DataFrame中用于連接的列。如果兩個DataFrame中用于連接的列具有相同的列名,則可以直接使用'on'參數(shù)來指定。如果列名不同,則需要分別使用'left_on'和'right_on'參數(shù)來指定。20.在作業(yè)設(shè)計(jì)中,作業(yè)項(xiàng)必須要求有唯一的名字。()A、正確B、錯誤【正確答案】:B解析:
在作業(yè)設(shè)計(jì)中,雖然為作業(yè)項(xiàng)提供一個清晰、明確的名稱是有幫助的,以便于學(xué)生理解和識別,但并不是每個作業(yè)項(xiàng)都必須要有唯一的名字。作業(yè)設(shè)計(jì)更注重的是作業(yè)內(nèi)容的質(zhì)量、難度、與課程目標(biāo)的契合度等方面,而作業(yè)項(xiàng)的名字并不是絕對必要的。有時候,同一類型的作業(yè)項(xiàng)可能會使用相同的名稱,或者不同的作業(yè)項(xiàng)可能使用相似的名稱來描述它們的主要特征或要求。作業(yè)設(shè)計(jì)中,作業(yè)項(xiàng)的名字并非必須要求唯一,重要的是作業(yè)的內(nèi)容和質(zhì)量。21.ndarray的size屬性是看數(shù)組占有多少內(nèi)存空間。()A、正確B、錯誤【正確答案】:B解析:
在NumPy庫中,`ndarray`的`size`屬性并不表示數(shù)組占用的內(nèi)存空間大小。`size`屬性返回的是數(shù)組中所有元素的個數(shù),即`shape`屬性中各個維度大小的乘積。如果要查看數(shù)組占用的內(nèi)存空間大小,通常會使用`nbytes`屬性,該屬性返回的是數(shù)組元素在內(nèi)存中占用的字節(jié)數(shù)。`nbytes`的計(jì)算基于數(shù)組元素的類型和數(shù)據(jù)量。`ndarray`的`size`屬性并不表示數(shù)組占有的內(nèi)存空間。22.對ndarray的切片是原始數(shù)組的視圖,數(shù)據(jù)不會被復(fù)制。()A、正確B、錯誤【正確答案】:A解析:
這道題正確,因?yàn)閷darray的切片操作確實(shí)是返回原始數(shù)組的視圖,不會復(fù)制數(shù)據(jù),修改切片內(nèi)容會影響原始數(shù)組。23.Pandas在讀取文件時,read_csv讀取帶分隔符的數(shù)據(jù),read_table是讀取數(shù)據(jù)庫的表。()A、正確B、錯誤【正確答案】:B解析:
Pandas是一個強(qiáng)大的Python數(shù)據(jù)分析庫,它提供了多種函數(shù)用于讀取不同類型的數(shù)據(jù)文件。其中,`read_csv`函數(shù)主要用于讀取以逗號(或其他指定分隔符)分隔的CSV文件。而`read_table`函數(shù)實(shí)際上也是用于讀取文本文件,其默認(rèn)的分隔符是制表符(tab),但也可以設(shè)置為其他分隔符。它并不是專門用來讀取數(shù)據(jù)庫的表。對于從數(shù)據(jù)庫中讀取數(shù)據(jù),Pandas通常使用SQL查詢語句結(jié)合數(shù)據(jù)庫連接來實(shí)現(xiàn)。`read_table`并不是用來讀取數(shù)據(jù)庫的表,而是用來讀取特定分隔符(默認(rèn)為制表符)分隔的文本文件。24.Kettle提供了大量的數(shù)據(jù)清洗步驟,沒有必要再使用腳本組件來做數(shù)據(jù)清理。()A、正確B、錯誤【正確答案】:B解析:
Kettle確實(shí)提供了大量的數(shù)據(jù)清洗步驟,這些步驟可以大大簡化數(shù)據(jù)清洗的過程。然而,這并不意味著沒有必要再使用腳本組件。在某些復(fù)雜的清洗任務(wù)或特定的業(yè)務(wù)邏輯下,腳本組件(如JavaScript、Python等)可能提供更大的靈活性和控制力。使用腳本組件,用戶可以自定義清洗邏輯,處理復(fù)雜的數(shù)據(jù)結(jié)構(gòu)或執(zhí)行特定的數(shù)據(jù)轉(zhuǎn)換。這些功能可能超出了Kettle內(nèi)置步驟的能力范圍。因此,雖然Kettle提供了豐富的數(shù)據(jù)清洗步驟,但在某些情況下,使用腳本組件進(jìn)行數(shù)據(jù)清洗仍然是必要的。25.文本文件輸入步驟可以處理多個文件。()A、正確B、錯誤【正確答案】:A解析:
文本文件輸入步驟通常指的是在計(jì)算機(jī)程序中讀取和處理文本文件的過程。這個過程可以針對單個文件進(jìn)行,也可以針對多個文件進(jìn)行。當(dāng)需要處理多個文件時,可以通過循環(huán)或其他編程結(jié)構(gòu)來依次讀取和處理每個文件。26.在使用cut函數(shù)進(jìn)行數(shù)據(jù)離散化時,只能指定邊界值來劃分面元。()A、正確B、錯誤【正確答案】:B解析:
在使用cut函數(shù)進(jìn)行數(shù)據(jù)離散化時,不僅能指定邊界值來劃分面元,還能通過指定面元數(shù)量等方式來劃分。27.Kettle中的步驟是順序執(zhí)行的。()A、正確B、錯誤【正確答案】:B解析:
Kettle中的步驟可以配置為順序執(zhí)行,也可以配置為并行執(zhí)行。28.在獲取數(shù)據(jù)時,我們一般會找一些權(quán)威機(jī)構(gòu)獲取數(shù)據(jù),這主要體現(xiàn)了數(shù)據(jù)的相關(guān)性()A、正確B、錯誤【正確答案】:B解析:
在獲取數(shù)據(jù)時,選擇權(quán)威機(jī)構(gòu)作為數(shù)據(jù)來源,這主要體現(xiàn)的是數(shù)據(jù)的可靠性和準(zhǔn)確性,而非數(shù)據(jù)的相關(guān)性。數(shù)據(jù)的相關(guān)性是指兩個或多個變量之間存在的關(guān)聯(lián)性或相互依賴的程度。而權(quán)威機(jī)構(gòu)提供的數(shù)據(jù)往往被認(rèn)為是可信的,因?yàn)樗鼈兘?jīng)過了專業(yè)的收集、分析和驗(yàn)證。在獲取數(shù)據(jù)時找權(quán)威機(jī)構(gòu)獲取,這主要體現(xiàn)的是數(shù)據(jù)的可靠性和準(zhǔn)確性,而不是數(shù)據(jù)的相關(guān)性。29.運(yùn)行轉(zhuǎn)換或者作業(yè)時,無論在什么時候都應(yīng)該把日志級別設(shè)置到盡可能詳細(xì),這樣方便程序的維護(hù)及查錯。()A、正確B、錯誤【正確答案】:B解析:
雖然詳細(xì)的日志級別可以提供更多的信息,有助于程序的維護(hù)和查錯,但在運(yùn)行轉(zhuǎn)換或作業(yè)時,并不是在任何時候都應(yīng)該把日志級別設(shè)置到盡可能詳細(xì)。這是因?yàn)檫^于詳細(xì)的日志記錄可能會產(chǎn)生大量的日志數(shù)據(jù),這既會占用大量的存儲空間,又可能影響程序的性能。因此,通常的做法是,在開發(fā)或調(diào)試階段將日志級別設(shè)置為較詳細(xì)的級別,以便及時發(fā)現(xiàn)和解決問題。而在生產(chǎn)環(huán)境或正常運(yùn)行時,應(yīng)適當(dāng)降低日志級別,以減少日志數(shù)據(jù)量,提高程序性能。30.在一個作業(yè)中,有且僅有一個START作業(yè)項(xiàng),它標(biāo)識了作業(yè)的執(zhí)行起點(diǎn)。()A、正確B、錯誤【正確答案】:A解析:
在作業(yè)管理中,每個作業(yè)通常都會有一個明確的開始點(diǎn),即START作業(yè)項(xiàng)。這個作業(yè)項(xiàng)標(biāo)識了作業(yè)的執(zhí)行起點(diǎn),是作業(yè)執(zhí)行流程的開始。一個作業(yè)中確實(shí)有且僅有一個START作業(yè)項(xiàng),用以標(biāo)識作業(yè)的執(zhí)行起點(diǎn)。31.pivot方法可以指定不同的聚合方式。()A、正確B、錯誤【正確答案】:B解析:
在數(shù)據(jù)分析和處理中,`pivot`方法通常用于重新排列數(shù)據(jù)集的結(jié)構(gòu),而不是用于指定聚合方式。它通常用于將行轉(zhuǎn)換為列或?qū)⒘修D(zhuǎn)換為行,以便更好地展示或分析數(shù)據(jù)。聚合方式(如求和、平均值、計(jì)數(shù)等)通常是通過其他方法或函數(shù)來指定的,比如`groupby`后的聚合函數(shù)。`pivot`方法本身并不提供指定不同聚合方式的功能。32.在作業(yè)項(xiàng)之間,數(shù)據(jù)以結(jié)果對象的方式進(jìn)行傳遞。A、正確B、錯誤【正確答案】:A解析:
在編程和軟件開發(fā)中,數(shù)據(jù)確實(shí)經(jīng)常以對象的形式在作業(yè)項(xiàng)或模塊之間進(jìn)行傳遞。33.“去除重復(fù)記錄(哈希)”步驟可以對沒排序的數(shù)據(jù)集進(jìn)行排重。()A、正確B、錯誤【正確答案】:A解析:
哈希技術(shù)是一種用于處理大量數(shù)據(jù)的方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東外語外貿(mào)大學(xué)南國商學(xué)院《國際結(jié)算B》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東食品藥品職業(yè)學(xué)院《測試技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東生態(tài)工程職業(yè)學(xué)院《資源環(huán)境統(tǒng)計(jì)分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 二年級數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)
- 【2021屆備考】2020全國名校數(shù)學(xué)試題分類解析匯編(12月第一期):E5簡單的線性規(guī)劃問題
- 2021年高考生物(人教版)一輪復(fù)習(xí)強(qiáng)化練習(xí):生命活動的主要承擔(dān)者-蛋白質(zhì)
- 【名師一號】2021年新課標(biāo)版歷史選修2-單元測試2
- 2025年人教版七年級數(shù)學(xué)寒假預(yù)習(xí) 第07講 實(shí)數(shù)及其簡單計(jì)算
- 2021年高考語文考點(diǎn)總動員專題65-鑒賞文學(xué)作品的形象、語言和表達(dá)技巧之語言風(fēng)格(解析版)
- 2021年高考語文二輪復(fù)習(xí)講練測專題02-識記現(xiàn)代漢語字形(測)(解析版)
- DB11T 489-2024 建筑基坑支護(hù)技術(shù)規(guī)程
- 乳腺腔鏡手術(shù)介紹
- 服裝的生產(chǎn)方案
- JTGT F20-2015 公路路面基層施工技術(shù)細(xì)則
- 機(jī)械加工廠計(jì)劃管理
- 《美術(shù)策展方案》課件
- 數(shù)學(xué)寒假計(jì)劃書
- 幼兒教師專業(yè)發(fā)展及《幼兒園教師專業(yè)標(biāo)準(zhǔn)》解讀課件
- 云南保山電力股份有限公司招聘筆試題庫
- 銀行業(yè)聲譽(yù)風(fēng)險(xiǎn)管理培訓(xùn)
- 2024新能源風(fēng)電場集電線路施工方案
評論
0/150
提交評論