版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、項(xiàng)目編號(hào)INFO-115-C01文檔編號(hào)TR-REC-012中國(guó)科學(xué)院數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)數(shù)據(jù)資源加工指導(dǎo)規(guī)范(征求意見(jiàn)稿)中國(guó)科學(xué)院數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)項(xiàng)目組2009年12月i目錄范圍規(guī)范性引用文件術(shù)語(yǔ)和定義科學(xué)數(shù)據(jù)資源元數(shù)據(jù)數(shù)據(jù)類(lèi)型數(shù)據(jù)集數(shù)據(jù)項(xiàng)數(shù)據(jù)產(chǎn)品數(shù)據(jù)資源加工科學(xué)數(shù)據(jù)資源加工總體要求數(shù)據(jù)資源加工內(nèi)涵數(shù)據(jù)資源采集加工指導(dǎo)思想和一般原則統(tǒng)一領(lǐng)導(dǎo),統(tǒng)籌規(guī)劃突出重點(diǎn),注重基礎(chǔ)需求導(dǎo)向、務(wù)求實(shí)效前瞻性、科學(xué)性延續(xù)性組織管理文件要求數(shù)據(jù)名定數(shù)據(jù)資源加工流程過(guò)程策劃.二二數(shù)據(jù)采集數(shù)據(jù)采集的原則數(shù)據(jù)采集錄入的技術(shù)要求數(shù)據(jù)采集工作流程數(shù)據(jù)錄入數(shù)據(jù)采集錄入的技術(shù)要求數(shù)據(jù)采集錄入的方法原始數(shù)據(jù)的保存來(lái)源
2、篩選原始數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理數(shù)據(jù)t理數(shù)據(jù)集成消除冗余數(shù)據(jù)變換數(shù)據(jù)U3約數(shù)據(jù)加工模型和算法數(shù)據(jù)處理加工與產(chǎn)品生產(chǎn)數(shù)據(jù)加工的級(jí)別數(shù)據(jù)加工處理的原則數(shù)據(jù)加工處理的技術(shù)要求數(shù)據(jù)審核數(shù)據(jù)更新數(shù)據(jù)資源加工指導(dǎo)規(guī)范范圍本規(guī)范提出中國(guó)科學(xué)院數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)項(xiàng)目中科學(xué)數(shù)據(jù)資源采集加工過(guò)程的規(guī)范化要求,包括對(duì)組織管理方面的要求、文檔方面的要求、數(shù)據(jù)約定和數(shù)據(jù)采集加工流程方面的要求等。本規(guī)范是對(duì)中國(guó)科學(xué)院數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)項(xiàng)目中數(shù)據(jù)采集加工過(guò)程的指導(dǎo)性規(guī)范,適用于項(xiàng)目?jī)?nèi)各類(lèi)數(shù)據(jù)資源的采集、加工或更新,各數(shù)據(jù)庫(kù)主要承擔(dān)建設(shè)單位應(yīng)參照本規(guī)范建立本數(shù)據(jù)庫(kù)的實(shí)施細(xì)則。規(guī)范性引用文件F列規(guī)范性引用文件通過(guò)本部分的引用而
3、成為本規(guī)范的條款。凡是注日期的引用文件,其隨后所有的修改(不包括勘誤的內(nèi)容)或修訂版均不適用于本規(guī)范。但是,鼓勵(lì)根據(jù)本規(guī)范達(dá)成協(xié)議的各方,研究是否可使用這些文件的新版本。凡是不注日期的引用文件,其新版本適用于本規(guī)范。TR-REC-014科學(xué)數(shù)據(jù)庫(kù)核心元數(shù)據(jù)標(biāo)準(zhǔn)TR-REC-017唯一標(biāo)識(shí)符規(guī)范TR-REC-018科學(xué)數(shù)據(jù)分類(lèi)規(guī)范與分類(lèi)詞表TR-REC-062數(shù)據(jù)庫(kù)建設(shè)技術(shù)文檔參考規(guī)范術(shù)語(yǔ)和定義科學(xué)數(shù)據(jù)資源科學(xué)數(shù)據(jù)資源是科技活動(dòng)或通過(guò)其它方式所獲取到的反映客觀世界的本質(zhì)、特征、變化規(guī)律等的原始基本數(shù)據(jù),以及根據(jù)不同科技活動(dòng)需要,進(jìn)行系統(tǒng)加工整理的各類(lèi)數(shù)據(jù)集,用于支撐科研活動(dòng)的科學(xué)數(shù)據(jù)的集合。元數(shù)
4、據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù)。數(shù)據(jù)類(lèi)型對(duì)數(shù)據(jù)的有效值域及對(duì)該值域中的值所允許的操作的規(guī)定。例如,整型、實(shí)型、布爾型、日期類(lèi)型、字符串類(lèi)型等。數(shù)據(jù)集由相關(guān)數(shù)據(jù)組成的可標(biāo)識(shí)集合。數(shù)據(jù)集的大小在理論上是不確定的,一個(gè)簡(jiǎn)單的數(shù)據(jù)表可以成為一個(gè)數(shù)據(jù)庫(kù)集,幾個(gè)相同類(lèi)型的表也可以被成為一個(gè)數(shù)據(jù)集。數(shù)據(jù)項(xiàng)屬性數(shù)據(jù)中不可再分的小的單元。數(shù)據(jù)產(chǎn)品數(shù)據(jù)產(chǎn)品是遵從統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行集成、加工、處理后生成的新的數(shù)據(jù)集。該數(shù)據(jù)集的生產(chǎn)過(guò)程和數(shù)據(jù)質(zhì)量控制措施可以被人工或計(jì)算機(jī)詳細(xì)描述、記錄,可被其他人或計(jì)算機(jī)重復(fù)操作。數(shù)據(jù)產(chǎn)品揭示數(shù)據(jù)間的內(nèi)在聯(lián)系,通過(guò)重新組合和再分析,表征某一規(guī)律性的現(xiàn)象或過(guò)程。數(shù)據(jù)資源加工生成數(shù)據(jù)產(chǎn)品的
5、過(guò)程,包括數(shù)據(jù)加工模型、數(shù)據(jù)處理過(guò)程、數(shù)據(jù)產(chǎn)品質(zhì)量評(píng)價(jià)等內(nèi)容??茖W(xué)數(shù)據(jù)資源加工總體要求數(shù)據(jù)資源采集加工過(guò)程中,數(shù)據(jù)庫(kù)承建單位應(yīng)采用數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)項(xiàng)目發(fā)布的有關(guān)標(biāo)準(zhǔn)規(guī)范,以及相關(guān)的國(guó)家標(biāo)準(zhǔn)、國(guó)際標(biāo)準(zhǔn)、學(xué)科領(lǐng)域標(biāo)準(zhǔn)規(guī)范或其應(yīng)用方案,完成對(duì)采集加工工作的組織管理、制訂數(shù)據(jù)約,規(guī)劃數(shù)據(jù)資源加工流程,并嚴(yán)格貫徹實(shí)施,保質(zhì)保量完成數(shù)據(jù)采集加工任務(wù)。對(duì)科學(xué)數(shù)據(jù)資源采集加工工作的要求包括多個(gè)方面,它規(guī)范人員操作,設(shè)備要求,數(shù)據(jù)采集、錄入、篩選清理、預(yù)處理、處理加工、審核與更新等流程,是科學(xué)數(shù)據(jù)資源高質(zhì)量建設(shè)的有效保障。數(shù)據(jù)資源加工內(nèi)涵數(shù)據(jù)產(chǎn)品具有增值的普遍特征。作為數(shù)據(jù)產(chǎn)品,必須是經(jīng)過(guò)實(shí)質(zhì)性加工、具有
6、智力投入的成果。有的數(shù)據(jù)雖然表達(dá)形式變化了,但由于沒(méi)有進(jìn)行實(shí)質(zhì)性加工和智力投入,并未有效提高數(shù)據(jù)資源的信息量,也不能稱(chēng)之為數(shù)據(jù)資源加工。數(shù)據(jù)資源采集加工指導(dǎo)思想和一般原則統(tǒng)一領(lǐng)導(dǎo),統(tǒng)籌規(guī)劃數(shù)據(jù)資源采集加工工作應(yīng)在數(shù)據(jù)庫(kù)牽頭建設(shè)單位的領(lǐng)導(dǎo)下,統(tǒng)一決策,同一數(shù)據(jù)庫(kù)范圍內(nèi)工作方法統(tǒng)一,技術(shù)指標(biāo)統(tǒng)一,從而達(dá)成數(shù)據(jù)產(chǎn)品的一致性。突由重點(diǎn),注重基礎(chǔ)數(shù)據(jù)資源的內(nèi)容選擇應(yīng)在突出重點(diǎn)和注重基礎(chǔ)兩者之前取得平衡。數(shù)據(jù)庫(kù)承建單位應(yīng)根據(jù)當(dāng)前具備的工作基礎(chǔ)以及國(guó)內(nèi)外相關(guān)數(shù)據(jù)庫(kù)建設(shè)情況,確定所承建數(shù)據(jù)資源的特點(diǎn)和重點(diǎn)內(nèi)容,對(duì)重點(diǎn)內(nèi)容加以重視,適當(dāng)提高質(zhì)量規(guī)格。同事,數(shù)據(jù)庫(kù)承建單位應(yīng)注重基礎(chǔ)性和共性數(shù)據(jù)的建設(shè),確保所承建數(shù)
7、據(jù)資源的廣度,提升所承建數(shù)據(jù)資源的通用性、易用性,保證數(shù)據(jù)資源具有一定的用戶(hù)范圍。需求導(dǎo)向、務(wù)求實(shí)效確定資源采集的內(nèi)容和范圍時(shí),既要考慮數(shù)據(jù)資源單位的數(shù)據(jù)資源特點(diǎn)以及工作的復(fù)雜、難易程度,不能選取太多,過(guò)于復(fù)雜不便實(shí)際使用;又要充分滿(mǎn)足工程建設(shè)以及用戶(hù)的查詢(xún)、使用數(shù)據(jù)的需要,不能過(guò)于簡(jiǎn)單。數(shù)據(jù)資源建設(shè)工作應(yīng)當(dāng)切實(shí)以用戶(hù)需求為導(dǎo)向,以應(yīng)用為目標(biāo),做真正用戶(hù)需要的數(shù)據(jù),而不是盲目地?cái)U(kuò)大數(shù)據(jù)內(nèi)容范圍和提升技術(shù)指標(biāo)。前瞻性、科學(xué)性資源采集加工的內(nèi)容不但要滿(mǎn)足現(xiàn)階段科學(xué)數(shù)據(jù)資源的使用需求,更應(yīng)該考慮將來(lái)一定時(shí)間內(nèi)由于科技快速發(fā)展等原因可能產(chǎn)生的數(shù)據(jù)資源應(yīng)用需求,這樣建立的數(shù)據(jù)資源才會(huì)更有生命力。確定數(shù)據(jù)
8、資源采集范圍時(shí),可以積極采用國(guó)內(nèi)和國(guó)外先進(jìn)標(biāo)準(zhǔn)。延續(xù)性對(duì)于連續(xù)采集數(shù)據(jù),數(shù)據(jù)采集加工的內(nèi)容應(yīng)在一定時(shí)間范圍內(nèi)具有較好的延續(xù)性,使數(shù)據(jù)資源建設(shè)的內(nèi)容相對(duì)保持穩(wěn)定,增加數(shù)據(jù)的時(shí)間可比性,數(shù)據(jù)資源采集加工的內(nèi)容確定應(yīng)相對(duì)慎重,不斷地增刪數(shù)據(jù)內(nèi)容對(duì)數(shù)據(jù)資源積累形成信息造成很大的負(fù)面影響。組織管理數(shù)據(jù)庫(kù)主要承建單位負(fù)責(zé)所承建數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)資源采集加工過(guò)程的領(lǐng)導(dǎo)、組織、協(xié)調(diào)和管理。數(shù)據(jù)庫(kù)各參加建設(shè)單位共同承擔(dān)所承建數(shù)據(jù)庫(kù)的數(shù)據(jù)采集加工工作。數(shù)據(jù)采集和加工承擔(dān)人員應(yīng)具備以下條件:具有一定的政治素質(zhì),愛(ài)崗敬業(yè),工作認(rèn)真負(fù)責(zé),細(xì)致嚴(yán)謹(jǐn),熟練掌握數(shù)據(jù)采集和加工過(guò)程所需的學(xué)科領(lǐng)域知識(shí)和計(jì)算機(jī)技術(shù)。文件要求為保證所承建
9、數(shù)據(jù)庫(kù)數(shù)據(jù)資源采集加工過(guò)程規(guī)范健壯,降低人為因素的影響,使標(biāo)準(zhǔn)的技術(shù)方法長(zhǎng)期延續(xù)并加深項(xiàng)目主管單位和用戶(hù)對(duì)數(shù)據(jù)資源的了解,數(shù)據(jù)庫(kù)承建單位應(yīng)將所所承建數(shù)據(jù)庫(kù)在采集加工過(guò)程中所采取的政策措施,標(biāo)準(zhǔn)的流程、技術(shù)和方法等形成數(shù)據(jù)資源采集整理工作指南,并發(fā)布實(shí)施,同時(shí),還應(yīng)對(duì)數(shù)據(jù)資源采集加工過(guò)程的執(zhí)行情況建立加以記錄。適用時(shí),數(shù)據(jù)資源采集整理工作指南應(yīng)包括以下內(nèi)容:數(shù)據(jù)來(lái)源說(shuō)明,如資料列表,數(shù)據(jù)準(zhǔn)入原則等數(shù)據(jù)約定,對(duì)擬建數(shù)據(jù)庫(kù)規(guī)格的約定,包括數(shù)據(jù)采集的文件格式,數(shù)據(jù)庫(kù)模型,指標(biāo)設(shè)置,各項(xiàng)指標(biāo)的定義、公式、測(cè)量方法、精度要求,以及數(shù)據(jù)采集所使用的樣表等。數(shù)據(jù)采集加工的過(guò)程要求,為保證數(shù)據(jù)資源采集加工工作正
10、常完成所必須執(zhí)行的工作過(guò)程,每個(gè)過(guò)程的目標(biāo),執(zhí)行人,設(shè)備要求,必要步驟和過(guò)程產(chǎn)出結(jié)果的要求等。適用時(shí),采集加工過(guò)程的執(zhí)行情況記錄應(yīng)包括以下內(nèi)容:工作時(shí)間人員相關(guān)的環(huán)境因素設(shè)備運(yùn)行情況執(zhí)行情況異常和處理數(shù)據(jù)資源采集加工過(guò)程的相關(guān)信息應(yīng)填入所承建數(shù)據(jù)庫(kù)的元數(shù)據(jù)對(duì)應(yīng)元素當(dāng)中。關(guān)于數(shù)據(jù)庫(kù)核心元數(shù)據(jù)的更加詳細(xì)規(guī)定參照TR-REC-014科學(xué)數(shù)據(jù)庫(kù)核心元數(shù)據(jù)標(biāo)準(zhǔn)要求執(zhí)行。必要時(shí),建庫(kù)單位應(yīng)保留數(shù)據(jù)采集的原始記錄一定時(shí)間,以備查證使用。文檔書(shū)寫(xiě)方面更加詳細(xì)規(guī)定參照TR-REC-062數(shù)據(jù)庫(kù)建設(shè)技術(shù)文檔參考規(guī)范要求執(zhí)行。數(shù)據(jù)約定在正式開(kāi)展數(shù)據(jù)資源采集加工工作之前,數(shù)據(jù)庫(kù)承建單位應(yīng)以用戶(hù)需求為出發(fā)點(diǎn),立足于當(dāng)前
11、承建單位的數(shù)據(jù)建設(shè)能力,對(duì)數(shù)據(jù)資源采集加工直至形成產(chǎn)品的過(guò)程和產(chǎn)品的規(guī)格進(jìn)行商討,并形成約定。數(shù)據(jù)約定是數(shù)據(jù)采集加工工作策劃的重要輸入項(xiàng),數(shù)據(jù)約定的內(nèi)容中至少應(yīng)包括以下方面:范圍約定根據(jù)學(xué)科領(lǐng)域和應(yīng)用特點(diǎn)確定數(shù)據(jù)選取范圍,保證數(shù)據(jù)完整性、準(zhǔn)確性和連貫。時(shí)間范圍約定:數(shù)據(jù)集描述的起止時(shí)間空間范圍約定(如適用):數(shù)據(jù)集描述的地理空間范圍學(xué)科范圍約定:數(shù)據(jù)量數(shù)據(jù)類(lèi)型約定數(shù)據(jù)質(zhì)量期望,如填充率水平、差錯(cuò)率水平、主要數(shù)據(jù)來(lái)源等數(shù)據(jù)庫(kù)模型,如ER圖等數(shù)據(jù)字典對(duì)于每個(gè)數(shù)據(jù)元素,應(yīng)在以下方面進(jìn)行描述:數(shù)據(jù)來(lái)源采集方法,如采集的部分,拍照要求,計(jì)算公式等設(shè)備要求編碼方法精確度參照系對(duì)數(shù)據(jù)采集加工內(nèi)容的確定應(yīng)特別
12、注重其規(guī)范性,相關(guān)的規(guī)范包括項(xiàng)目規(guī)范、任何可能存在的國(guó)家標(biāo)準(zhǔn)、國(guó)際標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn)等。其中應(yīng)特別注重涉及唯一標(biāo)示符的內(nèi)容設(shè)計(jì)應(yīng)參照TR-REC-017唯一標(biāo)識(shí)符規(guī)范要求;涉及分類(lèi)編碼的內(nèi)容設(shè)計(jì)應(yīng)參照TR-REC-018科學(xué)數(shù)據(jù)分類(lèi)規(guī)范與分類(lèi)詞表的要求。數(shù)據(jù)資源加工流程過(guò)程策劃規(guī)范的采集加工業(yè)務(wù)流程是保障科學(xué)數(shù)據(jù)資源質(zhì)量重要和關(guān)鍵的環(huán)節(jié)。數(shù)據(jù)庫(kù)承建單位應(yīng)對(duì)數(shù)據(jù)資源采集加工過(guò)程進(jìn)行策劃,以需求為導(dǎo)向,對(duì)數(shù)據(jù)采集加工工作的過(guò)程方法進(jìn)行設(shè)計(jì),確定有效和高效實(shí)現(xiàn)數(shù)據(jù)加工目標(biāo)所必須的過(guò)程,以及每個(gè)過(guò)程應(yīng)該遵循的技術(shù)與規(guī)范,以及為達(dá)成數(shù)據(jù)采集加工目標(biāo)所必須的過(guò)程輸入輸出規(guī)格要求。過(guò)程策劃的輸入可以包括但不限于
13、以下方面:用戶(hù)和其他相關(guān)方的需求和期望;對(duì)數(shù)據(jù)資源特性的評(píng)估;對(duì)服務(wù)過(guò)程特性的評(píng)估等。特別地,數(shù)據(jù)資源建設(shè)的相關(guān)建設(shè)應(yīng)該格外關(guān)注是否存在任何可能存在的相關(guān)國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)或其它相關(guān)標(biāo)準(zhǔn)規(guī)范可以作為輸入項(xiàng)。對(duì)數(shù)據(jù)資源采集加工流程的約定由數(shù)據(jù)庫(kù)主要承建單位負(fù)責(zé)協(xié)商形成,并敦促各承建單位遵照實(shí)施。所擬定的各項(xiàng)技術(shù)與規(guī)范都應(yīng)寫(xiě)入數(shù)據(jù)資源采集整理工作指南。下列流程為不同類(lèi)型科學(xué)數(shù)據(jù)庫(kù)資源采集加工常見(jiàn)的業(yè)務(wù)流程,以及每個(gè)業(yè)務(wù)流程相對(duì)通用的原則和質(zhì)量要求,數(shù)據(jù)庫(kù)承建單位可參照選擇適宜之條款建立所承建數(shù)據(jù)庫(kù)的采集加工過(guò)程方法。本規(guī)范對(duì)下列流程的執(zhí)行順序沒(méi)有要求,但數(shù)據(jù)庫(kù)建設(shè)單位在數(shù)據(jù)資源采集整理工
14、作指南中應(yīng)指出其采集加工過(guò)程方法的執(zhí)行順序。在正式展開(kāi)工作之前,數(shù)據(jù)庫(kù)承建單位應(yīng)對(duì)數(shù)據(jù)資源采集加工過(guò)程進(jìn)行策劃,以需求為導(dǎo)向,對(duì)數(shù)據(jù)采集加工工作的過(guò)程方法進(jìn)行設(shè)計(jì),確定為達(dá)成數(shù)據(jù)采集加工目標(biāo)所必須的過(guò)程輸入輸出規(guī)格要求。策劃結(jié)果應(yīng)該能支持?jǐn)?shù)據(jù)采集加工工作有效和高效的實(shí)現(xiàn)。過(guò)程策劃的結(jié)果應(yīng)該包括:實(shí)現(xiàn)數(shù)據(jù)加工目標(biāo)所必須的過(guò)程,以及過(guò)程之間的關(guān)聯(lián)每個(gè)標(biāo)準(zhǔn)化過(guò)程所應(yīng)達(dá)成的目標(biāo)和應(yīng)遵循的規(guī)范:目標(biāo)人員要求資源要求過(guò)程的輸入一般執(zhí)行方法過(guò)程的輸出相關(guān)文檔數(shù)據(jù)采集數(shù)據(jù)采集錄入是指對(duì)科學(xué)數(shù)據(jù)資源進(jìn)行收集并形成原始記錄的過(guò)程。數(shù)據(jù)的采集是數(shù)據(jù)庫(kù)業(yè)務(wù)流程的源頭,數(shù)據(jù)采集的質(zhì)量如何直接關(guān)系到信息的質(zhì)量問(wèn)題,必須予
15、以高度重視。數(shù)據(jù)采集的原則保證采集數(shù)據(jù)的全面真實(shí)。采集的數(shù)據(jù)必須根據(jù)規(guī)定的要求,采集到所需要的全部數(shù)據(jù),并且保證數(shù)據(jù)準(zhǔn)確真實(shí)。因不同的數(shù)據(jù)調(diào)查對(duì)象而異,采用不同的采集方法和不同的質(zhì)量控制要求。數(shù)據(jù)采集錄入的技術(shù)要求數(shù)據(jù)采集的內(nèi)容和各項(xiàng)指標(biāo)的采集方法根據(jù)事先擬定的規(guī)則進(jìn)行,力爭(zhēng)做到不缺不漏,其中核心指標(biāo)項(xiàng)必須填寫(xiě)著錄。文字表達(dá)應(yīng)當(dāng)規(guī)范、簡(jiǎn)明、正確、嚴(yán)謹(jǐn),含義清楚。如涉及圖像拍攝,一般拍攝對(duì)象的正面及側(cè)面圖像,必要時(shí)還應(yīng)拍攝細(xì)部、標(biāo)題等部位的圖像。數(shù)據(jù)收集中,對(duì)有明顯錯(cuò)誤或不符合規(guī)律的數(shù)據(jù)亦予以剔除。如果存在相關(guān)的國(guó)家標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn),數(shù)據(jù)采集和指標(biāo)測(cè)量應(yīng)嚴(yán)格遵照相關(guān)的標(biāo)準(zhǔn)規(guī)范進(jìn)行。數(shù)據(jù)采集工作流程
16、從數(shù)據(jù)來(lái)源查詢(xún)獲取數(shù)據(jù),并按照一定的規(guī)則整理收集;在數(shù)據(jù)記錄中采取注明實(shí)驗(yàn)條件和實(shí)驗(yàn)誤差的方法給用戶(hù)提供參考;相關(guān)專(zhuān)家考察、審核相關(guān)數(shù)據(jù);數(shù)據(jù)由工作人員填寫(xiě)原始記錄表格或原始記錄入庫(kù);如果存在計(jì)量單位不一致的情況,則先進(jìn)行換算單位,應(yīng)注明單位換算的情況。數(shù)據(jù)錄入涉及數(shù)據(jù)錄入時(shí),數(shù)據(jù)庫(kù)承建單位應(yīng)對(duì)錄入設(shè)備,錄入人以及必要的質(zhì)量控制措施等等相關(guān)信息加以記錄。數(shù)據(jù)采集錄入的技術(shù)要求所使用的錄入系統(tǒng)必須是指定的錄入系統(tǒng);輸錄要完全忠實(shí)于采集得到的資料;必填內(nèi)容不得為空。數(shù)據(jù)采集錄入的方法文本數(shù)據(jù)手工填報(bào);文本數(shù)據(jù)計(jì)算機(jī)手工錄入;二維圖像信息拍攝或計(jì)算機(jī)自動(dòng)掃描;三維音像信息多媒體攝像制作;原有數(shù)據(jù)的格
17、式轉(zhuǎn)換。原始數(shù)據(jù)的保存必要時(shí),數(shù)據(jù)庫(kù)承建單位應(yīng)設(shè)定原始數(shù)據(jù)保存時(shí)間要求,并對(duì)數(shù)據(jù)采集得到的原始數(shù)據(jù)加以妥善保存,以備需要時(shí)復(fù)查使用。如有必要,數(shù)據(jù)上交時(shí)應(yīng)附帶原始記錄及相關(guān)數(shù)據(jù)。來(lái)源篩選為確保數(shù)據(jù)產(chǎn)品的質(zhì)量,數(shù)據(jù)庫(kù)承建單位應(yīng)對(duì)原始數(shù)據(jù)獲取來(lái)源進(jìn)行選擇,建立數(shù)據(jù)來(lái)源的準(zhǔn)入門(mén)檻制度,從開(kāi)始階段就對(duì)數(shù)據(jù)資源質(zhì)量進(jìn)行控制。數(shù)據(jù)來(lái)源可以是其它數(shù)據(jù)庫(kù)資源,也可以是文獻(xiàn),書(shū)籍等其它媒體形式的資源??紤]到所收集數(shù)據(jù)的可靠性,數(shù)據(jù)來(lái)源均應(yīng)為公開(kāi)發(fā)表的國(guó)內(nèi)外一級(jí)或核心科技刊物的發(fā)表論文,原始文獻(xiàn)以書(shū)籍、手冊(cè)、綜述等為來(lái)源的數(shù)據(jù)。數(shù)據(jù)來(lái)源篩選的原則可以包括但不限于以下方面:數(shù)據(jù)生產(chǎn)者和提供者的口碑;數(shù)據(jù)來(lái)源的時(shí)間、
18、空間、學(xué)科范圍符合本數(shù)據(jù)庫(kù)的使用預(yù)期;數(shù)據(jù)來(lái)源的數(shù)據(jù)規(guī)模滿(mǎn)足需求;數(shù)據(jù)來(lái)源使用的數(shù)據(jù)格式符合需求;數(shù)據(jù)來(lái)源遵循某一國(guó)際或國(guó)內(nèi)知名的數(shù)據(jù)標(biāo)準(zhǔn)建立;數(shù)據(jù)來(lái)源的技術(shù)指標(biāo),如準(zhǔn)確度,精確度水平等;數(shù)據(jù)來(lái)源的主要內(nèi)容;數(shù)據(jù)來(lái)源是否具有完整的元數(shù)據(jù)或相關(guān)資料描述。原始數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理為避免原始數(shù)據(jù)過(guò)于龐大,信息過(guò)于復(fù)雜,數(shù)據(jù)受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)的侵?jǐn)_,必要時(shí),數(shù)據(jù)庫(kù)承建單位應(yīng)對(duì)采集得到的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理。數(shù)據(jù)處理的主要目的在于減少誤差。消除數(shù)據(jù)中的一些明顯錯(cuò)誤、粗差或系統(tǒng)誤差。提高數(shù)據(jù)的系列性,尤其是在時(shí)間和空間序列上的連續(xù)性。提高數(shù)據(jù)的完整性,對(duì)單一要素?cái)?shù)據(jù)進(jìn)行綜合。一般的原始數(shù)據(jù)
19、預(yù)處理方法包括數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約等。數(shù)據(jù)清理數(shù)據(jù)清理用于填充空缺值、識(shí)別孤立點(diǎn)、消除噪聲、糾正數(shù)據(jù)不一致。常用的數(shù)據(jù)清理方法包括:空缺值的清理忽略元組人工填寫(xiě)空缺值使用一個(gè)全局常量填充空缺值使用屬性的平均值填充空缺值使用與給定元組屬同一類(lèi)的所有樣本的平均值使用有可能的值填充空缺值噪聲數(shù)據(jù)分箱聚類(lèi)計(jì)算機(jī)和人工檢查結(jié)合回歸不一致數(shù)據(jù)對(duì)于有些事務(wù),所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致可以使用其他材料人工地更正。知識(shí)工程工具也可以用來(lái)檢測(cè)違反限制的數(shù)據(jù)。例如,知道屬性的函數(shù)依賴(lài),可以查找違反函數(shù)依賴(lài)的值。數(shù)據(jù)集成數(shù)據(jù)集成用于將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲(chǔ)。元數(shù)據(jù)、相關(guān)
20、分析、數(shù)據(jù)沖突檢測(cè)和語(yǔ)義異種性的解析都有助于數(shù)據(jù)集成。主要方法包括:模式匹配利用數(shù)據(jù)庫(kù)的元數(shù)據(jù)對(duì)異構(gòu)數(shù)據(jù)進(jìn)行映射轉(zhuǎn)換,形成模式匹配。消除冗余利用相關(guān)行分析的方法檢測(cè)冗余,消除重復(fù)數(shù)據(jù)。數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成適合使用的形式。主要方法包括:平滑去掉數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱、聚類(lèi)和回歸。聚集對(duì)數(shù)據(jù)進(jìn)行匯總和聚集。數(shù)據(jù)概化使用概念分層,用高層次的概念替換低層次的“原始”數(shù)據(jù)。規(guī)范化將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如-1.0到1.0或0.0到1.0。屬性構(gòu)造由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解。數(shù)據(jù)歸約對(duì)數(shù)據(jù)處理的技術(shù),如數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓
21、縮、數(shù)值歸約和離散化都可以用來(lái)得到數(shù)據(jù)的歸約表示,而使得信息內(nèi)容的損失小。數(shù)據(jù)立方體聚集聚集操作用于數(shù)據(jù)立方體中的數(shù)據(jù)。維歸約通過(guò)刪除不相關(guān)的屬性(或)維減少數(shù)據(jù)量。通常使用屬性子集選擇方法。數(shù)據(jù)加工模型和算法數(shù)據(jù)庫(kù)承建單位應(yīng)根據(jù)基礎(chǔ)數(shù)據(jù)的類(lèi)型,建立相應(yīng)的數(shù)據(jù)加工模型和算法。例如,針對(duì)屬性數(shù)據(jù)加工的要求,建立屬性數(shù)據(jù)加工模型和算法;針對(duì)柵格數(shù)據(jù)加工的要求,建立柵格數(shù)據(jù)加工模型和算法;針對(duì)矢量數(shù)據(jù)加工的要求,建立矢量數(shù)據(jù)加工模型和算法。數(shù)據(jù)加工應(yīng)基于統(tǒng)一的模型,如概念模型,地理坐標(biāo)系,高程參照系,時(shí)間模型,統(tǒng)一的文件格式等。屬性數(shù)據(jù)加工模型的核心是對(duì)屬性數(shù)據(jù)進(jìn)行規(guī)范化處理,包括賦予屬性數(shù)據(jù)以空間
22、特征,以及基于數(shù)學(xué)模型對(duì)屬性數(shù)據(jù)進(jìn)行均一化處理等。間格網(wǎng)化模型可以使屬性數(shù)據(jù)生成標(biāo)準(zhǔn)的數(shù)據(jù)產(chǎn)品。專(zhuān)題數(shù)據(jù)產(chǎn)品突出反映一種或幾種主要要素或現(xiàn)象。數(shù)據(jù)處理加工與產(chǎn)品生產(chǎn)數(shù)據(jù)加工處理是指對(duì)已經(jīng)采集的數(shù)據(jù)按照擬定的數(shù)據(jù)加工模型和算法進(jìn)行匯總、計(jì)算、分析及數(shù)字化處理的過(guò)程。數(shù)據(jù)按要求,開(kāi)發(fā)處理系統(tǒng),進(jìn)行加工處理,產(chǎn)生需要的數(shù)據(jù)、報(bào)表等。圖形、多媒體數(shù)據(jù)按照業(yè)務(wù)要求進(jìn)行加工,可以和相應(yīng)的制作、轉(zhuǎn)換工作相結(jié)合。這一過(guò)程,可以是計(jì)算機(jī)自動(dòng)處理、手工操作,或者是計(jì)算機(jī)與人工相結(jié)合方式進(jìn)行。根據(jù)數(shù)據(jù)資源加工程度的不同,數(shù)據(jù)產(chǎn)品可分為多級(jí)。數(shù)據(jù)加工的級(jí)別0級(jí)數(shù)據(jù):未作任何處理的原始記錄,其記錄格式、符號(hào)、代碼等大多
23、由作業(yè)者本人或其服務(wù)的單位自行設(shè)置,外單位人員,即使是同行,也是無(wú)法理解這些數(shù)字的含義的。人們對(duì)數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)認(rèn)識(shí)不斷提高的今天,0級(jí)數(shù)據(jù)正在逐漸消失。各部門(mén)、系統(tǒng)紛紛制定了數(shù)據(jù)標(biāo)準(zhǔn)和統(tǒng)一格式,科學(xué)數(shù)據(jù)從產(chǎn)生那刻起,就是標(biāo)準(zhǔn)的、他人可讀的了。1 級(jí)數(shù)據(jù):經(jīng)初步加工,包括數(shù)據(jù)項(xiàng)的必要注釋、數(shù)據(jù)格式的簡(jiǎn)單轉(zhuǎn)換等,成為能讓他人理解的數(shù)據(jù)。這是原始數(shù)據(jù)記錄生產(chǎn)地向上級(jí)主管部門(mén)報(bào)送的數(shù)據(jù),這對(duì)于原始數(shù)值生產(chǎn)地而言是“數(shù)據(jù)成品”;而對(duì)于接受單位,特別是承擔(dān)數(shù)據(jù)歸檔、服務(wù)的數(shù)據(jù)中心而言則是“原始數(shù)據(jù)”。2 級(jí)數(shù)據(jù):在數(shù)據(jù)中心對(duì)數(shù)據(jù)作進(jìn)一步加工處理,主要是兩個(gè)方面的工作:其一是標(biāo)準(zhǔn)規(guī)范化處理,其二是數(shù)據(jù)質(zhì)量檢查
24、與訂正,使數(shù)據(jù)真正成為可以被利用的數(shù)據(jù)。3 級(jí)數(shù)據(jù):在1、2級(jí)數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步深加工而形成的科學(xué)數(shù)據(jù)產(chǎn)品??茖W(xué)數(shù)據(jù)產(chǎn)品應(yīng)當(dāng)有統(tǒng)一的分類(lèi)和編碼系統(tǒng),有統(tǒng)一的數(shù)據(jù)格式或能提供轉(zhuǎn)換接口;應(yīng)當(dāng)置備標(biāo)準(zhǔn)、完善的元數(shù)據(jù);應(yīng)當(dāng)有數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),并經(jīng)規(guī)范的質(zhì)量檢驗(yàn)與修正;還要有標(biāo)注明確的外包裝。4 級(jí)數(shù)據(jù):為了特殊的用途,并非數(shù)據(jù)中心日常業(yè)務(wù)范圍之內(nèi),而專(zhuān)門(mén)為之整理、加工和生產(chǎn)的科學(xué)數(shù)據(jù)產(chǎn)品。數(shù)據(jù)加工處理的原則數(shù)據(jù)在加工處理過(guò)程中必須始終保持與原始數(shù)據(jù)的一致性和完整性,不能出現(xiàn)丟失或改變?cè)紨?shù)據(jù)的情況;經(jīng)過(guò)加工處理后的數(shù)據(jù),必須是正確的數(shù)據(jù),不能由于軟件或操作的原因出現(xiàn)新的錯(cuò)誤數(shù)據(jù);數(shù)據(jù)加工處理的技術(shù)要求加工處理的數(shù)據(jù)必須是經(jīng)審核通過(guò)的采集數(shù)據(jù);數(shù)據(jù)加工處理的軟件必須是經(jīng)測(cè)試和試用被證明是具有良好的穩(wěn)定性、可靠性和容錯(cuò)性,并經(jīng)過(guò)正式批準(zhǔn)使用的軟件;數(shù)據(jù)加工處理人員必須是具有資格、并經(jīng)過(guò)授權(quán)的專(zhuān)業(yè)人員。采集的數(shù)據(jù)進(jìn)行加工制作,包括查重、著錄、標(biāo)引、錄入、校對(duì)、審核、入庫(kù)等,并終形成各種專(zhuān)題數(shù)據(jù)庫(kù)。查重:對(duì)收集到的數(shù)據(jù)在已建數(shù)據(jù)庫(kù)中查重。標(biāo)引:分類(lèi)標(biāo)引和主題標(biāo)引。錄入:按數(shù)據(jù)庫(kù)要求的格式錄入標(biāo)引后的數(shù)據(jù)。校對(duì):對(duì)數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 擠壓模擬課程設(shè)計(jì)
- 銀行支行的行政后勤工作綜述
- 寵物服務(wù)員工作總結(jié)
- 港口貨物裝卸合同三篇
- 三年級(jí)科學(xué)學(xué)科的教學(xué)工作總結(jié)
- 門(mén)診護(hù)士年終總結(jié)
- 【八年級(jí)下冊(cè)歷史】期中達(dá)標(biāo)測(cè)試卷
- 2024年統(tǒng)計(jì)員年終工作總結(jié)篇
- 2024-2025學(xué)年北京門(mén)頭溝區(qū) 初三(上)期末物物理試卷(含答案)
- 分包采購(gòu)委托合同(2篇)
- 《人員素質(zhì)測(cè)評(píng)理論與方法》電子版本
- 61850基礎(chǔ)技術(shù)介紹0001
- 陶瓷色料的技術(shù)PPT課件
- 幼兒園食品安全工作計(jì)劃四篇
- 課程設(shè)計(jì)YA32-350型四柱萬(wàn)能液壓機(jī)液壓系統(tǒng)設(shè)計(jì)
- (精心整理)系動(dòng)詞練習(xí)題
- 體彩排列五歷史數(shù)據(jù)
- 中國(guó)工業(yè)數(shù)據(jù)庫(kù)介紹
- 弱電智能化設(shè)計(jì)服務(wù)建議書(shū)(共35頁(yè))
- 中國(guó)銀監(jiān)會(huì)關(guān)于規(guī)范中長(zhǎng)期貸款還款方式的通知
- 通信工程外文文獻(xiàn)(共12頁(yè))
評(píng)論
0/150
提交評(píng)論