政務數據平臺 第6部分:面向全網搜索應用的數據處理規(guī)范_第1頁
政務數據平臺 第6部分:面向全網搜索應用的數據處理規(guī)范_第2頁
政務數據平臺 第6部分:面向全網搜索應用的數據處理規(guī)范_第3頁
政務數據平臺 第6部分:面向全網搜索應用的數據處理規(guī)范_第4頁
政務數據平臺 第6部分:面向全網搜索應用的數據處理規(guī)范_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS01.040.03

CCSA12

DB52

貴州省地方標準

DB52/T1541.6—2021

政務數據平臺第6部分:面向全網搜索

應用的數據處理規(guī)范

Governmentdataplatform—Part6:Datapreprocessingspecificationsfor

searchingapplicationbasedontheplatform

2021-05-17發(fā)布2021-09-01實施

貴州省市場監(jiān)督管理局發(fā)布

DB52/T1541.6—2021

政務數據平臺第6部分:面向全網搜索應用的數據處理規(guī)范

1范圍

本文件規(guī)定了面向政務數據平臺全網搜索應用的數據處理的總體框架、數據接入、數據處理、搜索

應用和數據安全相關要求。

本文件適用于政務數據平臺全網搜索應用的數據處理活動。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T2260中華人民共和國行政區(qū)劃代碼

GB/T2261.1個人基本信息分類與代碼第1部分:人的性別代碼

GB/T7408數據元和交換格式信息交換日期和時間表示法

GB11643公民身份號碼

GB32100法人和其他組織統(tǒng)一社會信用代碼編碼規(guī)則

GB/T37973-2019信息安全技術大數據安全管理指南

DB52/T1540.2政務數據第2部分:元數據管理規(guī)范

DB52/T1541.3政務數據平臺第3部分:數據存儲規(guī)范

3術語和定義

下列術語和定義適用于本文件。

3.1

政務數據平臺governmentdataplatform

依托政務云計算平臺搭建,承載政務數據并支撐數據統(tǒng)籌存儲、統(tǒng)籌治理、統(tǒng)籌應用和統(tǒng)籌安全的

基礎信息技術平臺。

[來源:DB52/T1541.3-2020,3.1]

3.2

全網搜索datasearchingapplicationsbasedongovernmentdataplatform

基于政務數據平臺圍繞特定應用場景進行數據處理,通過搜索引擎和機器學習技術實現數據的組織

呈現、融合重構、關聯分析和衍生應用。

1

DB52/T1541.6—2021

3.3

數據處理datapreprocessing

對擬進入搜索數據庫的數據進行前期處理加工以達到特定的規(guī)范性要求,支撐后續(xù)搜索應用的實

現。

3.4

數據元dataelement

用一組屬性描述其定義、標識、表示和允許值的數據單元。數據元由三部分組成:對象、特性、表

示。

[來源:GB/T18391.1-2009,3.3.8]

3.5

元數據metadata

關于數據或數據元素的數據(可能包括其數據描述),以及關于數據擁有權、存取路徑、訪問權和

數據易變性的數據。

[來源:GB/T35295-2017,2.2.7]

3.6

統(tǒng)計指標statisticalindicators

說明總體數量特征的概念及其數值的綜合。

3.7

基礎數據庫basicinformationdatabase

國家信息化和電子政務建設基礎數據資源庫,包括人口基礎數據庫、法人數據庫、宏觀經濟數據庫、

自然資源與空間地理數據庫、電子證照庫等。

3.8

主題數據庫thematicinformationdatabase

針對特定應用主題將存在內在邏輯關聯關系的各類數據有序匯聚形成的指定數據庫。

3.9

搜索數據庫searchingdatadatabase

基于政務數據平臺數據,結合特定搜索應用業(yè)務需求進行管理規(guī)劃并有序存放經數據前置處理后的

有效數據的專題數據庫。

2

DB52/T1541.6—2021

3.10

結構化數據structureddata

一種數據表示形式,按此種形式,由數據元素匯集而成的每個記錄的結構都是一致的并且可以使用

關系模型予以有效描述。

[來源:GB/T35295-2017,2.2.13]

3.11

非結構化數據unstructureddata

不具有預定模型或未以預定方式組織的數據。

[來源:GB/T35295-2017,2.1.25]

3.12

半結構化數據Semistructureddata

具有結構性,但結構變化大,且難以用結構化數據的處理方法將其放進二維表的數據。

示例:XML文檔內容,每項都被一對標記封起來,如<title></title>,表面上看是結構化數據,但<title></title>

之間的數據卻是千變萬化,這是典型的半結構化數據。

[來源:DA/T82-2019,2.8]

3.13

數據類型datatype

規(guī)定數據結構的數據對象的經定義的集合和一組許可的運算,在這些運算中任何一個執(zhí)行時,其中

數據對象都當作運算數。

示例:整數型的結構非常簡單,整數型的值是在某一規(guī)定范圍內的整數的一個成員的表示,許可的運算包括對這些

整數的常見算術運算。

[來源:GB/T5271.17-2010,17.5.8]

3.14

全量更新fullupdate

使用新的數據對歷史數據進行完全覆蓋。

[來源:DB52/T1541.2—2020,3.14]

3.15

增量更新incrementalupdate

將兩次更新間隔發(fā)生變更的數據同步到存儲區(qū)域。

[來源:DB52/T1541.2—2020,3.15]

3

DB52/T1541.6—2021

3.16

數據脫敏datamask

從原始環(huán)境向目標環(huán)境進行敏感數據交換的過程中,通過一定方法消除原始環(huán)境數據中的敏感信

息,并保留目標環(huán)境業(yè)務所需的數據特征或內容的數據處理過程。

[來源:DB52/T1126—2016,2.1]

3.17

數據加密dataencryption

對數據進行密碼變換以產生密文的過程。一般包含一個變換集合,該變換使用一套算法和一套輸入

參量。輸入參量通常被稱為密鑰。

[來源:GB/T25069—2010,2.2.2.60]

3.18

數據完整性dataintegrity

數據沒有遭受以未授權方式所作的更改或破壞的特性。

[來源:GB/T25069—2010,2.1.36]

3.19

數據模型datamodel

按照信息系統(tǒng)中的形式描述和所應用的數據庫管理系統(tǒng)的要求構造的數據庫中數據的一種原型。

[來源:GB/T5271.17-2010,17.1.7]

3.20

主鍵primarykey

一種用于標識一個記錄的鍵。

[來源:GB/T5271.17-2010,17.3.11]

3.21

外鍵foreignkey

在某一關系中,與另一類關系中的主鍵對應的一個或一組屬性。

[來源:GB/T5271.17-2010,17.4.15]

3.22

關系relation

具有相同屬性的各實體值的集合以及這些屬性。

注:在關系數據庫中,一個關系能通過一個表來表示,表中各行對應于各實體值,各列對應于各屬性。

[來源:GB/T5271.17-2010,17.4.1]

4

DB52/T1541.6—2021

3.23

數據描述datadescription

對某一數據元素與其中出現該元素的名稱和字的數據結構的形式化描述。

[來源:GBT5271.17-2010,17.6.3]

3.24

總量指標totalquantityindex

用來反映特定對象或現象在一定條件下總規(guī)模、總水平或工作總量的統(tǒng)計指標。

3.25

相對指標relativeindices;

relativeindicators

用兩個關聯指標的比值來反映特定對象或現象的數量特征、數量關系的綜合指標。

3.26

平均指標averageIndex

同一時間的同類型主題對象或現象的一般水平,或是不同時間的同類型主題對象或現象的一般水

平。

4縮略語

下列縮略語適用于本文件。

OSS:對象存儲服務(ObjectStorageService)

ETL:加載、抽取、轉換(Extract-Transform-Load)

API:應用程序編程接口(ApplicationProgrammingInterface)

URL:統(tǒng)一資源定位符(UniformResourceLocator)

5總體框架

政務數據平臺的全網搜索應用的整體業(yè)務邏輯架構圖見圖1。其組成部分如下:

a)數據接入:將來源于政務數據平臺各存儲模塊中各種類型的數據進行規(guī)范接入管理,并根據業(yè)

務需求從不同存儲模塊中接入數據元進行對應數據處理。存儲模塊包括數據采集區(qū)、基礎庫和

主題庫;

b)數據處理:對接入的數據元按照數據治理規(guī)范,結合業(yè)務場景與搜索目標進行數據元梳理、數

據清洗融合和數據模型設計,并將結果存儲到搜索數據庫中。處理內容包括數據描述、數據指

標、數據標簽和關聯關系等;

c)搜索應用:通過元數據管理系統(tǒng)對搜索數據庫中表結構與關聯關系進行抽取,結合搜索應用業(yè)

務需求對元數據進行管理分類、知識構建,支撐搜索引擎和領導駕駛艙建設;

d)數據安全:包括數據機密性、完整性、數據備份。采用數據脫敏、數據加密、制定備份機制等

數據處理方法進行數據傳輸與存儲,確保數據安全。

5

DB52/T1541.6—2021

圖1全網搜索應用的整體業(yè)務邏輯架構圖

6數據接入

6.1存儲要求

6.1.1數據分類存儲按DB52/T1541.3的規(guī)定進行。

6.1.2數據接入前應根據待處理數據的結構化程度將數據存儲至以下區(qū)域:

a)結構化數據應存儲到統(tǒng)一數據采集區(qū);

b)非結構化數據應存儲于云計算的開放存儲區(qū)OSS,并建立對應數據描述表以支撐搜索應用;

c)半結構化數據按將文件基本屬性、存儲路徑等描述信息以結構化數據文件入庫存儲至統(tǒng)一數據

采集區(qū)。

6.2接入規(guī)則

6.2.1結構化、非結構化數據,通過ETL工具進行分類接入;

6.2.2半結構化數據化解為結構化數據通過ETL工具進行接入;

6.2.3接入形式包括二維庫表類型、文本類型、URL連接地址、API接口等。

6

DB52/T1541.6—2021

6.3更新機制

6.3.1全量更新

將數據源中的表或視圖的數據全部從數據庫中抽取出來,通過ETL工具遷移到搜索數據庫中。

6.3.2增量更新

增量更新是指在進行更新操作時,只更新需要改變的地方,不需要更新或者已經更新過的地方則不

會重復更新,增量更新與全量更新相對。

6.3.3更新頻率

數據更新頻率包括以下方式:

a)數據更新頻率應達到秒級響應,實現實時更新:

b)在設定時間的誤差范圍內,準實時批量接入;

c)數據按天、周、月進行定時調度,實現同步更新。

7數據處理

7.1數據描述規(guī)范化處理

7.1.1處理方法

數據描述的規(guī)范化處理方法包括但不限于:

a)數據格式處理:對錯誤的數據格式進行治理、修改;

b)關鍵信息缺失補全:對需要搜索的關鍵信息出現缺失的部分進行補全;

c)明顯邏輯錯誤修正:核查數據元間業(yè)務邏輯關系,對明顯錯誤邏輯進行修正。如對數據上下級、

歸屬關系進行修正;

d)數據類型錯誤修正:根據搜索目標對數據類型進行判斷,對不滿足數據類型的錯誤進行修正。

7.1.2通用型數據處理要求

時間、區(qū)劃地點、對象等通用數據處理,應滿足以下要求:

a)行政區(qū)劃代碼應符合GB/T2260規(guī)定;

b)性別代碼應符合GB/T2261.1規(guī)定;

c)日期和時間應符合GB/T7408規(guī)定;

d)公民身份號碼應符合GB11643規(guī)定;

e)法人和其他組織統(tǒng)一社會信用代碼應符合GB32100規(guī)定。

7.1.3非通用型數據處理要求

非通用的描述類數據處理應滿足以下要求:

a)可計算型數據元的計算類型,應滿足當前系統(tǒng)可連接數據庫類型的可計算數據類型的要求,計

算單位根據業(yè)務進行描述;

b)可分組維度的數據字段應按其特征進行分組;

c)可比較數據元應按照不同維度、不同規(guī)則進行比較;

d)主體數據元應對主體的核心內容進行描述。

7

DB52/T1541.6—2021

7.2數據指標處理

對數據元中涉及數值與統(tǒng)計數據的指標數據,應按同一指標內部相對差距不變、不同指標間的相對

差距不確定、標準化后極大值相等原則采用數據同趨化和無量綱化等方法進行處理。按照其反映的內容

或其數值表現形式分為總量指標、相對指標和平均指標三種。

指標統(tǒng)計處理應包括以下內容:

a)確定指標的含義和范圍;

b)指標指向的對象或現象應具有同類性;

c)有統(tǒng)一的計量單位;

d)兩個對比指標要有可比性。

7.3數據標簽處理

7.3.1對具有搜索價值的數據元應根據業(yè)務信息及搜索目標進行標簽定義,對數據屬性進行歸類。

7.3.2數據標簽可分為以下兩類:

a)基于統(tǒng)計類的標簽:從政務平臺基礎數據中直接統(tǒng)計得出,為基礎的標簽類型,如性別、城市、

月均消費金額等字段構成用戶畫像的基礎;

b)基于規(guī)則類的標簽:基于行為及確定的規(guī)則產生,開發(fā)標簽中的標簽規(guī)則由涉及的雙方共同協(xié)

商確定,如距今90天內交易次數>3是“交易活躍”標簽的定義和口徑。

7.4關聯關系處理

7.4.1同一個業(yè)務源不同數據表之間,需要有對應的主外鍵關系,表與表之間依據主外鍵進行關聯。

7.4.2針對不同業(yè)務與業(yè)務之間,需要設立統(tǒng)一規(guī)范的業(yè)務主鍵,利用業(yè)務主鍵進行關聯。

8搜索應用

8.1經數據處理后的數據應按描述數據、業(yè)務數據、模型和標簽等類型數據進行分類存放進搜索數據

庫。

8.2按DB52/T1540.2(政務數據元數據管理規(guī)范)的規(guī)定對搜索數據庫數據的元數據進行管理。

8.3計算機對數據標簽、關聯關系信息、數據指標進行學習理解并最終記憶,形成知識構建。

8.4經知識構建形成的可理解和處理的數據,與搜索內容進行語義對齊,理解搜索意圖,最終查找出

結果。

8.5對于非結構化數據,搜索實現文本語言數據之間的比較,當核心內容相似性達到一定程度時,判

斷為找到用戶需求,并反饋結果。

8.6全網搜索主要應用方向包括數據查詢、數據畫像、數據調

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論