(高清版)GBT 41462-2022 基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控要求_第1頁(yè)
(高清版)GBT 41462-2022 基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控要求_第2頁(yè)
(高清版)GBT 41462-2022 基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控要求_第3頁(yè)
(高清版)GBT 41462-2022 基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控要求_第4頁(yè)
(高清版)GBT 41462-2022 基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控要求_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控要求2022-04-15發(fā)布2022-11-01實(shí)施國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)I 2規(guī)范性引用文件 l3術(shù)語(yǔ)和定義 4縮略語(yǔ) 45整體框架 6文本數(shù)據(jù)要求 47預(yù)處理 58信息抽取 58.1概述 58.2信息抽取整體框架 58.3抽取內(nèi)容及特征分析 68.4抽取方法 9數(shù)據(jù)表示 89.1總體要求 89.2數(shù)據(jù)表示評(píng)估 99.3基于RDFS結(jié)構(gòu)化表示 10分析預(yù)警 10.1數(shù)據(jù)清洗 10.2建模方法 10.3分析方法 11用戶(hù)交互 12系統(tǒng)評(píng)估 12.1原則 12.2類(lèi)別 12.3評(píng)估方法 12.4評(píng)估指標(biāo) 13安全防護(hù) 13.1安全技術(shù)要求 13.2安全管理要求 14軟硬件要求 14.1硬件基本要求 14.2軟件基本要求 Ⅱ附錄A(規(guī)范性)基于AHP的指標(biāo)權(quán)重確定方法 附錄B(資料性)RDFS結(jié)構(gòu)化描述 附錄C(規(guī)范性)RDFS表示具體技術(shù)流程 參考文獻(xiàn) Ⅲ本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件由中國(guó)人民銀行提出。本文件由全國(guó)金融標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC180)歸口。本文件起草單位:中國(guó)標(biāo)準(zhǔn)化研究院、中國(guó)銀行業(yè)協(xié)會(huì)、北京理工大學(xué)、中國(guó)工商銀行股份有限公司、中國(guó)農(nóng)業(yè)銀行股份有限公司、中國(guó)建設(shè)銀行股份有限公司、中國(guó)工商銀行股份有限公司深圳分行、華南師范大學(xué)、北京工業(yè)大學(xué)、中國(guó)科學(xué)院計(jì)算技術(shù)研究所、中國(guó)科學(xué)技術(shù)信息研究所、北京大學(xué)、上海對(duì)外經(jīng)貿(mào)大學(xué)、中國(guó)金融電子化公司、中國(guó)人民銀行太原中心支行、北京海致星圖科技有限公司、聊城大學(xué)、江蘇科技大學(xué)、廣東外語(yǔ)外貿(mào)大學(xué)、北京師范大學(xué)、中版集團(tuán)數(shù)字傳媒有限公司、北京市科學(xué)技術(shù)情報(bào)研究所。1基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控要求1范圍本文件規(guī)定了基于文本數(shù)據(jù)金融風(fēng)險(xiǎn)防控的整體框架、文本數(shù)據(jù)要求、預(yù)處理、信息抽取、數(shù)據(jù)表本文件適用于金融相關(guān)的文本數(shù)據(jù)處理及金融信息的挖掘、抽取與分析。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T4754—2017國(guó)民經(jīng)濟(jì)行業(yè)分類(lèi)GB/T20269—2006信息安全技術(shù)信息系統(tǒng)安全管理要求GB/T20271—2006信息安全技術(shù)信息系統(tǒng)通用安全技術(shù)要求GB/T32319—2015銀行業(yè)產(chǎn)品說(shuō)明書(shū)描述規(guī)范ISO21586:2020金融服務(wù)的參考數(shù)據(jù)銀行產(chǎn)品服務(wù)說(shuō)明描述規(guī)范[Referencedataforfinancialservices—Specificationforthedescriptionofbankingproductsorservices(BPoS)]3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。學(xué)習(xí)learning一個(gè)生物學(xué)系統(tǒng)或自動(dòng)系統(tǒng)獲得知識(shí)或技能的過(guò)程,使它可用于改進(jìn)其性能。為確定類(lèi)別成員的抽象實(shí)體。詞或詞組與它們的含義之間的關(guān)系。2解釋主要以讀者對(duì)某種自然語(yǔ)言或人工語(yǔ)言的理解為基礎(chǔ)。示例:打印在紙上或顯示在屏幕上的業(yè)務(wù)信件。關(guān)于客體(如事實(shí)、事件、事物、過(guò)程或思想,包括概念知識(shí)),在一定的場(chǎng)合中具有特定的意義。機(jī)器學(xué)習(xí)machinelearning自動(dòng)學(xué)習(xí)automaticlearning功能單元通過(guò)獲取新知識(shí)或技能,或通過(guò)重組現(xiàn)有知識(shí)或技能來(lái)改善其性能的過(guò)程。漢字[漢語(yǔ)詞語(yǔ)]編碼Chinesecharacter[Chinesewordandphrase]coding按照一定的規(guī)則,對(duì)指定的漢字[漢語(yǔ)詞語(yǔ)]集內(nèi)的元素編制相應(yīng)的代碼。一組特征及其相互關(guān)系,用來(lái)識(shí)別在給定背景中的實(shí)體。一種特別的書(shū)面規(guī)則,能將專(zhuān)家用于解決問(wèn)題的知識(shí)和經(jīng)驗(yàn)形式化。抽取(用作動(dòng)詞)extract(信息檢索)從一組選項(xiàng)中,選擇并取出某些符合預(yù)先確定的性質(zhì)的項(xiàng)。結(jié)構(gòu)化表示structuredrepresentation一種格式化的、可識(shí)別的并具有一定的操作規(guī)范的文本數(shù)據(jù)的表示方法。注:表示后的文本數(shù)據(jù)的性質(zhì)和量值位置是固定的。一種用于描述領(lǐng)域中各個(gè)概念和概念間的關(guān)系。個(gè)體之間的二元關(guān)系。3可感知或可想象到的任何事物。層次分析法AnalyticHierarchyProcess;AHP將與決策總是有關(guān)的元素分解成目標(biāo)、準(zhǔn)則、方案等層次,在此基礎(chǔ)之上進(jìn)行定性和定量分析的決策方法。對(duì)組織具有價(jià)值的任何東西。分類(lèi)classification把信息進(jìn)行劃分(例如按照潛在欺騙、敏感性或信息關(guān)鍵度)以便應(yīng)用適當(dāng)控制措施的方法。風(fēng)險(xiǎn)risk不確定性對(duì)目標(biāo)的影響。估計(jì)風(fēng)險(xiǎn)程度的系統(tǒng)過(guò)程。一方在到期日或未來(lái)的任意時(shí)候不能償還其債務(wù)而產(chǎn)生的風(fēng)險(xiǎn)。信用風(fēng)險(xiǎn)又稱(chēng)為交易對(duì)手風(fēng)險(xiǎn)或履約風(fēng)險(xiǎn),指交易對(duì)方不履行到期債務(wù)的風(fēng)險(xiǎn)。由于基礎(chǔ)資產(chǎn)市場(chǎng)價(jià)格的不利變動(dòng)或者急劇波動(dòng)而導(dǎo)致衍生工具價(jià)格或者價(jià)值變動(dòng)的風(fēng)險(xiǎn)?;A(chǔ)[來(lái)源:商業(yè)銀行資本管理辦法]由不完善或有問(wèn)題的內(nèi)部程序、員工和信息科技系統(tǒng),以及外部事件所造成損失的風(fēng)險(xiǎn)。44縮略語(yǔ)下列縮略語(yǔ)適用于本文件。HTML:超文本標(biāo)記語(yǔ)言(HyperTextMarkupLanguage)RDF:資源描述框架(ResourceDescriptionFramework)RDFS:資源描述框架模式(ResourceDescriptionFrameworkSchema)SVM:支持向量機(jī)(SupportVectorMachines)XML:可擴(kuò)展標(biāo)記語(yǔ)言(eXtensibeMarkupLanguage)5整體框架基于文本數(shù)據(jù)的金融風(fēng)險(xiǎn)防控一般技術(shù)要求主要包括以下幾個(gè)部分:——文本數(shù)據(jù):對(duì)本技術(shù)處理對(duì)象的要求,對(duì)應(yīng)于本文件第6章;——預(yù)處理:信息抽取和分析預(yù)警前對(duì)文本數(shù)據(jù)的處理,對(duì)應(yīng)于本文件第7章;——信息抽取:從文本數(shù)據(jù)中自動(dòng)識(shí)別出實(shí)體、事件、關(guān)系等類(lèi)型的信息,對(duì)應(yīng)于本文件第8章;——數(shù)據(jù)表示:基于RDFS對(duì)風(fēng)險(xiǎn)關(guān)鍵信息及相關(guān)因素進(jìn)行表示,對(duì)應(yīng)于本文件第9章;——分析預(yù)警:分析預(yù)警技術(shù)的一般過(guò)程和方法,對(duì)應(yīng)于本文件第10章;——用戶(hù)交互:對(duì)用戶(hù)界面的要求,對(duì)應(yīng)于本文件第11章;——系統(tǒng)評(píng)估:給出評(píng)估的原則、類(lèi)別、方法和常用評(píng)估指標(biāo),對(duì)應(yīng)于本文件第12章;——安全防護(hù):給出安全技術(shù)和安全管理的要求,對(duì)應(yīng)于本文件第13章;——軟硬件要求:給出技術(shù)應(yīng)用時(shí)對(duì)硬件和軟件的基本要求,對(duì)應(yīng)于本文件第14章?;谖谋緮?shù)據(jù)的金融風(fēng)險(xiǎn)防控一般技術(shù)要求的整體框架如圖1所示。用戶(hù)交互非結(jié)構(gòu)化文木數(shù)據(jù)信息抽取數(shù)據(jù)表示結(jié)構(gòu)化文本數(shù)據(jù)軟硬件要求安全防護(hù)系統(tǒng)評(píng)估分析預(yù)警預(yù)處理圖1整體框架示意6文本數(shù)據(jù)要求用于進(jìn)行信息抽取及風(fēng)險(xiǎn)分析預(yù)警的文本數(shù)據(jù)宜滿(mǎn)足以下要求:a)文本數(shù)據(jù)的內(nèi)容與其來(lái)源保持一致;b)文本數(shù)據(jù)規(guī)模宜達(dá)到一定量級(jí);c)文本數(shù)據(jù)內(nèi)容能更新。57預(yù)處理信息抽取和風(fēng)險(xiǎn)分析預(yù)警前,宜對(duì)原始文本數(shù)據(jù)做以下處理。a)凈化網(wǎng)頁(yè)內(nèi)容:刪除網(wǎng)頁(yè)中與金融內(nèi)容關(guān)聯(lián)不大的部分,如導(dǎo)航欄、廣告等。b)統(tǒng)一文本編碼:采用通用的編碼轉(zhuǎn)換方法,將不同文本的編碼轉(zhuǎn)換為同一種編碼。c)去除數(shù)據(jù)噪音:刪除字符亂碼、多余空格、特殊符號(hào)、結(jié)構(gòu)性標(biāo)簽等噪音數(shù)據(jù),如HTML網(wǎng)頁(yè)標(biāo)簽等。d)文本分詞與詞性標(biāo)注:利用分詞方法,將文本轉(zhuǎn)換成離散的單詞序列,并對(duì)單詞的詞性進(jìn)行標(biāo)注。目前,中文自動(dòng)分詞方法主要包括:1)基于規(guī)則的方法;2)基于統(tǒng)計(jì)的方法;3)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法;4)基于深度學(xué)習(xí)的方法;5)基于理解以及混合方法。示例:文本數(shù)據(jù):A公司跨界轉(zhuǎn)型“玩游戲”。根據(jù)企業(yè)的公告,本次重組標(biāo)的公司的一季度業(yè)績(jī)未達(dá)標(biāo),未實(shí)現(xiàn)重組報(bào)告中的業(yè)績(jī)承諾。對(duì)此,公司昨日已經(jīng)停牌。分詞結(jié)果:A/ws公司/n跨界/v轉(zhuǎn)型/v“/wp玩游戲/n”/wp。/wp根據(jù)/p企業(yè)/n的/u公告/n,/wp本次/r重組/v標(biāo)的/n公司/n的/u一季度/nt業(yè)績(jī)/n未達(dá)標(biāo)/v,/wp未/d實(shí)現(xiàn)/v重組/v報(bào)告/n中/nd的/u業(yè)績(jī)/ne)去除停用詞:通過(guò)構(gòu)建金融領(lǐng)域適用的停用詞表,刪除文本中出現(xiàn)頻率高但對(duì)金融風(fēng)險(xiǎn)分析意f)統(tǒng)一表述形式:將不同表述形式的數(shù)據(jù)轉(zhuǎn)換為同一種表述形式。示例1:中文數(shù)字、特殊數(shù)字符號(hào)等都轉(zhuǎn)換為阿拉伯?dāng)?shù)字。示例2:繁體中文轉(zhuǎn)換為簡(jiǎn)體中文。g)還原錯(cuò)別字與變種字:通過(guò)識(shí)別糾錯(cuò)、變種還原等方法,將文本中的錯(cuò)別字和變種字(拆字、火星文等)還原為正確的文字。識(shí)別糾錯(cuò)的方法主要包括基于模式和基于統(tǒng)計(jì)兩種方法。變種還原的方法包括基于詞表和基于模型兩種方法。8信息抽取8.1概述信息抽取指從給定的文本數(shù)據(jù)中自動(dòng)識(shí)別出實(shí)體、事件、關(guān)系等類(lèi)型的信息。示例1:從文本數(shù)據(jù)中識(shí)別出人名、地名、機(jī)構(gòu)名、貨幣、時(shí)間等。示例2:從文本“根據(jù)數(shù)據(jù)顯示,2019年一季度末,房地產(chǎn)開(kāi)發(fā)貸款余額為10.85萬(wàn)億元”中識(shí)別出“2019年一季度8.2信息抽取整體框架信息抽取的整體框架如圖2所示。6信息抽取人名…基于模式的方法…機(jī)構(gòu)名模式獲取模式匹配地點(diǎn)非結(jié)構(gòu)化文本數(shù)據(jù)數(shù)字產(chǎn)品名稱(chēng)特征選擇結(jié)構(gòu)化文本數(shù)據(jù)聯(lián)系方式基于模式和統(tǒng)計(jì)結(jié)合方法金額數(shù)據(jù)源預(yù)處理標(biāo)注圖2信息抽取框架示意8.3抽取內(nèi)容及特征分析應(yīng)符合GB/T32319—2015中對(duì)各類(lèi)信息的描述,并與ISO21586:2020保持一致。示例:地域相關(guān)因素通常包括行政區(qū)劃、街道地址、郵政信箱、郵政編碼等。在文本中主要體現(xiàn)為:名稱(chēng)、數(shù)字串、字母串。從文本數(shù)據(jù)中抽取的內(nèi)容應(yīng)包括但不限于以下5種:b)數(shù)量;c)人名;d)機(jī)構(gòu)名;e)事件。8.3.2主要抽取內(nèi)容在金融文本中的表達(dá)形式及規(guī)范化處理時(shí)間、數(shù)量、人名、機(jī)構(gòu)名等主要抽取內(nèi)容在金融文本中有不同的表達(dá)形式,不同抽取內(nèi)容的表達(dá)形式如下。a)時(shí)間:金融文本中的時(shí)間信息通常由日期、時(shí)間詞、時(shí)間介詞短語(yǔ)、特殊名詞來(lái)表達(dá)。示例1:日期:2003年1月23日。示例3:時(shí)間介詞短語(yǔ):自2003年以來(lái)。示例4:特殊名詞:亞洲金融危機(jī)時(shí)。b)數(shù)量:金融文本中,一條完整的數(shù)量信息包含4個(gè)組成部分:變量、比較運(yùn)算符、數(shù)值或數(shù)值區(qū)示例:從金融文本“出口產(chǎn)品超過(guò)324.8億美元”中可以識(shí)別出以下數(shù)量信息:“出口產(chǎn)品,超過(guò),324.8億,美元”,其7c)人名:金融文本中的人名通常有以下3種表達(dá)形式:1)單獨(dú)的姓氏;示例:周答復(fù)了昨日收購(gòu)事宜。3)“姓氏/全名+稱(chēng)謂/頭銜/職務(wù)”或“稱(chēng)謂/頭銜/職務(wù)+姓氏/全名”。示例1:董事長(zhǎng)張某某:中國(guó)人到國(guó)外買(mǎi)電飯煲刺痛了我。示例2:李某某先生應(yīng)邀出席“中國(guó)新經(jīng)濟(jì)與互聯(lián)網(wǎng)大會(huì)”。人名抽取結(jié)果應(yīng)為全名的形式,對(duì)于單獨(dú)使用姓氏作為人名的,應(yīng)進(jìn)行邊界擴(kuò)展及校驗(yàn)。示例:從語(yǔ)句“昨天他以李某某個(gè)人名義拜訪了董事長(zhǎng)王某某?!背槿〉降娜嗣麨椤袄睢?。對(duì)于姓氏“李”進(jìn)行邊界擴(kuò)d)機(jī)構(gòu)名:相較于普通組織機(jī)構(gòu)名,金融領(lǐng)域的組織機(jī)構(gòu)名有獨(dú)特的結(jié)構(gòu)特征和上下文特征:2)多含有地區(qū)詞;示例:大連某某集團(tuán)。3)名稱(chēng)前常有與金融動(dòng)作相關(guān)的動(dòng)詞等。示例:“有相關(guān)新聞報(bào)道A公司不久將收購(gòu)B公司”,收購(gòu)為金融動(dòng)作。以簡(jiǎn)稱(chēng)形式表述的組織機(jī)構(gòu)名稱(chēng)應(yīng)與全稱(chēng)建立映射關(guān)系。示例:從語(yǔ)句“A某負(fù)責(zé)籌劃了中國(guó)某某集團(tuán)的IPO,因聘用中某主席的女兒而遭證券交易委員會(huì)的調(diào)查”中抽取e)事件:文本中出現(xiàn)多個(gè)時(shí)間與事件時(shí),應(yīng)提取與金融事件有直接關(guān)系的時(shí)間,并在時(shí)間與事件間建立關(guān)系。與事件有直接關(guān)系的時(shí)間一般有以下表達(dá)方式:1)時(shí)間距離事件句中的事件關(guān)鍵詞最近;2)時(shí)間在事件句所在段落的段首句;3)時(shí)間在事件所在文章的標(biāo)題;4)時(shí)間在事件所在文章的首句;5)時(shí)間在事件句上文中距離事件句最近。8.4抽取方法8.4.1基于模式匹配的方法基于模式匹配的方法應(yīng)至少包括以下2個(gè)步驟:a)模式獲?。横槍?duì)不同信息抽取內(nèi)容的語(yǔ)言描述形式和語(yǔ)言特征,以自動(dòng)或人工的方式獲取相應(yīng)模式。模式獲取包括知識(shí)工程和自動(dòng)訓(xùn)練2種方法:1)知識(shí)工程方法以特定領(lǐng)域知識(shí)為基礎(chǔ),針對(duì)信息抽取內(nèi)容,通過(guò)人工方式總結(jié)歸納與之相符的語(yǔ)言特征,從而構(gòu)建模式;2)自動(dòng)訓(xùn)練方法則利用機(jī)器學(xué)習(xí)從標(biāo)注語(yǔ)料中自動(dòng)獲取模式。b)模式匹配:從文本數(shù)據(jù)中抽取與模式相匹配的文本。8.4.2基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法本方法通過(guò)對(duì)文本數(shù)據(jù)進(jìn)行人工標(biāo)注或統(tǒng)計(jì)分析,獲得分類(lèi)特征,再結(jié)合機(jī)器學(xué)習(xí)模型構(gòu)造分類(lèi)器,對(duì)文本中的信息進(jìn)行抽取。具體宜包含以下過(guò)程:a)數(shù)據(jù)標(biāo)注:制定數(shù)據(jù)標(biāo)簽集合,從既定的標(biāo)簽集合中選擇合適的標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。數(shù)據(jù)標(biāo)注采用人工、半自動(dòng)或自動(dòng)化的方式,通過(guò)使用統(tǒng)一的標(biāo)注系統(tǒng)或利用現(xiàn)有的文本表格編輯工具完成。8示例:根據(jù)企業(yè)盈利能力比率、營(yíng)運(yùn)能力比率、短期償款能力比率、長(zhǎng)期償款能力比率等數(shù)據(jù)特征,將給定企業(yè)的信數(shù)據(jù)標(biāo)注應(yīng)符合以下原則:1)標(biāo)注結(jié)果的正確性原則;2)標(biāo)注結(jié)果的完備性原則;3)標(biāo)注符號(hào)的一致性原則;4)標(biāo)注符號(hào)的獨(dú)立性原則;5)標(biāo)注符號(hào)的確定性原則。b)特征選擇:針對(duì)特定的金融風(fēng)險(xiǎn)防控問(wèn)題,從特征集合中選擇對(duì)于目標(biāo)問(wèn)題求解最有效的特征,從而降低數(shù)據(jù)集維度,提高學(xué)習(xí)算法性能。入選特征宜滿(mǎn)足以下要求:1)特征數(shù)量盡可能少:用映射或變換的方法精簡(jiǎn)原始特征的數(shù)量;2)特征具有代表性:從原始特征中挑選出一些最具代表性、最有影響力的特征;3)特征最具分類(lèi)信息:用數(shù)學(xué)的方法進(jìn)行選取,找出最具分類(lèi)信息的特征。貝葉斯等統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法。8.4.3基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法通過(guò)一定的技術(shù)流程將基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法進(jìn)行結(jié)合。9數(shù)據(jù)表示9.1總體要求金融文本具有專(zhuān)業(yè)性,金融數(shù)據(jù)的表示要借助金融領(lǐng)域詞典、金融風(fēng)險(xiǎn)庫(kù)詞典等領(lǐng)域?qū)I(yè)詞典,以達(dá)到數(shù)據(jù)表示結(jié)果專(zhuān)業(yè)并相對(duì)全面的效果。應(yīng)完整的涵蓋金融風(fēng)險(xiǎn)相關(guān)的關(guān)鍵因素,并盡可能多的包含其他各類(lèi)相關(guān)因素,盡量完整地描述該金融風(fēng)險(xiǎn)相關(guān)因素。針對(duì)不同金融風(fēng)險(xiǎn)因素的數(shù)據(jù)特點(diǎn),通過(guò)對(duì)它們進(jìn)行綜合分析,采用合適的方法或技術(shù)進(jìn)行格式化處理,使得數(shù)據(jù)的表示具有可讀性,便于專(zhuān)業(yè)或非專(zhuān)業(yè)人士理解,不會(huì)造成閱讀困難或重大誤解。數(shù)據(jù)的表示應(yīng)具有高度的可用性,適配多樣的數(shù)據(jù)處理技術(shù)與手段,簡(jiǎn)化數(shù)據(jù)使用的操作難度與復(fù)雜度。數(shù)據(jù)的結(jié)構(gòu)化表示應(yīng)采用相對(duì)成熟、普適的理論方法,以提高數(shù)據(jù)對(duì)各種處理方式、方法的兼容性。99.2數(shù)據(jù)表示評(píng)估數(shù)據(jù)表示技術(shù)評(píng)估是依據(jù)RDFS結(jié)構(gòu)化框架,采用一定的方法和程序,對(duì)表示的主體、客體和屬性進(jìn)行評(píng)測(cè)或驗(yàn)證。數(shù)據(jù)表示應(yīng)符合的主要原則包括但不限于:b)應(yīng)充分考察其社會(huì)效益和經(jīng)濟(jì)效益;c)應(yīng)考慮其發(fā)展和應(yīng)用前景;d)應(yīng)認(rèn)真考慮來(lái)源、語(yǔ)義要素的不同類(lèi)型和基本特點(diǎn);e)應(yīng)符合有關(guān)的國(guó)家標(biāo)準(zhǔn)、國(guó)際標(biāo)準(zhǔn)以及相關(guān)技術(shù)規(guī)則和規(guī)范的要求。利用層次分析法與專(zhuān)家評(píng)估相結(jié)合的方法,對(duì)數(shù)據(jù)內(nèi)容的表示進(jìn)行評(píng)價(jià)。通過(guò)專(zhuān)家評(píng)估法,定性的評(píng)估數(shù)據(jù)表示是否滿(mǎn)足標(biāo)準(zhǔn)的總體要求。利用層次分析法,給出最終的數(shù)據(jù)表示評(píng)分,判斷是否滿(mǎn)足數(shù)據(jù)表示的要求。9.2.3具體評(píng)估內(nèi)容按照?qǐng)D3構(gòu)建數(shù)據(jù)表示的評(píng)估指標(biāo)體系。總體要求評(píng)分完整性領(lǐng)域支持n?讀性可用性技術(shù)成熟圖3數(shù)據(jù)表示評(píng)估指標(biāo)體系圖同級(jí)指標(biāo)權(quán)重通過(guò)專(zhuān)家主觀分析,借助AHP方法構(gòu)造對(duì)比矩陣計(jì)算權(quán)重值(具體構(gòu)造方法按照附對(duì)數(shù)據(jù)表示的總體要求滿(mǎn)足情況采用主觀式專(zhuān)家評(píng)分方式進(jìn)行打分,由專(zhuān)家對(duì)各個(gè)指標(biāo)的滿(mǎn)足情況賦予0~1之間的一個(gè)數(shù),其中0表示完全不滿(mǎn)足,1表示完全滿(mǎn)足。(W?,W?,…Wn)1,而各個(gè)指標(biāo)值構(gòu)成一個(gè)評(píng)分向量△=(δ?,δ?,…?)T,按公式(1)得到數(shù)據(jù)表示對(duì)要求滿(mǎn)足的最終評(píng)分:最終評(píng)分為0~1之間的數(shù),1為完全滿(mǎn)足,0為完全不滿(mǎn)足。若最終評(píng)分小于0.6,則視為不符合金融風(fēng)險(xiǎn)防控的數(shù)據(jù)表示要求。9.3基于RDFS結(jié)構(gòu)化表示基于非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),根據(jù)領(lǐng)域需求,確定該領(lǐng)域重點(diǎn)研究的實(shí)體或本體、客體,以及實(shí)體客體之間的屬性等。本體、客體即該領(lǐng)域需要研究的“一切資源”或者專(zhuān)業(yè)詞匯。屬性指該領(lǐng)域中本體和客體所具有的性質(zhì)、本體和客體之間的關(guān)系。融風(fēng)險(xiǎn)領(lǐng)域和文本數(shù)據(jù),基于RDFS框架給出金融資源(FinanceResource)、金融風(fēng)險(xiǎn)類(lèi)(FinanceRiskClass)、金融風(fēng)險(xiǎn)屬性(FinanceRiskProperty)的表示(RDFS的架構(gòu)與核心概念見(jiàn)附錄B)。金融資源是包括金融風(fēng)險(xiǎn)領(lǐng)域的廣泛概念,包括金融、風(fēng)險(xiǎn)、情感詞等。金融資源的標(biāo)簽和說(shuō)明如下:b)說(shuō)明:因?yàn)樾枰獙?duì)金融領(lǐng)域的風(fēng)險(xiǎn)進(jìn)行表示,因此給出更大范圍“金融”而不是“金融標(biāo)簽。所有與金融領(lǐng)域相關(guān)的其他標(biāo)簽都是在<rdfs:金融>根標(biāo)簽下面。示例:<rdf:Descriptionrdf:ID=Finance><rdf:typerdf:resource="/2000/01/rdf-schema#Class"/></rdf:Description>。按GB/T4754—2017中規(guī)定的J類(lèi),金融行業(yè)包括4大類(lèi),分別是貨幣金融服務(wù)、資本市場(chǎng)服務(wù)、保險(xiǎn)業(yè)和其他金融行業(yè)。4大類(lèi)金融行業(yè)基于RDFS的標(biāo)簽和說(shuō)明如下:貨幣金融服務(wù)>(<rdfs:Monetary-Finance-Services>)、<rdfs:資本市場(chǎng)服務(wù)>(<rdfs:Capital-Markets-ServicesFinancial-Institutib)說(shuō)明:<rdfs:金融行業(yè)>是金融行業(yè)類(lèi)中的根標(biāo)簽,嵌套在標(biāo)簽<rdfs:金融>(<rdfs:Finance>)。其他4類(lèi)<rdfs:>標(biāo)簽位于<rdfs:金融行業(yè)>根標(biāo)簽之下,是對(duì)金融行業(yè)的分類(lèi),每個(gè)標(biāo)簽都既可以單獨(dú)使用,也可以嵌套在其他類(lèi)標(biāo)簽中。示例:<rdfs:Classrdf:ID=“Finance-Institutions”></rdfs:Class>。金融風(fēng)險(xiǎn)類(lèi)金融風(fēng)險(xiǎn)有3大主要風(fēng)險(xiǎn)類(lèi)別:信用風(fēng)險(xiǎn)、市場(chǎng)風(fēng)險(xiǎn)和操作風(fēng)險(xiǎn)。其中信用風(fēng)險(xiǎn)又分為公司風(fēng)險(xiǎn)、主權(quán)風(fēng)險(xiǎn)等;市場(chǎng)風(fēng)險(xiǎn)又分為利率風(fēng)險(xiǎn)、股權(quán)價(jià)格風(fēng)險(xiǎn)等;操作風(fēng)險(xiǎn)又分為內(nèi)部欺詐風(fēng)險(xiǎn)、外部欺詐風(fēng)險(xiǎn)等。內(nèi)部欺詐指一個(gè)以上的銀行內(nèi)部人員進(jìn)行的或?yàn)橹鲄⑴c的故意片區(qū)、盜用財(cái)產(chǎn)或違反監(jiān)管規(guī)章、法律或銀行策略的行為。外部欺詐指商業(yè)銀行以外的人員進(jìn)行的故意騙取、盜用銀行財(cái)產(chǎn)或逃避法律的行為??稍谝患?jí)分類(lèi)中增加流動(dòng)性風(fēng)險(xiǎn)、國(guó)別風(fēng)險(xiǎn)、聲譽(yù)風(fēng)險(xiǎn)、法律風(fēng)險(xiǎn)、戰(zhàn)略風(fēng)險(xiǎn)等。流動(dòng)性風(fēng)險(xiǎn)指雖然未來(lái)的某些時(shí)候可能有能力償還,但目前沒(méi)有充足的現(xiàn)金償還其到期債務(wù)而產(chǎn)生的風(fēng)險(xiǎn)。流動(dòng)性風(fēng)險(xiǎn)分為融資流動(dòng)性風(fēng)險(xiǎn)和市場(chǎng)流動(dòng)性風(fēng)險(xiǎn)。國(guó)別風(fēng)險(xiǎn)指由于某一國(guó)家或地區(qū)經(jīng)濟(jì)、政治、社會(huì)變化及事件,導(dǎo)致該國(guó)家或地區(qū)借款人或債務(wù)人沒(méi)有能力或者拒絕償付銀行業(yè)金融機(jī)構(gòu)債務(wù),使銀行業(yè)金融機(jī)構(gòu)在該國(guó)家或地區(qū)的商業(yè)存在遭受損失而產(chǎn)生的風(fēng)險(xiǎn)。聲譽(yù)風(fēng)險(xiǎn)是由于商業(yè)銀行經(jīng)營(yíng)、管理及其他行為或外部事件導(dǎo)致利益相關(guān)方對(duì)商業(yè)銀行產(chǎn)生負(fù)面評(píng)價(jià)而造成的風(fēng)險(xiǎn)。法律風(fēng)險(xiǎn)是由未預(yù)期到的法律或法規(guī)的實(shí)施或者由于合同無(wú)法執(zhí)行而造成損失的風(fēng)險(xiǎn)。戰(zhàn)略風(fēng)險(xiǎn)是指由企業(yè)整體損失的不確定性而造成的風(fēng)險(xiǎn)。主要風(fēng)險(xiǎn)類(lèi)別的詳細(xì)分類(lèi)體系見(jiàn)表1。表1金融風(fēng)險(xiǎn)分類(lèi)體系一級(jí)分類(lèi)二級(jí)分類(lèi)信用風(fēng)險(xiǎn)公司風(fēng)險(xiǎn);主權(quán)風(fēng)險(xiǎn);銀行風(fēng)險(xiǎn);零售風(fēng)險(xiǎn);股權(quán)風(fēng)險(xiǎn)市場(chǎng)風(fēng)險(xiǎn)利率風(fēng)險(xiǎn);股權(quán)價(jià)格風(fēng)險(xiǎn);匯率風(fēng)險(xiǎn);商品價(jià)格風(fēng)險(xiǎn)操作風(fēng)險(xiǎn)內(nèi)部欺詐風(fēng)險(xiǎn);外部欺詐風(fēng)險(xiǎn);就業(yè)政策和工作場(chǎng)所安全性風(fēng)險(xiǎn);客戶(hù)產(chǎn)品及業(yè)務(wù)操作風(fēng)險(xiǎn);實(shí)體資產(chǎn)損壞風(fēng)險(xiǎn);業(yè)務(wù)中斷和業(yè)務(wù)數(shù)據(jù)錯(cuò)誤風(fēng)險(xiǎn);系統(tǒng)失敗及運(yùn)行操作風(fēng)險(xiǎn);執(zhí)行、交割及流程管理風(fēng)險(xiǎn)金融風(fēng)險(xiǎn)類(lèi)嵌套在金融機(jī)構(gòu)類(lèi)中,主要包括信用風(fēng)險(xiǎn)、市場(chǎng)風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)?;赗DFS的標(biāo)簽和說(shuō)明如下:a)標(biāo)簽:<rdfs:金融風(fēng)險(xiǎn)>(<rdfs:Finance-Risk>)、<rdfs:信用風(fēng)險(xiǎn)>(<rdfs:Credit-Operation-Risk>);b)說(shuō)明:標(biāo)簽<rdfs:金融風(fēng)險(xiǎn)>是對(duì)金融風(fēng)險(xiǎn)范疇概括的類(lèi),嵌套在<rdfs:金融行業(yè)>下的子標(biāo)簽中。其余3類(lèi)具體的金融風(fēng)險(xiǎn)標(biāo)簽代表不同的風(fēng)險(xiǎn),是標(biāo)簽<rdfs:金融風(fēng)險(xiǎn)>的子標(biāo)簽。根據(jù)需要,可以自行在本文件的基礎(chǔ)上增加風(fēng)險(xiǎn)類(lèi)別。每個(gè)行業(yè)可以選擇全部或者部分具體的風(fēng)險(xiǎn)子標(biāo)簽,也可以自行賦予不同金融風(fēng)險(xiǎn)子標(biāo)簽權(quán)重,本文件不做具體約束。示例:<rdfs:Classrdf:ID=“Finance-Risk”></rdfs:Class>。金融事件類(lèi)是對(duì)與金融相關(guān)事件的結(jié)構(gòu)化表示。例如:互聯(lián)網(wǎng)上金融論壇的相關(guān)評(píng)述性文字。用戶(hù)可以根據(jù)需要自定義相關(guān)RDFS標(biāo)簽,主要標(biāo)簽及說(shuō)明如下:a)標(biāo)簽:<rdfs:金融事件>(<rdfs:Finance-Event>)、<rdfs:url>、<rdfs:標(biāo)題>(<rdfs:b)說(shuō)明:標(biāo)簽<rdfs:金融事件>金融事件類(lèi)根標(biāo)簽,嵌套在標(biāo)簽<rdfs:金融風(fēng)險(xiǎn)>中。<rdfs:url>表示金融事件來(lái)源,用于區(qū)分不同事件,用戶(hù)根據(jù)需要對(duì)不同來(lái)源數(shù)據(jù)賦予不同權(quán)重值。時(shí)間>嵌套在根標(biāo)簽<rdfs:金融事件>中,表示具體示例:<rdfs:Classrdf:ID=“Finance-Event”></rdfs:Class>。金融情感詞類(lèi)是對(duì)金融風(fēng)險(xiǎn)中出現(xiàn)的情感詞進(jìn)行表示的類(lèi)。金融情感詞類(lèi)是對(duì)金融情感詞典中的a)標(biāo)簽:<rdfs:金融情感詞>(<rdfs:Financial-Emotion>)、<rdfs:通用情感詞>(<rdfs:Negative>)、<rdfs:領(lǐng)域情感詞>(<rdfs:FieldEmotion>)、<rdfs:網(wǎng)絡(luò)情感詞>(<rdfs:NetworkEmotion>)、<rdfs:情感詞頻率>(<rdfs:EmotionFrequency>);b)說(shuō)明:<rdfs:金融情感詞>是對(duì)金融情感詞概括標(biāo)簽,是金融情感詞類(lèi)的根標(biāo)簽,是嵌套在金融事件類(lèi)中的子類(lèi),對(duì)金融事件中部分子標(biāo)簽描述和表示。<rdfs:金融情感詞>根標(biāo)簽下包領(lǐng)域情感詞>、<rdfs:網(wǎng)絡(luò)情感詞>、<rdfs:情感詞頻率>;<rdfs:情感詞頻率>為必選項(xiàng)。每個(gè)行業(yè)宜選擇全部情感詞標(biāo)簽,或根據(jù)需要自行選擇部分標(biāo)簽。示例:<rdfs:Classrdf:ID=“Financial-Emotion”></rdfs:Class>。金融風(fēng)險(xiǎn)結(jié)果類(lèi)是對(duì)金融風(fēng)險(xiǎn)后果的結(jié)構(gòu)化表示的類(lèi)。金融風(fēng)險(xiǎn)結(jié)果類(lèi)主要包括5級(jí)不同的金融(<rdfs:FinRisk-1>)、<rdfs:二級(jí)金融風(fēng)險(xiǎn)>(<rdfs:FinRisk-2>)、<rdfs:三級(jí)金融風(fēng)險(xiǎn)>(<rdfs:FinRisk-3>)、<rdfs:四級(jí)金融風(fēng)險(xiǎn)>(<rdfs:FinRisk-4>)、<rdfs:五級(jí)金融風(fēng)b)說(shuō)明:標(biāo)簽<rdfs:金融風(fēng)險(xiǎn)結(jié)果>(<rdfs:FinanceRiskResult>)是金融風(fēng)險(xiǎn)結(jié)果類(lèi)的根標(biāo)簽,嵌套在金融風(fēng)險(xiǎn)類(lèi)中。4種具體金融風(fēng)險(xiǎn)結(jié)果類(lèi)嵌套在根標(biāo)簽<rdfs:金融風(fēng)險(xiǎn)結(jié)果>(<rdfs:FinanceRiskResult>)中。5種具體的結(jié)果在使用時(shí)最多只能出現(xiàn)一個(gè)。示例:<rdfs:Classrdf:ID=“FinanceRiskResult”></rdfs:Class>?;赗DFS表示的金融屬性的標(biāo)簽和說(shuō)明如下:a)標(biāo)簽:<rdfs:金融屬性>(<rdfs:FinanceProperty>)、<rdfs:是金融行業(yè)子類(lèi)>、<rdfs:是金融風(fēng)險(xiǎn)子類(lèi)>、<rdfs:是金融情感詞子類(lèi)>、<rdfs:是金融風(fēng)險(xiǎn)結(jié)果子類(lèi)>等;b)說(shuō)明:標(biāo)簽<rdfs:金融屬性>(<rdfs:FinanceProperty>)是金融屬性的根標(biāo)簽,嵌套在標(biāo)簽<rdfs:金融行業(yè)>(<rdfs:Finance-Institutions)、<rdfs:金融風(fēng)險(xiǎn)>(<rdfs:Finance-Risk>)、<rdfs:金融情感詞>(<rdfs:Financial-Emotion>)、<rdfs:金融風(fēng)險(xiǎn)結(jié)果>(<rdfs:FinanceRiskResult>),表示是某一大類(lèi)的子類(lèi)。標(biāo)簽<rdfs:是XX子類(lèi)>表示具體子類(lèi)下面的子類(lèi)。示例:<rdfs:Propertyrdf:ID=“FinanceProperty”><rdf:domainrdf:ID=“Monetary-Finance-Services”></rdfs:domain><rdf:rangerdf:ID=“操作風(fēng)險(xiǎn)”></rdfs:range></rdfs:Property>。9.3.5RDFS表示具體技術(shù)流程基于RDFS表示的具體技術(shù)流程應(yīng)符合附錄C。10分析預(yù)警數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行審查和校驗(yàn)的過(guò)程,通過(guò)數(shù)據(jù)清洗糾正文本數(shù)據(jù)中錯(cuò)誤信息,補(bǔ)充不完整數(shù)據(jù)并保證數(shù)據(jù)一致性。根據(jù)數(shù)據(jù)清洗目的,清洗的內(nèi)容應(yīng)至少包括以下3部分:a)錯(cuò)誤信息:不合邏輯的數(shù)據(jù);示例1:抽取出的當(dāng)事人的基本信息年齡值為200。示例2:某當(dāng)事人的貸款日期大于當(dāng)前日期。b)不完整數(shù)據(jù):文字有省略的數(shù)據(jù);額為10.85萬(wàn)億元。c)不一致數(shù)據(jù):邏輯上不合理或者相互矛盾的數(shù)據(jù)。不同的數(shù)據(jù)清理內(nèi)容應(yīng)采用不同的清理方法:a)錯(cuò)誤值:采用偏差分析、識(shí)別不遵守分布或回歸方程的值等統(tǒng)計(jì)分析的方法,識(shí)別可能的錯(cuò)誤值或異常值。也可利用簡(jiǎn)單規(guī)則庫(kù)、不同屬性間的約束、外部的數(shù)據(jù)等清理錯(cuò)誤數(shù)據(jù);b)不完整數(shù)據(jù):根據(jù)上下文語(yǔ)境或預(yù)先定義的規(guī)則補(bǔ)充數(shù)據(jù);c)不一致數(shù)據(jù):根據(jù)變量的合理取值范圍和相互關(guān)系,通過(guò)對(duì)完整性約束進(jìn)行定義來(lái)檢測(cè)數(shù)據(jù)的不一致性。10.2建模方法建模宜滿(mǎn)足以下要求:a)模型滿(mǎn)足分析預(yù)警的需求;b)模型是確定的,可重復(fù)使用的;c)模型所需數(shù)據(jù)能通過(guò)文本獲取;d)模型中的數(shù)據(jù)能被計(jì)算;e)輸入模型的數(shù)據(jù)不可被修改;f)模型中所用數(shù)據(jù)能被方便的調(diào)用;g)模型能優(yōu)化升級(jí)。建模過(guò)程宜包括以下4個(gè)部分:a)確定建模目標(biāo);b)確定模型所需信息要素及各要素之間的關(guān)聯(lián)、數(shù)據(jù)及其相關(guān)過(guò)程;c)確定模型中數(shù)據(jù)的存儲(chǔ)方式;d)確定所采用的分析方法。10.3分析方法10.3.1基于規(guī)則的方法利用基于規(guī)則的方法進(jìn)行分析預(yù)警,一般宜包括以下過(guò)程:a)基本規(guī)則構(gòu)建:通過(guò)領(lǐng)域內(nèi)專(zhuān)家對(duì)模型的分析,結(jié)合語(yǔ)言特征,以人工方式編制規(guī)則,并構(gòu)建規(guī)則庫(kù);b)規(guī)則擴(kuò)充:利用規(guī)則庫(kù)中的基本規(guī)則,從文本數(shù)據(jù)進(jìn)行信息抽取,并根據(jù)抽取的結(jié)果總結(jié)歸納新的規(guī)則,加入規(guī)則庫(kù)中;c)規(guī)則應(yīng)用順序確定:依據(jù)分析目標(biāo),確定各個(gè)規(guī)則的使用順序。10.3.2基于機(jī)器的方法根據(jù)分析目標(biāo),在對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注、特征選擇后,選擇合適的模型進(jìn)行訓(xùn)練,并根據(jù)訓(xùn)練結(jié)果不斷調(diào)整模型參數(shù),得到最優(yōu)模型。分析模型的構(gòu)建宜包括以下過(guò)程:a)方法選擇:針對(duì)分析預(yù)警任務(wù)和標(biāo)注數(shù)據(jù)特征,選擇合適的機(jī)器學(xué)習(xí)算法,包括深度神經(jīng)網(wǎng)絡(luò)、b)數(shù)據(jù)集劃分:將標(biāo)注數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集;c)模型訓(xùn)練:在訓(xùn)練數(shù)據(jù)集上對(duì)選擇的模型進(jìn)行參數(shù)優(yōu)化,從模型的假設(shè)空間中選擇最優(yōu)模型,擬合訓(xùn)練數(shù)據(jù)集。在模型訓(xùn)練過(guò)程中,需要確定模型訓(xùn)練準(zhǔn)則,包括期望風(fēng)險(xiǎn)最小化、經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化等學(xué)習(xí)準(zhǔn)則。模型求解過(guò)程可采用梯度下降、牛頓法、啟發(fā)式方法等;d)模型測(cè)試:在測(cè)試數(shù)據(jù)集上,應(yīng)用學(xué)習(xí)到的風(fēng)險(xiǎn)分析預(yù)警模型,得到風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果;e)模型評(píng)估:對(duì)訓(xùn)練得到的風(fēng)險(xiǎn)分析預(yù)警模型進(jìn)行評(píng)估,將模型預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果進(jìn)行比對(duì);選擇相應(yīng)的評(píng)估指標(biāo)對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,包括但不限于精確率、召回率、F值、AUC度量評(píng)分等。11用戶(hù)交互系統(tǒng)應(yīng)提供友好的用戶(hù)界面。界面宜具備以下功能:a)人機(jī)交互功能:用戶(hù)通過(guò)鍵盤(pán)或其他輸入設(shè)備向系統(tǒng)輸入提問(wèn)、控制或其他有關(guān)信息,系統(tǒng)通過(guò)顯示屏幕或其他輸出設(shè)備給用戶(hù)提供解答、提示或其他有關(guān)信息。b)選單驅(qū)動(dòng)功能:根據(jù)系統(tǒng)管理和用戶(hù)使用的需要,分別設(shè)置不同的選單;設(shè)計(jì)一個(gè)為用戶(hù)顯示多重選擇的選單系統(tǒng);根據(jù)需要設(shè)計(jì)多級(jí)選單。c)提示功能:提示的內(nèi)容主要包括:1)出錯(cuò)提示:提示錯(cuò)誤的性質(zhì)和類(lèi)型及如何改正;2)拒絕接收提示:對(duì)無(wú)效和錯(cuò)誤的操作進(jìn)行指示、告警;3)操作步驟提示:提示下一步操作;4)重試操作提示:確保功能冪等性。d)求助功能:使用窗口技術(shù)或調(diào)用輔助庫(kù)、輔助屏予以實(shí)現(xiàn),該功能應(yīng)方便調(diào)用、退出、返回原操作狀態(tài)。主要包括:1)正確操作的具體、詳細(xì)的說(shuō)明;2)有關(guān)內(nèi)容的資料,如代碼及其含義說(shuō)明;3)對(duì)相關(guān)屏幕顯示內(nèi)容的解釋?zhuān)瑓?shù)值的含義與范圍,命令或功能選擇描述。e)其他功能:為滿(mǎn)足用戶(hù)操作所提供的其他功能,如瀏覽等。12系統(tǒng)評(píng)估評(píng)估是依據(jù)某種技術(shù)指標(biāo)體系,采用一定的方法和程序,對(duì)系統(tǒng)功能、特性和運(yùn)行效果進(jìn)行評(píng)測(cè)或驗(yàn)證。主要原則如下:b)考察其社會(huì)效益和經(jīng)濟(jì)效益;c)考慮其發(fā)展和應(yīng)用前景;d)應(yīng)符合有關(guān)的國(guó)家標(biāo)準(zhǔn)、國(guó)際標(biāo)準(zhǔn)以及相關(guān)技術(shù)規(guī)則和規(guī)范的規(guī)定。評(píng)估的主要類(lèi)別如下:a)性能評(píng)估:系統(tǒng)效果以及滿(mǎn)足用戶(hù)需求的程度;b)性能費(fèi)用評(píng)估:系統(tǒng)達(dá)到某種性能水平與所需費(fèi)用之間的關(guān)系;c)費(fèi)用效益評(píng)估:系統(tǒng)的效益與成本比的合理性。12.3評(píng)估方法金融等相關(guān)領(lǐng)域的專(zhuān)家從科學(xué)的角度出發(fā),根據(jù)規(guī)定的技術(shù)指標(biāo),對(duì)金融文本處理、信息抽取以及分析預(yù)警技術(shù)方法進(jìn)行評(píng)估。評(píng)估方法主要包括以下3種:a)測(cè)試評(píng)估:按規(guī)定的測(cè)試大綱和指標(biāo),對(duì)方法的運(yùn)行情況和各種性能進(jìn)行測(cè)試;b)定性評(píng)估:根據(jù)測(cè)試結(jié)果以及與方法相關(guān)的基礎(chǔ)理論和有關(guān)標(biāo)準(zhǔn),對(duì)處理、信息抽取以及分析預(yù)警結(jié)果的數(shù)量和質(zhì)量,系統(tǒng)的軟硬件兼容程度、智能化程度、易用性、用戶(hù)自主性、實(shí)用性等性能,按級(jí)別進(jìn)行評(píng)分;c)綜合評(píng)估:根據(jù)當(dāng)前的技術(shù)水平和發(fā)展趨勢(shì),進(jìn)行縱向和橫向比較,對(duì)方法的各方面做出評(píng)估。從實(shí)用的角度,將本文件中所提出的方法與其他方法進(jìn)行比較。用戶(hù)評(píng)估多為性能評(píng)估,也可以是性能GB/T41462—202212.4評(píng)估指標(biāo)常用的評(píng)估指標(biāo)主要包括:精確率(Precision)、召回率(Recall)、錯(cuò)報(bào)率、漏報(bào)率和綜合評(píng)估指標(biāo)(Fg-Measure)。其中,精確率、召回率、綜合評(píng)估指標(biāo)的值越高越好。錯(cuò)報(bào)率與漏報(bào)率的值越低越好。精確率,表示正確預(yù)測(cè)為正樣本(Truepositive)的數(shù)據(jù)在預(yù)測(cè)為正(Positive)的樣本數(shù)據(jù)中所占的比例。預(yù)測(cè)為正有兩種情況,一種是把正類(lèi)預(yù)測(cè)為正類(lèi)(Truepositive),另一種是把負(fù)類(lèi)預(yù)測(cè)為正類(lèi)(Falsepositive)。該評(píng)價(jià)指標(biāo)的計(jì)算如式(1)所示: (1)錯(cuò)報(bào)率,表示不應(yīng)該預(yù)警的數(shù)據(jù)在所有預(yù)測(cè)數(shù)據(jù)中所占的比例,可用1-精確率計(jì)算得到。召回率,表示正確預(yù)測(cè)為正樣本(Truepositive)的數(shù)據(jù)在所有正樣本數(shù)據(jù)中所占的比例。所有正樣本數(shù)據(jù)有兩種情況,分別為正類(lèi)預(yù)測(cè)為正類(lèi)(Truepositive)和正類(lèi)預(yù)測(cè)為負(fù)類(lèi)(Falsenegative)。該評(píng)價(jià)指標(biāo)的計(jì)算如式(2)所示: (2)漏報(bào)率,表示沒(méi)有被檢測(cè)到的數(shù)據(jù)中應(yīng)預(yù)警數(shù)據(jù)在所有應(yīng)預(yù)警數(shù)據(jù)中所占的比例,可用1-召回率計(jì)算得到。綜合評(píng)價(jià)指標(biāo),表示綜合均衡計(jì)算精確率和召回率,β表示精確率、召回率在計(jì)算綜合評(píng)價(jià)指標(biāo)時(shí)的權(quán)重,通常取1,表示將精確率和召回率進(jìn)行同等權(quán)重計(jì)算。該評(píng)價(jià)指標(biāo)的計(jì)算如式(3)所示: (3)示例:當(dāng)預(yù)警結(jié)果為是否提示預(yù)警時(shí),預(yù)警是一個(gè)二分問(wèn)題。應(yīng)該預(yù)警的數(shù)據(jù)稱(chēng)為正類(lèi),反之稱(chēng)為負(fù)類(lèi)。對(duì)于一個(gè)二分問(wèn)題會(huì)出現(xiàn)四種情況。將正類(lèi)預(yù)測(cè)為正類(lèi)表示為T(mén)P,將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)表示為FN,將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)表示為FP,將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)表示為T(mén)N??筛鶕?jù)這4種情況,從精確率、錯(cuò)報(bào)率、召回率、漏報(bào)率4個(gè)指標(biāo)對(duì)預(yù)警技術(shù)框架進(jìn)行評(píng)估。精確率(TPRate)和召回率(FPRate)計(jì)算分別如式所示。錯(cuò)報(bào)率為1-TPRate,漏報(bào)率為1-FPRate。13安全防護(hù)13.1安全技術(shù)要求13.2安全管理要求系統(tǒng)的安全管理要求應(yīng)符合GB/T20269—2006中第4章的規(guī)定。14軟硬件要求14.1硬件基本要求硬件宜滿(mǎn)足如下基本要求:a)根據(jù)系統(tǒng)設(shè)計(jì)要求,優(yōu)選適用的計(jì)算機(jī);b)能較容易地實(shí)現(xiàn)軟硬件之間的兼容配套;c)有足夠的數(shù)據(jù)存儲(chǔ)空間;d)數(shù)據(jù)處理速度、系統(tǒng)輸入輸出能力應(yīng)滿(mǎn)足業(yè)務(wù)類(lèi)型和用戶(hù)數(shù)量等的需要;e)維修方便;f)具有安全性和高可靠性;g)具有聯(lián)網(wǎng)功能;h)具有較強(qiáng)的可擴(kuò)展能力,能方便地進(jìn)行升級(jí)。14.2軟件基本要求軟件宜滿(mǎn)足如下基本要求:及其他應(yīng)用軟件;b)具有較好的靈活性和可移植性,對(duì)運(yùn)行環(huán)境有較強(qiáng)的適應(yīng)能力;c)具有較強(qiáng)的可擴(kuò)充能力,能夠根據(jù)需要升級(jí);d)具有較好的人機(jī)交互能力;e)數(shù)據(jù)庫(kù)管理系統(tǒng)功能強(qiáng),能方便地進(jìn)行數(shù)據(jù)存取、檢索、補(bǔ)充、修改和刪除等;f)具有較好的安全性和保密性。GB/T41462—2022(規(guī)范性)基于AHP的指標(biāo)權(quán)重確定方法A.1構(gòu)建成對(duì)比較矩陣成對(duì)比較矩陣是層次分析法的數(shù)量依據(jù)。比較第i個(gè)元素與第j個(gè)元素相對(duì)上一層某個(gè)因素的重要性時(shí),使用數(shù)量化的相對(duì)權(quán)重a;來(lái)描述。設(shè)共有n個(gè)元素參與比較,稱(chēng)為成對(duì)比較矩陣。對(duì)每一層的指標(biāo)兩兩對(duì)比,做成對(duì)比較矩陣。如式(A.1)所示:式中:ay——第i個(gè)指標(biāo)相對(duì)第j個(gè)指標(biāo)的重要程度,顯然,a=常用1~9尺度評(píng)分,例如同等重要評(píng)分為1,相對(duì)重要根據(jù)程度給出3、5、7、9等評(píng)分值。A.2一致性分析因成對(duì)比較矩陣是兩兩對(duì)比完成,可能會(huì)存在一致性差,導(dǎo)致違背邏輯的情況,因此需對(duì)其一致性進(jìn)行檢驗(yàn)。其具體步驟為:步驟一:計(jì)算一致性指標(biāo)(CI),如式(A.2)所示:式中:λmax—-成對(duì)比較矩陣的最大特征值;n——矩陣對(duì)應(yīng)的指標(biāo)個(gè)數(shù)。步驟二:計(jì)算平均隨機(jī)一致性指標(biāo)。平均隨機(jī)一致性指標(biāo)(γ)與指標(biāo)個(gè)數(shù)(n)有著很強(qiáng)的關(guān)聯(lián),其具體關(guān)系如表A.1所示。表A.1平均隨機(jī)一致性指標(biāo)參考表n123456789γ00步驟三:計(jì)算一致性值(CR),如式(A.3)所示:式中:λmax——指標(biāo)權(quán)重的組成向量。當(dāng)CR<0.1時(shí),可以認(rèn)定該成對(duì)比較矩陣的一致性檢驗(yàn)通過(guò)?!?A.3)(資料性)RDFS結(jié)構(gòu)化描述B.1簡(jiǎn)述RDFS(ResourceDescriptionFrameworkSchema,資源描述框架模式)是對(duì)RDF進(jìn)行擴(kuò)展。RDF對(duì)資源進(jìn)行簡(jiǎn)單聲明,RDFS對(duì)資源、資源的屬性以及資源之間的關(guān)系進(jìn)行描述。B.2RDFS架構(gòu)RDF是一種由資源、屬性、屬性值組成的三元結(jié)構(gòu),描述了主語(yǔ)、謂語(yǔ)、賓語(yǔ)之間的關(guān)系。RDF以三元組(主語(yǔ),謂語(yǔ),賓語(yǔ))形式描述資源(Resource)和資源之間的關(guān)系。RDFS是在RDF的基礎(chǔ)上發(fā)展的。RDFS是一種RDF詞匯集描述語(yǔ)言,定義了如何用RDF來(lái)描述詞匯集,并提供了一個(gè)用來(lái)描述RDF的詞匯集。RDF的核心概念如表B.1所示。RDFS的核心概念如表B.2所示。RDFS資源,表示為rdfs:Resource,RDF描述的所有“一切”都被稱(chēng)為資源。例如“金融”。RDFS類(lèi):資源被分成的組。RDFS屬性,表示為rdfs:Property,描述主題資源和對(duì)象資源之間的關(guān)系。說(shuō)明:RDFS是在RDF基礎(chǔ)上發(fā)展,因此部分標(biāo)簽是以<rdf>開(kāi)始的。國(guó)際化資源標(biāo)識(shí)符(InternationalizedResourceIdentifier,IRI)。標(biāo)簽含義節(jié)點(diǎn)Subject(主體)聲明被描述的事物IRI節(jié)點(diǎn)或空白節(jié)點(diǎn)Predicate(謂語(yǔ))事物的屬性O(shè)bject(賓語(yǔ))屬性的值IRI,文本或空白節(jié)點(diǎn)表B.2RDFS的核心概念類(lèi)標(biāo)簽類(lèi)含義屬性標(biāo)簽屬性含義rdfs:ClassRDF類(lèi),是rdfs:Resource的子類(lèi)?!帮L(fēng)險(xiǎn)”rdfs:range用來(lái)聲明一個(gè)屬性的值,是rdfs:Property的實(shí)例。的頻率”即“情感詞”屬性值rdfs:Literal表示所有文字值的類(lèi),是rdfs:Re-source的子類(lèi),是rdfs:Class的實(shí)例。示例:“字符串”“整數(shù)”rdfs:domain用來(lái)聲明屬性所屬的資源,是rdfs:Property的實(shí)例?!扒楦性~”而言的類(lèi)標(biāo)簽類(lèi)含義屬性標(biāo)簽屬性含義rdfs;Datatype對(duì)應(yīng)RDF中數(shù)據(jù)類(lèi)型。是rdfs:Literal和rdfs:Class的子類(lèi)rdfs:subClassOf用來(lái)聲明一個(gè)類(lèi)是另一個(gè)類(lèi)的子類(lèi)。一個(gè)子類(lèi)rdf:langString表示語(yǔ)言標(biāo)記字符串值的類(lèi),是的實(shí)例rdfs:subPropertyOf用來(lái)聲明一個(gè)屬性是另一個(gè)屬性的子屬性表示HTML文字值類(lèi),是rdfs:rdf:type是一個(gè)屬性,用來(lái)聲明一個(gè)資源是一個(gè)類(lèi)的實(shí)例。一個(gè)實(shí)例rdf:XMLLiteral表示XML文字值類(lèi),是rdfs:rdfs:label用于提供資源名稱(chēng)的可讀版本。更便于理解的名字rdfs:Property表示RDF屬性的類(lèi),是rdfs:Class的實(shí)例rdfs:comment用于提供對(duì)資源的可讀的描述??勺x描述RDFS的結(jié)構(gòu)如圖B.1所示。父類(lèi)父類(lèi)subClassOf-domain--range

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論