




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于文本數(shù)據(jù)的金融風險防控要求2022-04-15發(fā)布2022-11-01實施國家標準化管理委員會I 2規(guī)范性引用文件 l3術語和定義 4縮略語 45整體框架 6文本數(shù)據(jù)要求 47預處理 58信息抽取 58.1概述 58.2信息抽取整體框架 58.3抽取內容及特征分析 68.4抽取方法 9數(shù)據(jù)表示 89.1總體要求 89.2數(shù)據(jù)表示評估 99.3基于RDFS結構化表示 10分析預警 10.1數(shù)據(jù)清洗 10.2建模方法 10.3分析方法 11用戶交互 12系統(tǒng)評估 12.1原則 12.2類別 12.3評估方法 12.4評估指標 13安全防護 13.1安全技術要求 13.2安全管理要求 14軟硬件要求 14.1硬件基本要求 14.2軟件基本要求 Ⅱ附錄A(規(guī)范性)基于AHP的指標權重確定方法 附錄B(資料性)RDFS結構化描述 附錄C(規(guī)范性)RDFS表示具體技術流程 參考文獻 Ⅲ本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起草。本文件由中國人民銀行提出。本文件由全國金融標準化技術委員會(SAC/TC180)歸口。本文件起草單位:中國標準化研究院、中國銀行業(yè)協(xié)會、北京理工大學、中國工商銀行股份有限公司、中國農業(yè)銀行股份有限公司、中國建設銀行股份有限公司、中國工商銀行股份有限公司深圳分行、華南師范大學、北京工業(yè)大學、中國科學院計算技術研究所、中國科學技術信息研究所、北京大學、上海對外經貿大學、中國金融電子化公司、中國人民銀行太原中心支行、北京海致星圖科技有限公司、聊城大學、江蘇科技大學、廣東外語外貿大學、北京師范大學、中版集團數(shù)字傳媒有限公司、北京市科學技術情報研究所。1基于文本數(shù)據(jù)的金融風險防控要求1范圍本文件規(guī)定了基于文本數(shù)據(jù)金融風險防控的整體框架、文本數(shù)據(jù)要求、預處理、信息抽取、數(shù)據(jù)表本文件適用于金融相關的文本數(shù)據(jù)處理及金融信息的挖掘、抽取與分析。2規(guī)范性引用文件下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T4754—2017國民經濟行業(yè)分類GB/T20269—2006信息安全技術信息系統(tǒng)安全管理要求GB/T20271—2006信息安全技術信息系統(tǒng)通用安全技術要求GB/T32319—2015銀行業(yè)產品說明書描述規(guī)范ISO21586:2020金融服務的參考數(shù)據(jù)銀行產品服務說明描述規(guī)范[Referencedataforfinancialservices—Specificationforthedescriptionofbankingproductsorservices(BPoS)]3術語和定義下列術語和定義適用于本文件。學習learning一個生物學系統(tǒng)或自動系統(tǒng)獲得知識或技能的過程,使它可用于改進其性能。為確定類別成員的抽象實體。詞或詞組與它們的含義之間的關系。2解釋主要以讀者對某種自然語言或人工語言的理解為基礎。示例:打印在紙上或顯示在屏幕上的業(yè)務信件。關于客體(如事實、事件、事物、過程或思想,包括概念知識),在一定的場合中具有特定的意義。機器學習machinelearning自動學習automaticlearning功能單元通過獲取新知識或技能,或通過重組現(xiàn)有知識或技能來改善其性能的過程。漢字[漢語詞語]編碼Chinesecharacter[Chinesewordandphrase]coding按照一定的規(guī)則,對指定的漢字[漢語詞語]集內的元素編制相應的代碼。一組特征及其相互關系,用來識別在給定背景中的實體。一種特別的書面規(guī)則,能將專家用于解決問題的知識和經驗形式化。抽取(用作動詞)extract(信息檢索)從一組選項中,選擇并取出某些符合預先確定的性質的項。結構化表示structuredrepresentation一種格式化的、可識別的并具有一定的操作規(guī)范的文本數(shù)據(jù)的表示方法。注:表示后的文本數(shù)據(jù)的性質和量值位置是固定的。一種用于描述領域中各個概念和概念間的關系。個體之間的二元關系。3可感知或可想象到的任何事物。層次分析法AnalyticHierarchyProcess;AHP將與決策總是有關的元素分解成目標、準則、方案等層次,在此基礎之上進行定性和定量分析的決策方法。對組織具有價值的任何東西。分類classification把信息進行劃分(例如按照潛在欺騙、敏感性或信息關鍵度)以便應用適當控制措施的方法。風險risk不確定性對目標的影響。估計風險程度的系統(tǒng)過程。一方在到期日或未來的任意時候不能償還其債務而產生的風險。信用風險又稱為交易對手風險或履約風險,指交易對方不履行到期債務的風險。由于基礎資產市場價格的不利變動或者急劇波動而導致衍生工具價格或者價值變動的風險?;A[來源:商業(yè)銀行資本管理辦法]由不完善或有問題的內部程序、員工和信息科技系統(tǒng),以及外部事件所造成損失的風險。44縮略語下列縮略語適用于本文件。HTML:超文本標記語言(HyperTextMarkupLanguage)RDF:資源描述框架(ResourceDescriptionFramework)RDFS:資源描述框架模式(ResourceDescriptionFrameworkSchema)SVM:支持向量機(SupportVectorMachines)XML:可擴展標記語言(eXtensibeMarkupLanguage)5整體框架基于文本數(shù)據(jù)的金融風險防控一般技術要求主要包括以下幾個部分:——文本數(shù)據(jù):對本技術處理對象的要求,對應于本文件第6章;——預處理:信息抽取和分析預警前對文本數(shù)據(jù)的處理,對應于本文件第7章;——信息抽?。簭奈谋緮?shù)據(jù)中自動識別出實體、事件、關系等類型的信息,對應于本文件第8章;——數(shù)據(jù)表示:基于RDFS對風險關鍵信息及相關因素進行表示,對應于本文件第9章;——分析預警:分析預警技術的一般過程和方法,對應于本文件第10章;——用戶交互:對用戶界面的要求,對應于本文件第11章;——系統(tǒng)評估:給出評估的原則、類別、方法和常用評估指標,對應于本文件第12章;——安全防護:給出安全技術和安全管理的要求,對應于本文件第13章;——軟硬件要求:給出技術應用時對硬件和軟件的基本要求,對應于本文件第14章?;谖谋緮?shù)據(jù)的金融風險防控一般技術要求的整體框架如圖1所示。用戶交互非結構化文木數(shù)據(jù)信息抽取數(shù)據(jù)表示結構化文本數(shù)據(jù)軟硬件要求安全防護系統(tǒng)評估分析預警預處理圖1整體框架示意6文本數(shù)據(jù)要求用于進行信息抽取及風險分析預警的文本數(shù)據(jù)宜滿足以下要求:a)文本數(shù)據(jù)的內容與其來源保持一致;b)文本數(shù)據(jù)規(guī)模宜達到一定量級;c)文本數(shù)據(jù)內容能更新。57預處理信息抽取和風險分析預警前,宜對原始文本數(shù)據(jù)做以下處理。a)凈化網頁內容:刪除網頁中與金融內容關聯(lián)不大的部分,如導航欄、廣告等。b)統(tǒng)一文本編碼:采用通用的編碼轉換方法,將不同文本的編碼轉換為同一種編碼。c)去除數(shù)據(jù)噪音:刪除字符亂碼、多余空格、特殊符號、結構性標簽等噪音數(shù)據(jù),如HTML網頁標簽等。d)文本分詞與詞性標注:利用分詞方法,將文本轉換成離散的單詞序列,并對單詞的詞性進行標注。目前,中文自動分詞方法主要包括:1)基于規(guī)則的方法;2)基于統(tǒng)計的方法;3)基于傳統(tǒng)機器學習的方法;4)基于深度學習的方法;5)基于理解以及混合方法。示例:文本數(shù)據(jù):A公司跨界轉型“玩游戲”。根據(jù)企業(yè)的公告,本次重組標的公司的一季度業(yè)績未達標,未實現(xiàn)重組報告中的業(yè)績承諾。對此,公司昨日已經停牌。分詞結果:A/ws公司/n跨界/v轉型/v“/wp玩游戲/n”/wp。/wp根據(jù)/p企業(yè)/n的/u公告/n,/wp本次/r重組/v標的/n公司/n的/u一季度/nt業(yè)績/n未達標/v,/wp未/d實現(xiàn)/v重組/v報告/n中/nd的/u業(yè)績/ne)去除停用詞:通過構建金融領域適用的停用詞表,刪除文本中出現(xiàn)頻率高但對金融風險分析意f)統(tǒng)一表述形式:將不同表述形式的數(shù)據(jù)轉換為同一種表述形式。示例1:中文數(shù)字、特殊數(shù)字符號等都轉換為阿拉伯數(shù)字。示例2:繁體中文轉換為簡體中文。g)還原錯別字與變種字:通過識別糾錯、變種還原等方法,將文本中的錯別字和變種字(拆字、火星文等)還原為正確的文字。識別糾錯的方法主要包括基于模式和基于統(tǒng)計兩種方法。變種還原的方法包括基于詞表和基于模型兩種方法。8信息抽取8.1概述信息抽取指從給定的文本數(shù)據(jù)中自動識別出實體、事件、關系等類型的信息。示例1:從文本數(shù)據(jù)中識別出人名、地名、機構名、貨幣、時間等。示例2:從文本“根據(jù)數(shù)據(jù)顯示,2019年一季度末,房地產開發(fā)貸款余額為10.85萬億元”中識別出“2019年一季度8.2信息抽取整體框架信息抽取的整體框架如圖2所示。6信息抽取人名…基于模式的方法…機構名模式獲取模式匹配地點非結構化文本數(shù)據(jù)數(shù)字產品名稱特征選擇結構化文本數(shù)據(jù)聯(lián)系方式基于模式和統(tǒng)計結合方法金額數(shù)據(jù)源預處理標注圖2信息抽取框架示意8.3抽取內容及特征分析應符合GB/T32319—2015中對各類信息的描述,并與ISO21586:2020保持一致。示例:地域相關因素通常包括行政區(qū)劃、街道地址、郵政信箱、郵政編碼等。在文本中主要體現(xiàn)為:名稱、數(shù)字串、字母串。從文本數(shù)據(jù)中抽取的內容應包括但不限于以下5種:b)數(shù)量;c)人名;d)機構名;e)事件。8.3.2主要抽取內容在金融文本中的表達形式及規(guī)范化處理時間、數(shù)量、人名、機構名等主要抽取內容在金融文本中有不同的表達形式,不同抽取內容的表達形式如下。a)時間:金融文本中的時間信息通常由日期、時間詞、時間介詞短語、特殊名詞來表達。示例1:日期:2003年1月23日。示例3:時間介詞短語:自2003年以來。示例4:特殊名詞:亞洲金融危機時。b)數(shù)量:金融文本中,一條完整的數(shù)量信息包含4個組成部分:變量、比較運算符、數(shù)值或數(shù)值區(qū)示例:從金融文本“出口產品超過324.8億美元”中可以識別出以下數(shù)量信息:“出口產品,超過,324.8億,美元”,其7c)人名:金融文本中的人名通常有以下3種表達形式:1)單獨的姓氏;示例:周答復了昨日收購事宜。3)“姓氏/全名+稱謂/頭銜/職務”或“稱謂/頭銜/職務+姓氏/全名”。示例1:董事長張某某:中國人到國外買電飯煲刺痛了我。示例2:李某某先生應邀出席“中國新經濟與互聯(lián)網大會”。人名抽取結果應為全名的形式,對于單獨使用姓氏作為人名的,應進行邊界擴展及校驗。示例:從語句“昨天他以李某某個人名義拜訪了董事長王某某。”抽取到的人名為“李”。對于姓氏“李”進行邊界擴d)機構名:相較于普通組織機構名,金融領域的組織機構名有獨特的結構特征和上下文特征:2)多含有地區(qū)詞;示例:大連某某集團。3)名稱前常有與金融動作相關的動詞等。示例:“有相關新聞報道A公司不久將收購B公司”,收購為金融動作。以簡稱形式表述的組織機構名稱應與全稱建立映射關系。示例:從語句“A某負責籌劃了中國某某集團的IPO,因聘用中某主席的女兒而遭證券交易委員會的調查”中抽取e)事件:文本中出現(xiàn)多個時間與事件時,應提取與金融事件有直接關系的時間,并在時間與事件間建立關系。與事件有直接關系的時間一般有以下表達方式:1)時間距離事件句中的事件關鍵詞最近;2)時間在事件句所在段落的段首句;3)時間在事件所在文章的標題;4)時間在事件所在文章的首句;5)時間在事件句上文中距離事件句最近。8.4抽取方法8.4.1基于模式匹配的方法基于模式匹配的方法應至少包括以下2個步驟:a)模式獲?。横槍Σ煌畔⒊槿热莸恼Z言描述形式和語言特征,以自動或人工的方式獲取相應模式。模式獲取包括知識工程和自動訓練2種方法:1)知識工程方法以特定領域知識為基礎,針對信息抽取內容,通過人工方式總結歸納與之相符的語言特征,從而構建模式;2)自動訓練方法則利用機器學習從標注語料中自動獲取模式。b)模式匹配:從文本數(shù)據(jù)中抽取與模式相匹配的文本。8.4.2基于統(tǒng)計和機器學習的方法本方法通過對文本數(shù)據(jù)進行人工標注或統(tǒng)計分析,獲得分類特征,再結合機器學習模型構造分類器,對文本中的信息進行抽取。具體宜包含以下過程:a)數(shù)據(jù)標注:制定數(shù)據(jù)標簽集合,從既定的標簽集合中選擇合適的標簽對數(shù)據(jù)進行標注。數(shù)據(jù)標注采用人工、半自動或自動化的方式,通過使用統(tǒng)一的標注系統(tǒng)或利用現(xiàn)有的文本表格編輯工具完成。8示例:根據(jù)企業(yè)盈利能力比率、營運能力比率、短期償款能力比率、長期償款能力比率等數(shù)據(jù)特征,將給定企業(yè)的信數(shù)據(jù)標注應符合以下原則:1)標注結果的正確性原則;2)標注結果的完備性原則;3)標注符號的一致性原則;4)標注符號的獨立性原則;5)標注符號的確定性原則。b)特征選擇:針對特定的金融風險防控問題,從特征集合中選擇對于目標問題求解最有效的特征,從而降低數(shù)據(jù)集維度,提高學習算法性能。入選特征宜滿足以下要求:1)特征數(shù)量盡可能少:用映射或變換的方法精簡原始特征的數(shù)量;2)特征具有代表性:從原始特征中挑選出一些最具代表性、最有影響力的特征;3)特征最具分類信息:用數(shù)學的方法進行選取,找出最具分類信息的特征。貝葉斯等統(tǒng)計和機器學習算法。8.4.3基于規(guī)則和統(tǒng)計相結合的方法通過一定的技術流程將基于規(guī)則的方法和基于機器學習的方法進行結合。9數(shù)據(jù)表示9.1總體要求金融文本具有專業(yè)性,金融數(shù)據(jù)的表示要借助金融領域詞典、金融風險庫詞典等領域專業(yè)詞典,以達到數(shù)據(jù)表示結果專業(yè)并相對全面的效果。應完整的涵蓋金融風險相關的關鍵因素,并盡可能多的包含其他各類相關因素,盡量完整地描述該金融風險相關因素。針對不同金融風險因素的數(shù)據(jù)特點,通過對它們進行綜合分析,采用合適的方法或技術進行格式化處理,使得數(shù)據(jù)的表示具有可讀性,便于專業(yè)或非專業(yè)人士理解,不會造成閱讀困難或重大誤解。數(shù)據(jù)的表示應具有高度的可用性,適配多樣的數(shù)據(jù)處理技術與手段,簡化數(shù)據(jù)使用的操作難度與復雜度。數(shù)據(jù)的結構化表示應采用相對成熟、普適的理論方法,以提高數(shù)據(jù)對各種處理方式、方法的兼容性。99.2數(shù)據(jù)表示評估數(shù)據(jù)表示技術評估是依據(jù)RDFS結構化框架,采用一定的方法和程序,對表示的主體、客體和屬性進行評測或驗證。數(shù)據(jù)表示應符合的主要原則包括但不限于:b)應充分考察其社會效益和經濟效益;c)應考慮其發(fā)展和應用前景;d)應認真考慮來源、語義要素的不同類型和基本特點;e)應符合有關的國家標準、國際標準以及相關技術規(guī)則和規(guī)范的要求。利用層次分析法與專家評估相結合的方法,對數(shù)據(jù)內容的表示進行評價。通過專家評估法,定性的評估數(shù)據(jù)表示是否滿足標準的總體要求。利用層次分析法,給出最終的數(shù)據(jù)表示評分,判斷是否滿足數(shù)據(jù)表示的要求。9.2.3具體評估內容按照圖3構建數(shù)據(jù)表示的評估指標體系??傮w要求評分完整性領域支持n?讀性可用性技術成熟圖3數(shù)據(jù)表示評估指標體系圖同級指標權重通過專家主觀分析,借助AHP方法構造對比矩陣計算權重值(具體構造方法按照附對數(shù)據(jù)表示的總體要求滿足情況采用主觀式專家評分方式進行打分,由專家對各個指標的滿足情況賦予0~1之間的一個數(shù),其中0表示完全不滿足,1表示完全滿足。(W?,W?,…Wn)1,而各個指標值構成一個評分向量△=(δ?,δ?,…?)T,按公式(1)得到數(shù)據(jù)表示對要求滿足的最終評分:最終評分為0~1之間的數(shù),1為完全滿足,0為完全不滿足。若最終評分小于0.6,則視為不符合金融風險防控的數(shù)據(jù)表示要求。9.3基于RDFS結構化表示基于非結構化、半結構化的數(shù)據(jù),根據(jù)領域需求,確定該領域重點研究的實體或本體、客體,以及實體客體之間的屬性等。本體、客體即該領域需要研究的“一切資源”或者專業(yè)詞匯。屬性指該領域中本體和客體所具有的性質、本體和客體之間的關系。融風險領域和文本數(shù)據(jù),基于RDFS框架給出金融資源(FinanceResource)、金融風險類(FinanceRiskClass)、金融風險屬性(FinanceRiskProperty)的表示(RDFS的架構與核心概念見附錄B)。金融資源是包括金融風險領域的廣泛概念,包括金融、風險、情感詞等。金融資源的標簽和說明如下:b)說明:因為需要對金融領域的風險進行表示,因此給出更大范圍“金融”而不是“金融標簽。所有與金融領域相關的其他標簽都是在<rdfs:金融>根標簽下面。示例:<rdf:Descriptionrdf:ID=Finance><rdf:typerdf:resource="/2000/01/rdf-schema#Class"/></rdf:Description>。按GB/T4754—2017中規(guī)定的J類,金融行業(yè)包括4大類,分別是貨幣金融服務、資本市場服務、保險業(yè)和其他金融行業(yè)。4大類金融行業(yè)基于RDFS的標簽和說明如下:貨幣金融服務>(<rdfs:Monetary-Finance-Services>)、<rdfs:資本市場服務>(<rdfs:Capital-Markets-ServicesFinancial-Institutib)說明:<rdfs:金融行業(yè)>是金融行業(yè)類中的根標簽,嵌套在標簽<rdfs:金融>(<rdfs:Finance>)。其他4類<rdfs:>標簽位于<rdfs:金融行業(yè)>根標簽之下,是對金融行業(yè)的分類,每個標簽都既可以單獨使用,也可以嵌套在其他類標簽中。示例:<rdfs:Classrdf:ID=“Finance-Institutions”></rdfs:Class>。金融風險類金融風險有3大主要風險類別:信用風險、市場風險和操作風險。其中信用風險又分為公司風險、主權風險等;市場風險又分為利率風險、股權價格風險等;操作風險又分為內部欺詐風險、外部欺詐風險等。內部欺詐指一個以上的銀行內部人員進行的或為主參與的故意片區(qū)、盜用財產或違反監(jiān)管規(guī)章、法律或銀行策略的行為。外部欺詐指商業(yè)銀行以外的人員進行的故意騙取、盜用銀行財產或逃避法律的行為??稍谝患壏诸愔性黾恿鲃有燥L險、國別風險、聲譽風險、法律風險、戰(zhàn)略風險等。流動性風險指雖然未來的某些時候可能有能力償還,但目前沒有充足的現(xiàn)金償還其到期債務而產生的風險。流動性風險分為融資流動性風險和市場流動性風險。國別風險指由于某一國家或地區(qū)經濟、政治、社會變化及事件,導致該國家或地區(qū)借款人或債務人沒有能力或者拒絕償付銀行業(yè)金融機構債務,使銀行業(yè)金融機構在該國家或地區(qū)的商業(yè)存在遭受損失而產生的風險。聲譽風險是由于商業(yè)銀行經營、管理及其他行為或外部事件導致利益相關方對商業(yè)銀行產生負面評價而造成的風險。法律風險是由未預期到的法律或法規(guī)的實施或者由于合同無法執(zhí)行而造成損失的風險。戰(zhàn)略風險是指由企業(yè)整體損失的不確定性而造成的風險。主要風險類別的詳細分類體系見表1。表1金融風險分類體系一級分類二級分類信用風險公司風險;主權風險;銀行風險;零售風險;股權風險市場風險利率風險;股權價格風險;匯率風險;商品價格風險操作風險內部欺詐風險;外部欺詐風險;就業(yè)政策和工作場所安全性風險;客戶產品及業(yè)務操作風險;實體資產損壞風險;業(yè)務中斷和業(yè)務數(shù)據(jù)錯誤風險;系統(tǒng)失敗及運行操作風險;執(zhí)行、交割及流程管理風險金融風險類嵌套在金融機構類中,主要包括信用風險、市場風險、操作風險?;赗DFS的標簽和說明如下:a)標簽:<rdfs:金融風險>(<rdfs:Finance-Risk>)、<rdfs:信用風險>(<rdfs:Credit-Operation-Risk>);b)說明:標簽<rdfs:金融風險>是對金融風險范疇概括的類,嵌套在<rdfs:金融行業(yè)>下的子標簽中。其余3類具體的金融風險標簽代表不同的風險,是標簽<rdfs:金融風險>的子標簽。根據(jù)需要,可以自行在本文件的基礎上增加風險類別。每個行業(yè)可以選擇全部或者部分具體的風險子標簽,也可以自行賦予不同金融風險子標簽權重,本文件不做具體約束。示例:<rdfs:Classrdf:ID=“Finance-Risk”></rdfs:Class>。金融事件類是對與金融相關事件的結構化表示。例如:互聯(lián)網上金融論壇的相關評述性文字。用戶可以根據(jù)需要自定義相關RDFS標簽,主要標簽及說明如下:a)標簽:<rdfs:金融事件>(<rdfs:Finance-Event>)、<rdfs:url>、<rdfs:標題>(<rdfs:b)說明:標簽<rdfs:金融事件>金融事件類根標簽,嵌套在標簽<rdfs:金融風險>中。<rdfs:url>表示金融事件來源,用于區(qū)分不同事件,用戶根據(jù)需要對不同來源數(shù)據(jù)賦予不同權重值。時間>嵌套在根標簽<rdfs:金融事件>中,表示具體示例:<rdfs:Classrdf:ID=“Finance-Event”></rdfs:Class>。金融情感詞類是對金融風險中出現(xiàn)的情感詞進行表示的類。金融情感詞類是對金融情感詞典中的a)標簽:<rdfs:金融情感詞>(<rdfs:Financial-Emotion>)、<rdfs:通用情感詞>(<rdfs:Negative>)、<rdfs:領域情感詞>(<rdfs:FieldEmotion>)、<rdfs:網絡情感詞>(<rdfs:NetworkEmotion>)、<rdfs:情感詞頻率>(<rdfs:EmotionFrequency>);b)說明:<rdfs:金融情感詞>是對金融情感詞概括標簽,是金融情感詞類的根標簽,是嵌套在金融事件類中的子類,對金融事件中部分子標簽描述和表示。<rdfs:金融情感詞>根標簽下包領域情感詞>、<rdfs:網絡情感詞>、<rdfs:情感詞頻率>;<rdfs:情感詞頻率>為必選項。每個行業(yè)宜選擇全部情感詞標簽,或根據(jù)需要自行選擇部分標簽。示例:<rdfs:Classrdf:ID=“Financial-Emotion”></rdfs:Class>。金融風險結果類是對金融風險后果的結構化表示的類。金融風險結果類主要包括5級不同的金融(<rdfs:FinRisk-1>)、<rdfs:二級金融風險>(<rdfs:FinRisk-2>)、<rdfs:三級金融風險>(<rdfs:FinRisk-3>)、<rdfs:四級金融風險>(<rdfs:FinRisk-4>)、<rdfs:五級金融風b)說明:標簽<rdfs:金融風險結果>(<rdfs:FinanceRiskResult>)是金融風險結果類的根標簽,嵌套在金融風險類中。4種具體金融風險結果類嵌套在根標簽<rdfs:金融風險結果>(<rdfs:FinanceRiskResult>)中。5種具體的結果在使用時最多只能出現(xiàn)一個。示例:<rdfs:Classrdf:ID=“FinanceRiskResult”></rdfs:Class>?;赗DFS表示的金融屬性的標簽和說明如下:a)標簽:<rdfs:金融屬性>(<rdfs:FinanceProperty>)、<rdfs:是金融行業(yè)子類>、<rdfs:是金融風險子類>、<rdfs:是金融情感詞子類>、<rdfs:是金融風險結果子類>等;b)說明:標簽<rdfs:金融屬性>(<rdfs:FinanceProperty>)是金融屬性的根標簽,嵌套在標簽<rdfs:金融行業(yè)>(<rdfs:Finance-Institutions)、<rdfs:金融風險>(<rdfs:Finance-Risk>)、<rdfs:金融情感詞>(<rdfs:Financial-Emotion>)、<rdfs:金融風險結果>(<rdfs:FinanceRiskResult>),表示是某一大類的子類。標簽<rdfs:是XX子類>表示具體子類下面的子類。示例:<rdfs:Propertyrdf:ID=“FinanceProperty”><rdf:domainrdf:ID=“Monetary-Finance-Services”></rdfs:domain><rdf:rangerdf:ID=“操作風險”></rdfs:range></rdfs:Property>。9.3.5RDFS表示具體技術流程基于RDFS表示的具體技術流程應符合附錄C。10分析預警數(shù)據(jù)清洗是對數(shù)據(jù)進行審查和校驗的過程,通過數(shù)據(jù)清洗糾正文本數(shù)據(jù)中錯誤信息,補充不完整數(shù)據(jù)并保證數(shù)據(jù)一致性。根據(jù)數(shù)據(jù)清洗目的,清洗的內容應至少包括以下3部分:a)錯誤信息:不合邏輯的數(shù)據(jù);示例1:抽取出的當事人的基本信息年齡值為200。示例2:某當事人的貸款日期大于當前日期。b)不完整數(shù)據(jù):文字有省略的數(shù)據(jù);額為10.85萬億元。c)不一致數(shù)據(jù):邏輯上不合理或者相互矛盾的數(shù)據(jù)。不同的數(shù)據(jù)清理內容應采用不同的清理方法:a)錯誤值:采用偏差分析、識別不遵守分布或回歸方程的值等統(tǒng)計分析的方法,識別可能的錯誤值或異常值。也可利用簡單規(guī)則庫、不同屬性間的約束、外部的數(shù)據(jù)等清理錯誤數(shù)據(jù);b)不完整數(shù)據(jù):根據(jù)上下文語境或預先定義的規(guī)則補充數(shù)據(jù);c)不一致數(shù)據(jù):根據(jù)變量的合理取值范圍和相互關系,通過對完整性約束進行定義來檢測數(shù)據(jù)的不一致性。10.2建模方法建模宜滿足以下要求:a)模型滿足分析預警的需求;b)模型是確定的,可重復使用的;c)模型所需數(shù)據(jù)能通過文本獲??;d)模型中的數(shù)據(jù)能被計算;e)輸入模型的數(shù)據(jù)不可被修改;f)模型中所用數(shù)據(jù)能被方便的調用;g)模型能優(yōu)化升級。建模過程宜包括以下4個部分:a)確定建模目標;b)確定模型所需信息要素及各要素之間的關聯(lián)、數(shù)據(jù)及其相關過程;c)確定模型中數(shù)據(jù)的存儲方式;d)確定所采用的分析方法。10.3分析方法10.3.1基于規(guī)則的方法利用基于規(guī)則的方法進行分析預警,一般宜包括以下過程:a)基本規(guī)則構建:通過領域內專家對模型的分析,結合語言特征,以人工方式編制規(guī)則,并構建規(guī)則庫;b)規(guī)則擴充:利用規(guī)則庫中的基本規(guī)則,從文本數(shù)據(jù)進行信息抽取,并根據(jù)抽取的結果總結歸納新的規(guī)則,加入規(guī)則庫中;c)規(guī)則應用順序確定:依據(jù)分析目標,確定各個規(guī)則的使用順序。10.3.2基于機器的方法根據(jù)分析目標,在對數(shù)據(jù)集進行標注、特征選擇后,選擇合適的模型進行訓練,并根據(jù)訓練結果不斷調整模型參數(shù),得到最優(yōu)模型。分析模型的構建宜包括以下過程:a)方法選擇:針對分析預警任務和標注數(shù)據(jù)特征,選擇合適的機器學習算法,包括深度神經網絡、b)數(shù)據(jù)集劃分:將標注數(shù)據(jù)集劃分為訓練集和測試集;c)模型訓練:在訓練數(shù)據(jù)集上對選擇的模型進行參數(shù)優(yōu)化,從模型的假設空間中選擇最優(yōu)模型,擬合訓練數(shù)據(jù)集。在模型訓練過程中,需要確定模型訓練準則,包括期望風險最小化、經驗風險最小化和結構風險最小化等學習準則。模型求解過程可采用梯度下降、牛頓法、啟發(fā)式方法等;d)模型測試:在測試數(shù)據(jù)集上,應用學習到的風險分析預警模型,得到風險預測結果;e)模型評估:對訓練得到的風險分析預警模型進行評估,將模型預測結果與標注結果進行比對;選擇相應的評估指標對模型預測結果進行評估,包括但不限于精確率、召回率、F值、AUC度量評分等。11用戶交互系統(tǒng)應提供友好的用戶界面。界面宜具備以下功能:a)人機交互功能:用戶通過鍵盤或其他輸入設備向系統(tǒng)輸入提問、控制或其他有關信息,系統(tǒng)通過顯示屏幕或其他輸出設備給用戶提供解答、提示或其他有關信息。b)選單驅動功能:根據(jù)系統(tǒng)管理和用戶使用的需要,分別設置不同的選單;設計一個為用戶顯示多重選擇的選單系統(tǒng);根據(jù)需要設計多級選單。c)提示功能:提示的內容主要包括:1)出錯提示:提示錯誤的性質和類型及如何改正;2)拒絕接收提示:對無效和錯誤的操作進行指示、告警;3)操作步驟提示:提示下一步操作;4)重試操作提示:確保功能冪等性。d)求助功能:使用窗口技術或調用輔助庫、輔助屏予以實現(xiàn),該功能應方便調用、退出、返回原操作狀態(tài)。主要包括:1)正確操作的具體、詳細的說明;2)有關內容的資料,如代碼及其含義說明;3)對相關屏幕顯示內容的解釋,參數(shù)值的含義與范圍,命令或功能選擇描述。e)其他功能:為滿足用戶操作所提供的其他功能,如瀏覽等。12系統(tǒng)評估評估是依據(jù)某種技術指標體系,采用一定的方法和程序,對系統(tǒng)功能、特性和運行效果進行評測或驗證。主要原則如下:b)考察其社會效益和經濟效益;c)考慮其發(fā)展和應用前景;d)應符合有關的國家標準、國際標準以及相關技術規(guī)則和規(guī)范的規(guī)定。評估的主要類別如下:a)性能評估:系統(tǒng)效果以及滿足用戶需求的程度;b)性能費用評估:系統(tǒng)達到某種性能水平與所需費用之間的關系;c)費用效益評估:系統(tǒng)的效益與成本比的合理性。12.3評估方法金融等相關領域的專家從科學的角度出發(fā),根據(jù)規(guī)定的技術指標,對金融文本處理、信息抽取以及分析預警技術方法進行評估。評估方法主要包括以下3種:a)測試評估:按規(guī)定的測試大綱和指標,對方法的運行情況和各種性能進行測試;b)定性評估:根據(jù)測試結果以及與方法相關的基礎理論和有關標準,對處理、信息抽取以及分析預警結果的數(shù)量和質量,系統(tǒng)的軟硬件兼容程度、智能化程度、易用性、用戶自主性、實用性等性能,按級別進行評分;c)綜合評估:根據(jù)當前的技術水平和發(fā)展趨勢,進行縱向和橫向比較,對方法的各方面做出評估。從實用的角度,將本文件中所提出的方法與其他方法進行比較。用戶評估多為性能評估,也可以是性能GB/T41462—202212.4評估指標常用的評估指標主要包括:精確率(Precision)、召回率(Recall)、錯報率、漏報率和綜合評估指標(Fg-Measure)。其中,精確率、召回率、綜合評估指標的值越高越好。錯報率與漏報率的值越低越好。精確率,表示正確預測為正樣本(Truepositive)的數(shù)據(jù)在預測為正(Positive)的樣本數(shù)據(jù)中所占的比例。預測為正有兩種情況,一種是把正類預測為正類(Truepositive),另一種是把負類預測為正類(Falsepositive)。該評價指標的計算如式(1)所示: (1)錯報率,表示不應該預警的數(shù)據(jù)在所有預測數(shù)據(jù)中所占的比例,可用1-精確率計算得到。召回率,表示正確預測為正樣本(Truepositive)的數(shù)據(jù)在所有正樣本數(shù)據(jù)中所占的比例。所有正樣本數(shù)據(jù)有兩種情況,分別為正類預測為正類(Truepositive)和正類預測為負類(Falsenegative)。該評價指標的計算如式(2)所示: (2)漏報率,表示沒有被檢測到的數(shù)據(jù)中應預警數(shù)據(jù)在所有應預警數(shù)據(jù)中所占的比例,可用1-召回率計算得到。綜合評價指標,表示綜合均衡計算精確率和召回率,β表示精確率、召回率在計算綜合評價指標時的權重,通常取1,表示將精確率和召回率進行同等權重計算。該評價指標的計算如式(3)所示: (3)示例:當預警結果為是否提示預警時,預警是一個二分問題。應該預警的數(shù)據(jù)稱為正類,反之稱為負類。對于一個二分問題會出現(xiàn)四種情況。將正類預測為正類表示為TP,將正類預測為負類表示為FN,將負類預測為正類表示為FP,將負類預測為負類表示為TN??筛鶕?jù)這4種情況,從精確率、錯報率、召回率、漏報率4個指標對預警技術框架進行評估。精確率(TPRate)和召回率(FPRate)計算分別如式所示。錯報率為1-TPRate,漏報率為1-FPRate。13安全防護13.1安全技術要求13.2安全管理要求系統(tǒng)的安全管理要求應符合GB/T20269—2006中第4章的規(guī)定。14軟硬件要求14.1硬件基本要求硬件宜滿足如下基本要求:a)根據(jù)系統(tǒng)設計要求,優(yōu)選適用的計算機;b)能較容易地實現(xiàn)軟硬件之間的兼容配套;c)有足夠的數(shù)據(jù)存儲空間;d)數(shù)據(jù)處理速度、系統(tǒng)輸入輸出能力應滿足業(yè)務類型和用戶數(shù)量等的需要;e)維修方便;f)具有安全性和高可靠性;g)具有聯(lián)網功能;h)具有較強的可擴展能力,能方便地進行升級。14.2軟件基本要求軟件宜滿足如下基本要求:及其他應用軟件;b)具有較好的靈活性和可移植性,對運行環(huán)境有較強的適應能力;c)具有較強的可擴充能力,能夠根據(jù)需要升級;d)具有較好的人機交互能力;e)數(shù)據(jù)庫管理系統(tǒng)功能強,能方便地進行數(shù)據(jù)存取、檢索、補充、修改和刪除等;f)具有較好的安全性和保密性。GB/T41462—2022(規(guī)范性)基于AHP的指標權重確定方法A.1構建成對比較矩陣成對比較矩陣是層次分析法的數(shù)量依據(jù)。比較第i個元素與第j個元素相對上一層某個因素的重要性時,使用數(shù)量化的相對權重a;來描述。設共有n個元素參與比較,稱為成對比較矩陣。對每一層的指標兩兩對比,做成對比較矩陣。如式(A.1)所示:式中:ay——第i個指標相對第j個指標的重要程度,顯然,a=常用1~9尺度評分,例如同等重要評分為1,相對重要根據(jù)程度給出3、5、7、9等評分值。A.2一致性分析因成對比較矩陣是兩兩對比完成,可能會存在一致性差,導致違背邏輯的情況,因此需對其一致性進行檢驗。其具體步驟為:步驟一:計算一致性指標(CI),如式(A.2)所示:式中:λmax—-成對比較矩陣的最大特征值;n——矩陣對應的指標個數(shù)。步驟二:計算平均隨機一致性指標。平均隨機一致性指標(γ)與指標個數(shù)(n)有著很強的關聯(lián),其具體關系如表A.1所示。表A.1平均隨機一致性指標參考表n123456789γ00步驟三:計算一致性值(CR),如式(A.3)所示:式中:λmax——指標權重的組成向量。當CR<0.1時,可以認定該成對比較矩陣的一致性檢驗通過?!?A.3)(資料性)RDFS結構化描述B.1簡述RDFS(ResourceDescriptionFrameworkSchema,資源描述框架模式)是對RDF進行擴展。RDF對資源進行簡單聲明,RDFS對資源、資源的屬性以及資源之間的關系進行描述。B.2RDFS架構RDF是一種由資源、屬性、屬性值組成的三元結構,描述了主語、謂語、賓語之間的關系。RDF以三元組(主語,謂語,賓語)形式描述資源(Resource)和資源之間的關系。RDFS是在RDF的基礎上發(fā)展的。RDFS是一種RDF詞匯集描述語言,定義了如何用RDF來描述詞匯集,并提供了一個用來描述RDF的詞匯集。RDF的核心概念如表B.1所示。RDFS的核心概念如表B.2所示。RDFS資源,表示為rdfs:Resource,RDF描述的所有“一切”都被稱為資源。例如“金融”。RDFS類:資源被分成的組。RDFS屬性,表示為rdfs:Property,描述主題資源和對象資源之間的關系。說明:RDFS是在RDF基礎上發(fā)展,因此部分標簽是以<rdf>開始的。國際化資源標識符(InternationalizedResourceIdentifier,IRI)。標簽含義節(jié)點Subject(主體)聲明被描述的事物IRI節(jié)點或空白節(jié)點Predicate(謂語)事物的屬性Object(賓語)屬性的值IRI,文本或空白節(jié)點表B.2RDFS的核心概念類標簽類含義屬性標簽屬性含義rdfs:ClassRDF類,是rdfs:Resource的子類?!帮L險”rdfs:range用來聲明一個屬性的值,是rdfs:Property的實例。的頻率”即“情感詞”屬性值rdfs:Literal表示所有文字值的類,是rdfs:Re-source的子類,是rdfs:Class的實例。示例:“字符串”“整數(shù)”rdfs:domain用來聲明屬性所屬的資源,是rdfs:Property的實例。“情感詞”而言的類標簽類含義屬性標簽屬性含義rdfs;Datatype對應RDF中數(shù)據(jù)類型。是rdfs:Literal和rdfs:Class的子類rdfs:subClassOf用來聲明一個類是另一個類的子類。一個子類rdf:langString表示語言標記字符串值的類,是的實例rdfs:subPropertyOf用來聲明一個屬性是另一個屬性的子屬性表示HTML文字值類,是rdfs:rdf:type是一個屬性,用來聲明一個資源是一個類的實例。一個實例rdf:XMLLiteral表示XML文字值類,是rdfs:rdfs:label用于提供資源名稱的可讀版本。更便于理解的名字rdfs:Property表示RDF屬性的類,是rdfs:Class的實例rdfs:comment用于提供對資源的可讀的描述。可讀描述RDFS的結構如圖B.1所示。父類父類subClassOf-domain--range
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農村蓋房簽合同范本
- 鄉(xiāng)鎮(zhèn)庫房建造合同范本
- 創(chuàng)業(yè)老板合同范本
- 1997施工合同范本
- 公司購買材料合同范本
- 保險勞務合同范本
- mpp管采購合同范本
- app廣告合同范本
- 加盟痘痘合同范本
- 住房公證合同范本
- 醫(yī)療器械質量負責人崗位職責
- 中醫(yī)小兒常見皮膚病
- 第十七屆山東省職業(yè)院校技能大賽機器人系統(tǒng)集成應用技術樣題1學生賽
- 血管通路的介入治療
- 臨床三基考試題庫(附答案)
- 2024年浙江省杭州市拱墅區(qū)中考語文一模試卷
- 無人售貨機的食品安全管理制度
- 校園直飲水機供貨安裝及售后服務方案
- 個人保證無糾紛承諾保證書
- DB51T10009-2024DB50T10009-2024康養(yǎng)度假氣候類型劃分
- 華文版六年級下冊書法教案
評論
0/150
提交評論