海量非結(jié)構(gòu)化信息智能化處理課件_第1頁
海量非結(jié)構(gòu)化信息智能化處理課件_第2頁
海量非結(jié)構(gòu)化信息智能化處理課件_第3頁
海量非結(jié)構(gòu)化信息智能化處理課件_第4頁
海量非結(jié)構(gòu)化信息智能化處理課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

海量非結(jié)構(gòu)化信息智能化處理施水才北京拓爾思信息技術(shù)股份有限公司總裁2019年1月6日北京中國非結(jié)構(gòu)化數(shù)據(jù)管理高峰論壇(CUDMS2019)海量非結(jié)構(gòu)化信息智能化處理施水才中國非結(jié)構(gòu)化數(shù)據(jù)管理高峰論壇1提要大數(shù)據(jù)管理的新挑戰(zhàn)海量非結(jié)構(gòu)化信息智能化處理的關(guān)鍵技術(shù)和典型應用中國非結(jié)構(gòu)化信息處理軟件的市場概況TRS非結(jié)構(gòu)化數(shù)據(jù)管理和智能化處理系統(tǒng)TRS海量非結(jié)構(gòu)化信息智能化處理成功案例提要大數(shù)據(jù)管理的新挑戰(zhàn)2一、大數(shù)據(jù)管理的新挑戰(zhàn)一、大數(shù)據(jù)管理的新挑戰(zhàn)3一、大數(shù)據(jù)管理的新挑戰(zhàn)從互聯(lián)網(wǎng)服務(wù)到企業(yè)信息化從各取所需到集成和融合統(tǒng)一建模從管理數(shù)據(jù)到理解和分析內(nèi)容一、大數(shù)據(jù)管理的新挑戰(zhàn)從互聯(lián)網(wǎng)服務(wù)到企業(yè)信息化4大數(shù)據(jù)管理的新挑戰(zhàn)

-從互聯(lián)網(wǎng)服務(wù)到企業(yè)信息化互聯(lián)網(wǎng)服務(wù)企業(yè)計算新一代企業(yè)計算推動了數(shù)據(jù)分析及非結(jié)構(gòu)化信息管理的技術(shù)突破Hadoop架構(gòu)提供了巨大的可擴展性和靈活性優(yōu)勢朝云服務(wù)方向發(fā)展,但是并不適合很多企業(yè)計算環(huán)境對非結(jié)構(gòu)化信息本身的理解非常有限成本可維護性對業(yè)務(wù)的支持內(nèi)/外一體化封閉的數(shù)據(jù)庫世界有限的非結(jié)構(gòu)化數(shù)據(jù)管理能力缺乏低成本可擴展性在企業(yè)級計算中部署大數(shù)據(jù)管理技術(shù)是一種趨勢,

但仍需時日,一體機和通用平臺之爭大數(shù)據(jù)管理的新挑戰(zhàn)

-從互聯(lián)網(wǎng)服務(wù)到企業(yè)信息化互聯(lián)網(wǎng)服務(wù)企5大數(shù)據(jù)管理的新挑戰(zhàn)

-從各取所需到集成和融合統(tǒng)一建模目前解決結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一處理的方法的機制并不完善,缺乏形式化支持文件

系統(tǒng)SQLNoSQLX?SQL的傳統(tǒng)主導地位互聯(lián)網(wǎng)企業(yè)的反SQL文化未來的企業(yè)級平臺是否能統(tǒng)一?IBM,Oracle,Microsoft都在致力解決這個問題大數(shù)據(jù)管理的新挑戰(zhàn)

-從各取所需到集成和融合統(tǒng)一建模目前解決6大數(shù)據(jù)管理的新挑戰(zhàn)

-從管理數(shù)據(jù)到理解和分析內(nèi)容雖然大數(shù)據(jù)是一個重大問題,Gartner分析師表示,真正的問題是讓大數(shù)據(jù)更有意義目前海量數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲的橫向擴展,但對非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實質(zhì)性的突破和進展,這是實現(xiàn)大數(shù)據(jù)資源化、知識化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語言理解、多媒體內(nèi)容理解、機器學習等目前所有大數(shù)據(jù)管理的解決方案

沒有解決語義計算的基本問題:理解內(nèi)容大數(shù)據(jù)管理的新挑戰(zhàn)

-從管理數(shù)據(jù)到理解和分析內(nèi)容雖然大數(shù)據(jù)是7二、海量非結(jié)構(gòu)化信息智能化處理的關(guān)鍵技術(shù)和典型應用二、海量非結(jié)構(gòu)化信息智能化處理的關(guān)鍵技術(shù)和典型應用8海量非結(jié)構(gòu)化信息智能化

處理關(guān)鍵技術(shù)分類和聚類信息抽取基于語義的檢索關(guān)聯(lián)關(guān)系

挖掘情感計算可視化展現(xiàn)跨媒體

融合多媒體內(nèi)容理解個性化推薦海量非結(jié)構(gòu)化信息智能化

處理關(guān)鍵技術(shù)分類和聚類信息抽取基于語9語義智能計算短語級的語義計算相似短語、相關(guān)短語的計算實體、要素間的關(guān)聯(lián)關(guān)系挖掘?qū)嶓w的情感分析詞語級的聚類分析。例:標簽聚類短語級的比對分析等。例:姓名、出生日期、學歷、地址、單位名稱等篇章級的語義計算同語種、跨語種的相似文本計算(例:文章轉(zhuǎn)載報道、文章消重等)文本自動分類、文本的聚類分析句子、篇章級的情感分析篇章級變異信息的識別與比對(例如:篡改)

語義智能計算短語級的語義計算10自動分類關(guān)鍵點統(tǒng)計與規(guī)則相結(jié)合的混合分類引擎分類體系的科學化基于中文新聞信息分類體系的分類模板構(gòu)造支持多語言混合分類難點針對差異化對象數(shù)據(jù),模板參數(shù)的合理化設(shè)置分類模板的反饋學習機制提供較實用的分類可信度評價指標,供應用參考自動分類關(guān)鍵點11關(guān)鍵詞標引與自動摘要技術(shù)關(guān)鍵點基于位置、頻度和背景詞庫等多維度的標引和摘要引擎行業(yè)詞典支持詞性、短語類型、長度、特殊符號標識基于關(guān)鍵句的權(quán)值運算與篩選的摘要策略關(guān)鍵詞驅(qū)動的偏重摘要難點基于語義的隱含標引關(guān)鍵詞標引與自動摘要技術(shù)關(guān)鍵點12命名實體識別關(guān)鍵點實體識別算法+工程應用行業(yè)知識庫支撐基于行業(yè)應用場景的實體識別機制(公文、案件、物品等)難點綽號、網(wǎng)名、小名、筆名、藝名、指標名稱……同名排歧人物多重社會角色分析命名實體識別關(guān)鍵點13實體關(guān)系的抽取關(guān)鍵點語境、上下文關(guān)系分析關(guān)系引擎構(gòu)建面向行業(yè)的主題詞典角色關(guān)系詞典與RDBMS結(jié)合的聯(lián)動挖掘難點類屬關(guān)系識別(糧食:大豆)隱含關(guān)系發(fā)現(xiàn)(股東關(guān)系)關(guān)系鏈深度、廣度挖掘基于圖論的可視化關(guān)聯(lián)展示實體關(guān)系的抽取關(guān)鍵點14信息抽取實例信息抽取實例15人物關(guān)系挖掘?qū)嵗宋镪P(guān)系挖掘?qū)嵗?6自動過濾與自動消重關(guān)鍵點垃圾廣告信息的識別(群發(fā))轉(zhuǎn)載文章相似度比對技術(shù)不同閾值的相似文章聚合變異信息的識別與比對(篡改)難點千萬級數(shù)據(jù)消重的亞秒級響應機制違規(guī)非法內(nèi)容的判定與識別跨語言的新聞信息轉(zhuǎn)載識別自動過濾與自動消重關(guān)鍵點17話題檢測與追蹤技術(shù)關(guān)鍵點海量信息片段的聚合機制話題相關(guān)度運算難點基于遺忘因子機制的話題演化跟蹤敏感話題的及時發(fā)現(xiàn)話題檢測與追蹤技術(shù)關(guān)鍵點18情感分析關(guān)鍵點主觀情感色彩語句、要素識別傾向性語義模型庫的構(gòu)建語義傾向性詞典的傾向強度劃分情感持有者、情感極性與情感對象的關(guān)聯(lián)判定難點復句的句法邏輯與情感詞匯的潛在情感極性判斷(并列復句、轉(zhuǎn)折復句、條件復句、遞進復句等)語氣、語境與情感詞匯融合的情感分析(否定句、感嘆句、疑問句)情感分析關(guān)鍵點19多媒體標注和檢索圖像檢索音頻識別、分類和檢索視頻摘要、字母提取跨媒體檢索20多媒體標注和檢索圖像檢索2020大規(guī)模挖掘的技術(shù)趨勢分布式大規(guī)模挖掘,解決性能問題動態(tài)樣本學習,不斷優(yōu)化語義規(guī)則和統(tǒng)計模型,確保精度的穩(wěn)定和持續(xù)提高大規(guī)模挖掘的技術(shù)趨勢分布式大規(guī)模挖掘,解決性能問題21海量非結(jié)構(gòu)化信息智能化

處理典型應用企業(yè)搜索知識管理搜索引擎內(nèi)容管理輿情分析社交網(wǎng)絡(luò)電子商務(wù)海量非結(jié)構(gòu)化信息智能化

處理典型應用企業(yè)搜索知識管理搜索引擎22三、中國非結(jié)構(gòu)化中文信息智能

應用軟件市場概況三、中國非結(jié)構(gòu)化中文信息智能

應用軟件市場概況23研究范圍中文信息智能應用是指用計算機對中文信息進行智能分類、存儲、搜索、發(fā)布、監(jiān)測等處理和應用。

非結(jié)構(gòu)化中文信息智能應用對象為非結(jié)構(gòu)化的中文文字信息,不包括音頻、視頻和圖像,非結(jié)構(gòu)化中文信息智能應用軟件市場包括中文企業(yè)搜索軟件、基于垂直搜索的應用軟件、內(nèi)容管理軟件和知識管理軟件等研究范圍中文信息智能應用是指用計算機對中文信息進行智能分類、242019年中國非結(jié)構(gòu)化中文信息智能應用軟件市場細分產(chǎn)品規(guī)模與結(jié)構(gòu)規(guī)模(單位:億元)百分比企業(yè)搜索軟件3.6715.7%內(nèi)容管理軟件11.7650.4%知識管理及競爭情報軟件4.7820.5%垂直搜索及輿情監(jiān)測軟件3.1213.4%總計23.33100%數(shù)據(jù)來源:賽迪顧問

2019,122019年中國非結(jié)構(gòu)化中文信息智能應用軟件市場細分產(chǎn)品規(guī)模與252019-2019年中國非結(jié)構(gòu)化中文信息智能

應用軟件市場細分產(chǎn)品規(guī)模預測2019年規(guī)模(億元)2019年規(guī)模(億元)2019年規(guī)模(億元)企業(yè)搜索軟件4.645.847.32內(nèi)容管理軟件14.7018.2922.67知識管理及競爭情報軟件5.867.239.02垂直搜索及輿情監(jiān)測軟件4.115.537.45總計29.3136.8946.462019年,中國非結(jié)構(gòu)化中文信息智能應用軟件市場規(guī)模將達到46.46億元,年均復合增長率為25.8%數(shù)據(jù)來源:賽迪顧問

2019,122019-2019年中國非結(jié)構(gòu)化中文信息智能

應用軟件市場細262019年中國非結(jié)構(gòu)化中文信息智能應用軟件市場主力廠商份額結(jié)構(gòu)1、國際廠商仍然占據(jù)主要地位

2、拓爾思為國內(nèi)廠商第一名

3、市場仍然分散,未來有較大空間2019年中國非結(jié)構(gòu)化中文信息智能應用軟件市場主力廠商份額結(jié)27四、TRS非結(jié)構(gòu)化數(shù)據(jù)管理和智能化處理系統(tǒng)四、TRS非結(jié)構(gòu)化數(shù)據(jù)管理和智能化處理系統(tǒng)28拓爾思VS非結(jié)構(gòu)化信息處理拓爾思信息技術(shù)股份有限公司是中國資本市場上唯一的以非結(jié)構(gòu)化信息處理為核心業(yè)務(wù)的上市公司

(300229),是中國非結(jié)構(gòu)化信息處理領(lǐng)域的領(lǐng)導者,核心技術(shù)包括企業(yè)搜索引擎、垂直搜索引擎、內(nèi)容管理、信息智能挖掘分析、輿情分析技術(shù)等公司自主研發(fā)的TRS系列產(chǎn)品已被國內(nèi)外3000多家企業(yè)級機構(gòu)客戶廣泛使用,覆蓋了眾多國家部委和地方政府部門、國內(nèi)主要新聞媒體、大型企業(yè)集團等拓爾思VS非結(jié)構(gòu)化信息處理拓爾思信息技術(shù)股份有限公司是中29TRS非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)路線圖基于SQL-效率低基于文件系統(tǒng)

的專用數(shù)據(jù)庫-高效,對結(jié)構(gòu)化數(shù)據(jù)支持不足SQL+專用數(shù)據(jù)庫-復雜檢索引擎-內(nèi)容管理(CM)SQL+NoSQL(Hadoop/Hbase)

+多引擎+云服務(wù)平臺~19931993~20002019~20192019~TRS非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)路線圖基于SQL基于文件系統(tǒng)

的30TRS非結(jié)構(gòu)化信息處理的定位不僅滿足數(shù)據(jù)管理的要求,理解內(nèi)容、發(fā)現(xiàn)內(nèi)容的價值是TRS的研發(fā)重點自然語言理解多媒體內(nèi)容理解跨媒體和跨語言搜索和互聯(lián)網(wǎng)單一應用相比,重視信息內(nèi)容的全生命周期管理云服務(wù)和軟件系統(tǒng)并舉互聯(lián)網(wǎng)服務(wù)的彈性企業(yè)信息系統(tǒng)的可實施性和可維護性TRS非結(jié)構(gòu)化信息處理的定位不僅滿足數(shù)據(jù)管理的要求,理解內(nèi)31實現(xiàn)核高基成果的產(chǎn)品化和應用是核高基“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”清華課題組參與單位負責LaUD的產(chǎn)品化和應用推廣實現(xiàn)核高基成果的產(chǎn)品化和應用是核高基“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”32五、TRS海量非結(jié)構(gòu)化信息智能化處理成功案例五、TRS海量非結(jié)構(gòu)化信息智能化處理成功案例33案例名稱新華社多媒體數(shù)據(jù)庫國家知識產(chǎn)權(quán)局專利檢索服務(wù)系統(tǒng)某部**智能搜索和挖掘系統(tǒng)海爾全球網(wǎng)站群(企業(yè)內(nèi)容管理)TRS輿情云服務(wù)系統(tǒng)政府企業(yè)安全互聯(lián)網(wǎng)案例名稱新華社多媒體數(shù)據(jù)庫政府企業(yè)安全互聯(lián)網(wǎng)34新華社多媒體數(shù)據(jù)庫系統(tǒng)是新華社的核心業(yè)務(wù)支撐,典型的非結(jié)構(gòu)化數(shù)據(jù)管理應用場景,持續(xù)IT投資已經(jīng)超過6億人民幣以新華社遍布全球的新聞信息及采集網(wǎng)絡(luò)為依托,全面整合新華社的文字、圖片、圖表、音視頻、報刊等全部資源和社會上有價值的新聞信息資源,擁有包括中、英、法、俄、西、阿及中文繁體在內(nèi)的6個文種,數(shù)據(jù)量超PB最早采用文件系統(tǒng),后來改為Oracle,效率很低,再改為Oracle+TRS,持續(xù)服務(wù)至今從大型機改為PC服務(wù)器集群有采用云計算技術(shù)的計劃新華社多媒體數(shù)據(jù)庫系統(tǒng)是新華社的核心業(yè)務(wù)支撐,典型的非結(jié)構(gòu)化351.5億條原創(chuàng)新聞資訊26000小時權(quán)威原創(chuàng)視頻700萬張圖片27000家注冊用戶8000多種資源分類PB級數(shù)據(jù)量多語種數(shù)據(jù)1.5億條26000小時700萬張圖片27000家8000多36新華社多媒體數(shù)據(jù)庫數(shù)據(jù)流轉(zhuǎn)圖新華社多媒體數(shù)據(jù)庫數(shù)據(jù)流轉(zhuǎn)圖37新華社多媒體庫的技術(shù)特點非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理TRS多語言檢索引擎全面采用TRS文本挖掘技術(shù)良好的集群擴展能力索引服務(wù)器讀寫分離新華社多媒體庫的技術(shù)特點非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理38國家知識產(chǎn)權(quán)局專利檢索服務(wù)系統(tǒng)2019年專利局引進了歐洲EPOQUE系統(tǒng),基于大型機的專利檢索系統(tǒng),每年的系統(tǒng)維護費用就達數(shù)千萬元2019年開始建設(shè)自主可控可持續(xù)發(fā)展的專利檢索和服務(wù)系統(tǒng),采用大量的PC服務(wù)器典型的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)應用場景目前公共檢索和審查員檢索系統(tǒng)全部使用TRS檢索引擎國家知識產(chǎn)權(quán)局專利檢索服務(wù)系統(tǒng)2019年專利局引進了歐洲EP39專利檢索系統(tǒng)的需求特點數(shù)據(jù)多樣性結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合申請人、申請?zhí)?、名稱等著錄項很多;權(quán)利要求書、說明書等全文數(shù)據(jù)規(guī)模大各庫數(shù)據(jù)結(jié)構(gòu)差異大查詢要求高嚴格的查全和查準要求基于領(lǐng)域知識的智能檢索結(jié)構(gòu)化和非結(jié)構(gòu)化信息聯(lián)合查詢相關(guān)專利推薦專利檢索系統(tǒng)的需求特點數(shù)據(jù)多樣性40專利檢索與服務(wù)系統(tǒng)的數(shù)據(jù)種類與規(guī)模6億多條專利記錄多渠道異構(gòu)資源整合100%查全率<1秒響應時間700-1000并發(fā)7×24穩(wěn)定可靠1萬注冊用戶專利檢索與服務(wù)系統(tǒng)的數(shù)據(jù)種類與規(guī)模6億多條多渠道異構(gòu)100%41專利檢索引擎數(shù)據(jù)流轉(zhuǎn)圖專利檢索引擎數(shù)據(jù)流轉(zhuǎn)圖42專利檢索與服務(wù)系統(tǒng)-外觀圖像檢索專利檢索與服務(wù)系統(tǒng)-外觀圖像檢索43專利圖像外觀檢索局部檢索形狀檢索紋理檢索不變性特征檢索草圖檢索數(shù)據(jù)分類數(shù)據(jù)聚類基于相關(guān)反饋的檢索跨語言檢索600萬幅專利圖片查詢性能從原來的分鐘級提高到秒級索引性能從原來的天級提高到現(xiàn)在的小時級專利圖像外觀檢索局部檢索600萬幅專利圖片44某部**智能搜索和挖掘系統(tǒng)系統(tǒng)特點:巨大的數(shù)據(jù)量多樣性數(shù)據(jù)數(shù)據(jù)極快速增長系統(tǒng)現(xiàn)狀已經(jīng)部署數(shù)千臺服務(wù)器,滿足了業(yè)務(wù)需求挑戰(zhàn)性能和可擴展性整合和調(diào)度目前部署TRS系統(tǒng)2000多套,正在改進系統(tǒng)架構(gòu),增強分布式存貯、管理和查詢挖掘性能某部**智能搜索和挖掘系統(tǒng)系統(tǒng)特點:目前部署TRS系統(tǒng)2045**全球網(wǎng)站群(企業(yè)內(nèi)容管理)企業(yè)內(nèi)容管理的發(fā)展趨勢互聯(lián)網(wǎng)品牌宣傳交互平臺互聯(lián)網(wǎng)營銷中心互聯(lián)網(wǎng)電子商務(wù)運營體系**的實踐原來采用IBM咨詢、產(chǎn)品、服務(wù)整體解決方案成本高、性能差2019年全部改為TRS產(chǎn)品和應用解決方案內(nèi)容管理、Web2.0、電子商務(wù)、數(shù)據(jù)挖掘**全球網(wǎng)站群(企業(yè)內(nèi)容管理)企業(yè)內(nèi)容

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論