企業(yè)內(nèi)部文檔智能語(yǔ)義搜索方案_第1頁(yè)
企業(yè)內(nèi)部文檔智能語(yǔ)義搜索方案_第2頁(yè)
企業(yè)內(nèi)部文檔智能語(yǔ)義搜索方案_第3頁(yè)
企業(yè)內(nèi)部文檔智能語(yǔ)義搜索方案_第4頁(yè)
企業(yè)內(nèi)部文檔智能語(yǔ)義搜索方案_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、NeusoftBeyond Technology企業(yè)內(nèi)部文檔智能語(yǔ)義搜索方案1.背景和意義近年來(lái),企業(yè)文檔管理和檢索方式經(jīng)歷了分門(mén)別類管理,數(shù)字信息化管理和 全文搜索引擎三大階段,使得企業(yè)利用文檔信息的效率不斷提高。但是隨著信息 化程度的不斷提高,尤其是大數(shù)據(jù)數(shù)字浪潮的思維深入發(fā)展的背景下,目前信息 化企業(yè)文檔管理以及基于關(guān)鍵詞的全文檢索技術(shù)仍舊存在諸多的短板和問(wèn)題,影 響了企業(yè)自身知識(shí)利用價(jià)值的實(shí)際落地應(yīng)用,目前基于關(guān)鍵詞檢索的搜索技術(shù)存 在信息丟失、返回信息太多、信息無(wú)關(guān)等局限性,主要癥結(jié)體現(xiàn)在如下方面:.基于關(guān)鍵詞的檢索,對(duì)于絕大部分人來(lái)說(shuō)存在一定的應(yīng)用門(mén)檻,如何選取適當(dāng)?shù)年P(guān)鍵詞來(lái)找到需

2、要的信息,需要具備一定的搜索技巧和對(duì)業(yè)務(wù)問(wèn)題的清 晰認(rèn)識(shí)。更多的時(shí)候,簡(jiǎn)單的關(guān)鍵詞搜索返回的命中信息太多,還是需要人 工閱讀篩選真正有價(jià)值的內(nèi)容。.普通全文檢索缺少真實(shí)世界的關(guān)聯(lián)性,聯(lián)想和類比是人類智慧過(guò)程的兩種重要方法。在普通全文檢索中,用戶獲得的還是碎片化的信息,最終依然需要 進(jìn)行大量的細(xì)致閱讀和人工整理過(guò)程,從而形成對(duì)查詢問(wèn)題的認(rèn)識(shí)。需要更 智能的信息化方法,幫助人工建立關(guān)聯(lián)分析體系,提高知識(shí)服務(wù)效能。.在海量的企業(yè)文檔信息中,存在大量的隱性信息,這些隱性信息作為信息單元本身可能價(jià)值較低,也不好加以利用,或者雖然有價(jià)值,但是挖掘代價(jià)高,理解難度大。因此長(zhǎng)期以來(lái),在企業(yè)文檔管理中,得到大量

3、應(yīng)用的都是那些顯性信息。如何利用好隱性信息,讓企業(yè)的知識(shí)得到最大化的再利用,產(chǎn)生新的源源不斷的價(jià)值,是大數(shù)據(jù)的核心體現(xiàn)。面向企業(yè)文檔管理現(xiàn)有信息化方案的不足和需求,本方案擬以自然語(yǔ)言理解 與人工智能技術(shù)為基礎(chǔ),基于SaCa - DeepConig知識(shí)服務(wù)平臺(tái)產(chǎn)品實(shí)現(xiàn)文檔管理 中的智能語(yǔ)義搜索,對(duì)搜索結(jié)果進(jìn)行更精確的知識(shí)挖掘,建立碎片信息間的分類 體系與語(yǔ)義關(guān)聯(lián),發(fā)現(xiàn)利用隱性信息。為企業(yè)提供更加有效的知識(shí)管理服務(wù)系統(tǒng)。NeusoftBeyond Technology語(yǔ)義搜索普通基于關(guān)鍵詞匹配的全文搜索并不具備語(yǔ)義理解的功能。比如在全文搜索 引擎中輸入“計(jì)算機(jī)”為關(guān)鍵詞,在返回結(jié)果中不會(huì)包含只有“

4、電腦”這種表述 的文檔資料。在實(shí)際應(yīng)用中,存在大量的同義詞和近義詞。通過(guò)DeepCogni的語(yǔ) 義擴(kuò)展算法可以搜索到被搜索詞擴(kuò)展之后的相關(guān)內(nèi)容。例如搜索“java讀文件” 時(shí),通過(guò)語(yǔ)義擴(kuò)展可以搜索到“java讀取文件”、“java讀寫(xiě)文件” “java文件讀寫(xiě) 操作”等內(nèi)容。00 0iii相關(guān)詞分析詞向量相關(guān)詞網(wǎng)絡(luò)中文分同00 0iii相關(guān)詞分析詞向量相關(guān)詞網(wǎng)絡(luò)中文分同詞序列處理圖1相關(guān)詞分析基于語(yǔ)義的搜索引擎使搜索引擎的工作不再拘泥于用戶輸入的關(guān)鍵詞,而是 能夠?qū)@些關(guān)鍵詞進(jìn)行語(yǔ)義計(jì)算。通過(guò)在語(yǔ)義的層面上把文檔中關(guān)鍵詞和其映射 的概念進(jìn)行關(guān)聯(lián),對(duì)文檔信息所蘊(yùn)含的語(yǔ)義信息進(jìn)行充分挖掘,同時(shí)把用

5、戶的檢 索要求轉(zhuǎn)換成相應(yīng)的語(yǔ)義表示。借助語(yǔ)義搜索功能,企業(yè)人員在檢索文檔文件時(shí),不再會(huì)精挑細(xì)選關(guān)鍵詞組 合,只需要準(zhǔn)確表達(dá)自己的含義,相關(guān)的信息詞匯,系統(tǒng)進(jìn)行智能擴(kuò)充,查詢所 有符合用戶語(yǔ)義期待的命中結(jié)果。圖2基于內(nèi)容的搜索關(guān)鍵詞擴(kuò)展和智能提示關(guān)聯(lián)發(fā)現(xiàn)通過(guò)對(duì)文檔資料進(jìn)行語(yǔ)義標(biāo)注,形成語(yǔ)義相似度聚類特征、業(yè)務(wù)概念和業(yè)務(wù) 事件三類對(duì)文檔的語(yǔ)義標(biāo)注,以語(yǔ)義標(biāo)注為線索,可以組織文檔間的多種關(guān)聯(lián)關(guān) 系。在用戶檢索查閱文檔文件時(shí),提供語(yǔ)義相關(guān),概念相關(guān)和事件相關(guān)的文檔檢 索相關(guān)列表,供用戶比對(duì)查閱,幫助用戶形成網(wǎng)絡(luò)化的綜合分析環(huán)境,協(xié)助對(duì)隱 性知識(shí)的發(fā)現(xiàn)和整理,有助于形成新的發(fā)現(xiàn)。圖3文件的復(fù)雜關(guān)聯(lián)如某業(yè)

6、務(wù)員在查閱本部門(mén)之前的項(xiàng)目文檔,進(jìn)行經(jīng)驗(yàn)總結(jié),檢索系統(tǒng)通過(guò)事 件關(guān)聯(lián),發(fā)現(xiàn)與項(xiàng)目事件互有影響的其他項(xiàng)目文檔;通過(guò)概念關(guān)聯(lián),發(fā)現(xiàn)與本項(xiàng) 目共享資源的其他技術(shù)文檔;通過(guò)語(yǔ)義相似性分類標(biāo)簽,發(fā)現(xiàn)其他部門(mén)實(shí)施的類 似項(xiàng)目。從而幫助業(yè)務(wù)員更加全面的獲取了相關(guān)的經(jīng)驗(yàn)知識(shí),有助于從歸檔知識(shí) 中產(chǎn)生新的價(jià)值。智能推薦文檔語(yǔ)義搜索引擎,通過(guò)用戶搜索記錄和業(yè)務(wù)資料的語(yǔ)義特征,計(jì)算用戶行 為畫(huà)像,形成用戶的興趣圖譜,將用戶關(guān)心的分類、概念和事件關(guān)聯(lián)的文檔相關(guān) 度提升,使得用戶更容易獲得自己感興趣的文檔檢索內(nèi)容。用戶使用文檔智能搜 索的頻次越多,歷史越豐富,系統(tǒng)能夠越好的理解用戶的查詢意圖,熟悉用戶的 使用習(xí)慣。從而

7、非用戶提供更加準(zhǔn)確的檢索服務(wù)。NeusoftBeyond Technology自然語(yǔ)言交互NeusoftBeyond Technology2 0 17年上半年XX部門(mén)實(shí)施的建設(shè)項(xiàng)目都有哪些建設(shè)項(xiàng)目時(shí)i司額爐以旗演機(jī)廉加戰(zhàn)展口部門(mén)B部門(mén)C口部門(mén)B部門(mén)C部門(mén)用戶檢索文檔不僅僅可以通過(guò)關(guān)鍵詞或分類進(jìn)行檢索,也可以通過(guò)普通的自 然對(duì)話形式進(jìn)行文檔檢索,語(yǔ)義引擎根據(jù)用戶輸入內(nèi)容,通過(guò)語(yǔ)義計(jì)算,給出匹 配度最高的知識(shí)答案,和文檔資料搜索結(jié)果。實(shí)現(xiàn)更高效的知識(shí)管理服務(wù)結(jié)果。 自然語(yǔ)言查詢使得檢索和搜索更加人性化,信息查詢變得更加方便、快速。如圖4用戶查詢,2017年上半年本部門(mén)實(shí)施的建設(shè)項(xiàng)目都有哪些。系統(tǒng)通

8、過(guò) 語(yǔ)義理解可以給出2017年上半年的建設(shè)項(xiàng)目名稱列表和相關(guān)文檔資料鏈接列表。 而不需用戶通過(guò)高級(jí)搜索接口逐項(xiàng)定義。結(jié)構(gòu)化查詢功能對(duì)于企業(yè)文檔搜索,在越來(lái)越多的搜索場(chǎng)景中需要類似于SQL的結(jié)構(gòu)化查 詢,比如預(yù)先構(gòu)建搜索文檔的作者,機(jī)構(gòu),領(lǐng)域或者創(chuàng)作時(shí)間等等信息,用戶 搜索時(shí)可以通過(guò)鼠標(biāo)點(diǎn)選的非鍵盤(pán)輸入方式來(lái)選定搜索范圍以及排序策略。在 一些專業(yè)領(lǐng)域甚至可以通過(guò)搜索引擎引入一些簡(jiǎn)單計(jì)算來(lái)幫助用戶搜索到精確 結(jié)果,比如在醫(yī)療領(lǐng)域,醫(yī)生想要搜索到腫物大于某個(gè)限定大小的腫瘤病例。NeusoftBeyond Technology請(qǐng)選擇: 患者NeusoftBeyond Technology請(qǐng)選擇: 患者

9、姓名: 部喉部部列 頭咽時(shí)肩前全部持續(xù)時(shí)間開(kāi)始檢索圖5病例搜索中結(jié)構(gòu)化查詢實(shí)例搜索頻道分類查找指定內(nèi)企業(yè)中文檔數(shù)量眾多,在用戶對(duì)搜索內(nèi)容有一定了解的前提下 容時(shí),如果可以讓用戶人工指定頻道分類,那么就可以幫助用戶獲得更加精確的 搜索結(jié)果。DeepCogni語(yǔ)義搜索引擎可以幫助用戶構(gòu)建面向搜索的頻道分類,并 且對(duì)于沒(méi)有分類信息的文檔可以利用DeepCogni知識(shí)服務(wù)平臺(tái)中的高質(zhì)量分類 模塊幫助企業(yè)構(gòu)建文檔頻道分類信息。查找指定內(nèi)Satsa.DecpCogni search圖6 DeepCogni語(yǔ)義搜索引擎的頻道分類信息2.7NeusoftBeyond Technology2.7NeusoftB

10、eyond Technology對(duì)于大型企事業(yè)單位,龐大的組織架構(gòu)以及規(guī)范的等級(jí)制度能保證組織的順 利運(yùn)作。而對(duì)于組織內(nèi)的文檔來(lái)說(shuō),不同職位的員工可以查看的范圍也是不同的。 因此,組織內(nèi)的搜索服務(wù)同樣應(yīng)該通過(guò)完善的搜索權(quán)限來(lái)進(jìn)行管理。DeepCogni 語(yǔ)義搜索引擎擁有完善的權(quán)限管理體系,可以自己構(gòu)建用戶管理模塊,也可以直 接復(fù)用已經(jīng)存在公司自己OA等管理系統(tǒng)的用戶體系。000000000080限理塊 權(quán)管模閱限索用權(quán)阻索力權(quán)限管理模塊二三三)000000000080限理塊 權(quán)管模閱限索用權(quán)阻索力權(quán)限管理模塊二三三)圖7 DeepCogni語(yǔ)義搜索引擎的權(quán)限管理流程圖2.8敏感詞過(guò)濾在一些特定

11、的搜索引擎中,敏感詞過(guò)濾作為特定組件,對(duì)整個(gè)搜索引擎服務(wù) 起著敏感信息過(guò)濾和不良信息監(jiān)控的作用。DeepCogni知識(shí)服務(wù)平臺(tái)中的敏感詞 識(shí)別模塊已經(jīng)在媒體行業(yè)得到廣泛認(rèn)可。模塊通過(guò)獨(dú)立研發(fā)的計(jì)算式過(guò)濾算法可 以快速準(zhǔn)確的識(shí)別各類敏感詞以及敏感詞變種。敏感詞識(shí)別模塊可以作為可選插 件形式被集成到語(yǔ)義搜索引擎服務(wù)中。NeusoftBeyond Technology3技術(shù)解決方案NeusoftBeyond Technology主費(fèi)索提口下控列表接口 推薦搜索接口 智能提示接口給構(gòu)化陛索接口 頻道搜索接口系統(tǒng)監(jiān)控NLP模型頻道管理主費(fèi)索提口下控列表接口 推薦搜索接口 智能提示接口給構(gòu)化陛索接口 頻道

12、搜索接口系統(tǒng)監(jiān)控NLP模型頻道管理語(yǔ)義索弓I排序策略關(guān)聯(lián)發(fā)現(xiàn)白名單設(shè)置權(quán)限管理結(jié)構(gòu)化索引智能推薦輸入提示增量加載敏速詞識(shí)別文音分類統(tǒng)計(jì)分析語(yǔ)義標(biāo)注熱點(diǎn)發(fā)現(xiàn)熱詞分析開(kāi)源引擎X elasticX elastic3電Apache筌So |=*數(shù)據(jù)來(lái)源DOCPDF9NeusoftBeyond TechnologyDeepCogni語(yǔ)義搜索引擎由搜索API、核心引擎、可選插件、開(kāi)源引擎項(xiàng)目以 及數(shù)據(jù)來(lái)源5個(gè)部分組成。搜索API中包括主搜索接口、下拉列表接口、推薦搜索接口、智能提示接口、 結(jié)構(gòu)化搜索接口以及頻道搜索接口 6個(gè)接口組成。接口服務(wù)可以按照實(shí)際業(yè)務(wù)系 統(tǒng)需求進(jìn)行配置,各個(gè)接口之間耦合度極低,可以

13、隨意搭配接口組合滿足業(yè)務(wù)需 要。核心引擎中包括NLP模型、頻道管理、語(yǔ)義搜索、排序策略、關(guān)聯(lián)發(fā)現(xiàn)、白 名單設(shè)置、權(quán)限管理、結(jié)構(gòu)化索引、智能推薦、輸入提示、輸入糾錯(cuò)、增量加載, 總共12個(gè)功能點(diǎn)。在一般企事業(yè)的搜索場(chǎng)景中,當(dāng)前核心引擎中的模塊可以滿 足99%的業(yè)務(wù)需求,并且搜索服務(wù)可以保證在多功能點(diǎn)同時(shí)運(yùn)轉(zhuǎn)的過(guò)程中也能做 到毫秒級(jí)的應(yīng)答以及足夠的并發(fā)。如果客戶除此之外還對(duì)搜索服務(wù)有特殊要求, 可以定制開(kāi)發(fā)??蛇x插件中包括敏感詞識(shí)別、文章分類、統(tǒng)計(jì)分析、語(yǔ)義標(biāo)注、熱點(diǎn)發(fā)現(xiàn)、 熱詞分析等模塊。所有可選插件功能都是DeepCogni知識(shí)服務(wù)平臺(tái)中的功能特 性,可以保證和DeepCogni語(yǔ)義搜索引擎的

14、無(wú)縫對(duì)接,并且這些功能點(diǎn)都在實(shí)際 的業(yè)務(wù)場(chǎng)景中,性能和效果都得到了充分驗(yàn)證。開(kāi)源引擎中,DeepCogni語(yǔ)義搜索引擎可以選用ElasticSearch、Solr、Lucene。 可以根據(jù)業(yè)務(wù)的實(shí)際需求采用對(duì)應(yīng)的開(kāi)源框架。數(shù)據(jù)采集指的是DeepCogni語(yǔ)義搜索引擎可以接入的數(shù)據(jù)類型,包括爬蟲(chóng)爬 取數(shù)據(jù)、網(wǎng)頁(yè)、文檔、Word文檔、PDF文檔等等。基于語(yǔ)義標(biāo)注的數(shù)據(jù)加工應(yīng)用自然語(yǔ)言理解技術(shù),可以將信息檢索由簡(jiǎn)單的關(guān)鍵詞層面提高到基于知 識(shí)或概念的層面,使得字符詞語(yǔ)具備了語(yǔ)義,而這種能力主要通過(guò)語(yǔ)義標(biāo)注來(lái)實(shí) 現(xiàn)?;谡Z(yǔ)義的聚類分類文檔聚類計(jì)算是通過(guò)對(duì)文檔庫(kù)中的文檔進(jìn)行處理后,針對(duì)文檔的內(nèi)容格式,i

15、oNeusoftBeyo nd Tee h nology選擇適當(dāng)?shù)慕稻S計(jì)算模型,之后通過(guò)選擇恰當(dāng)?shù)臒o(wú)監(jiān)督機(jī)器學(xué)習(xí)聚類算法,在無(wú) 樣本標(biāo)注的情況下對(duì)文檔進(jìn)行聚類計(jì)算。之后客戶可以根據(jù)聚類中的某一個(gè)文檔 的內(nèi)容對(duì)該類的所有文檔進(jìn)行標(biāo)簽標(biāo)注,或者由算法給出該聚類下的文檔的主題 詞進(jìn)行語(yǔ)義標(biāo)簽標(biāo)注,以實(shí)現(xiàn)過(guò)濾,檢索,分組等操作?;谡Z(yǔ)義的聚類分類是 對(duì)文檔分類管理的重要補(bǔ)充,突破了垂直業(yè)務(wù)單元對(duì)文檔的分類管理,實(shí)現(xiàn)了語(yǔ) 義上的廣泛關(guān)聯(lián),有助于進(jìn)行更好的綜合分析與檢索。概念標(biāo)注抽取文檔資源中概念,利用已有語(yǔ)料結(jié)合用戶標(biāo)注語(yǔ)料,對(duì)文檔文檔中的資 料進(jìn)行抽取,利用這些概念可以對(duì)資源進(jìn)行標(biāo)注、分類。形成文檔核心概念關(guān)聯(lián) 實(shí)體的發(fā)現(xiàn),方便形成當(dāng)案件的關(guān)聯(lián)分析。同時(shí),進(jìn)行概念標(biāo)注后的文檔資料, 可以進(jìn)行以概念為字段的高級(jí)檢索,更加精準(zhǔn)的對(duì)文檔進(jìn)行專業(yè)管理。事件抽取抽取文檔資源中的業(yè)務(wù)相關(guān)事件,利用事件集形成文檔的高度抽象概括,方 便進(jìn)行事件視角的文檔關(guān)聯(lián)管理,分析企業(yè)事件的因果與相關(guān)性。同時(shí)采用事件 對(duì)文檔進(jìn)行標(biāo)注,方便以事件為搜索接口,準(zhǔn)確地對(duì)相關(guān)文檔進(jìn)行檢索。平臺(tái)產(chǎn)品技術(shù)支撐東軟集團(tuán)SaCa.DeepCogni知識(shí)服務(wù)平臺(tái)產(chǎn)品:自然語(yǔ)言理解語(yǔ)義分析和知識(shí) 管理服務(wù)技術(shù),準(zhǔn)確識(shí)別海量非結(jié)構(gòu)化信息中蘊(yùn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論