企業(yè)搜索平臺_第1頁
企業(yè)搜索平臺_第2頁
企業(yè)搜索平臺_第3頁
企業(yè)搜索平臺_第4頁
企業(yè)搜索平臺_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、微軟FAST企業(yè)搜索平臺簡介微軟(中國)有限公司2010/2/23目錄第一章 FAST簡介2第二章 FAST系統(tǒng)概述32.2 主要模塊概述32.2.1 FAST ESP(互聯(lián)網(wǎng)和企業(yè)海量信息智能搜索平臺)32.2.2 FAST Unity(聯(lián)合搜索解決方案)42.2.3 FAST Recommendations(個性化推薦平臺)4第三章 FAST搜索引擎功能概述53.1 信息采集和索引53.1.1 采集多種數(shù)據(jù)源的信息53.1.2 信息索引機(jī)制73.2 信息加工處理83.2.1 信息加工處理流水線8語言學(xué)處理及分詞斷句93.2.3 實體提煉113.2.4 分類引擎123.2.5 人工關(guān)聯(lián)123

2、.3 確保內(nèi)容相關(guān)性123.4 搜索結(jié)果處理133.5 用戶體驗153.6 管理和監(jiān)測20第一章 FAST簡介FAST是新一代企業(yè)搜索技術(shù)與資訊革命的中心,我們的創(chuàng)新將繼續(xù)推進(jìn)市場的轉(zhuǎn)變, 改變組織營運的方法與策略,將企業(yè)搜索轉(zhuǎn)變成IT架構(gòu)里的重要組件,并讓搜索成為每個重要應(yīng)用的核心引擎。FAST的客戶群分布于各個行業(yè),以搜索科技領(lǐng)先競爭對手。 * FAST目前是微軟的子公司。 研究表明,企事業(yè)單位的數(shù)據(jù)量以每年兩倍的速度成長,數(shù)據(jù)格式種類也不斷地多元發(fā)展,除了透過關(guān)系數(shù)據(jù)庫存取的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)更是大幅增加,如:文件、日志、郵件、網(wǎng)頁等。對于企事業(yè)單位內(nèi)部應(yīng)用來說,多已完成辦公、管理

3、等系統(tǒng)的建設(shè),但這些系統(tǒng)其實僅處理了占數(shù)據(jù)總量20%的結(jié)構(gòu)化數(shù)據(jù),占80%之非結(jié)構(gòu)化數(shù)據(jù)的管理與搜索仍然缺乏妥善的解決方案,若要同時搜索結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)更是加倍困難,而這卻是組織取得正確、完整數(shù)據(jù)以進(jìn)行有利決策的必要條件。對于企事業(yè)單位外部應(yīng)用來說,為客戶群提供更好的服務(wù),吸引新客戶、留住老客戶,將獲取自數(shù)以百計的數(shù)據(jù)源的信息進(jìn)行整合、統(tǒng)一展現(xiàn),讓訪問量最大限度的轉(zhuǎn)化為盈利都成為日漸緊迫的任務(wù)。因此,要真正將所有數(shù)據(jù)轉(zhuǎn)化成為幫助企業(yè)提高生產(chǎn)力與獲利的資產(chǎn),關(guān)鍵下一步就是“企業(yè)搜索Enterprise Search”。透過企業(yè)搜索,組織內(nèi)部的用戶得以快速從龐大而多元的數(shù)據(jù)集中獲得有用的解答,

4、組織外部的用戶更因優(yōu)異的使用體驗,進(jìn)而提高忠誠度與貢獻(xiàn),而真正的企業(yè)搜索平臺必須具備:提高生產(chǎn)力高效能搜索平臺要能以最低成本,在最短時間內(nèi)搜索最大量且精確數(shù)據(jù)。FAST透過單一平臺即可搜索結(jié)構(gòu)與非結(jié)構(gòu)化等各類型數(shù)據(jù),并藉由語言學(xué)技術(shù),建立索引,提供精準(zhǔn)、符合企業(yè)背景與特性的搜索結(jié)果,而非一般無差別的搜索方式,F(xiàn)AST ESP更具備比數(shù)據(jù)庫快數(shù)十倍的查詢效能,大幅降低機(jī)器和數(shù)據(jù)庫軟件購買的成本,并減輕DBA(數(shù)據(jù)庫管理員)的維護(hù)工作,同時FAST ESP帶來的準(zhǔn)確、快速、更佳的用戶體驗都能提高企業(yè)的運作效率。提供盈利方案搜索要轉(zhuǎn)化為廣告點擊率、交易金額與促銷成功率,才能帶來實質(zhì)獲利,透過FAST

5、 ESP,您可結(jié)合客戶搜索數(shù)據(jù)、瀏覽網(wǎng)頁的習(xí)慣以及其個人配置(profile)數(shù)據(jù),提供更符合需求的推薦商品或更能引起興趣的廣告呈現(xiàn),使搜索與獲利得以緊密結(jié)合。 根據(jù)Gartner于2009年9月對企業(yè)搜索市場的研究報告指出,微軟憑借FAST ESP在企業(yè)搜索需求的前瞻性、涵蓋度和實現(xiàn)能力,已成為該行業(yè)的全球領(lǐng)導(dǎo)者。第二章 FAST系統(tǒng)概述微軟FAST提供搜索引擎的應(yīng)用方案,將不同來源的所有信息內(nèi)容整合在一起并以易用的形式再現(xiàn)給用戶,為用戶提供高度相關(guān)的搜索結(jié)果和個性化的搜索體驗。微軟FAST致力于為每個接入終端(PC、手機(jī)等)都提供最好的用戶體驗。從功能上描述,主要實現(xiàn)以下功能:Ø

6、 信息采集和索引:從多種資源獲取信息內(nèi)容,包括數(shù)據(jù)庫,文本文件和現(xiàn)有的網(wǎng)站,并對所有內(nèi)容建立索引。Ø 信息加工處理:提供語言學(xué)和其他文本分析工具,這些工具不僅能分析數(shù)據(jù)庫數(shù)據(jù)還能分析現(xiàn)有的網(wǎng)頁信息,并將信息以易用的形式再現(xiàn)給用戶。Ø 個性化搜索及推薦:提供先進(jìn)的移動搜索方式,可以幫助終端用戶簡單準(zhǔn)確直觀的獲取內(nèi)容和信息。Ø 管理和統(tǒng)計:提供豐富的基于Web的管理界面,用于創(chuàng)建、配置和管理搜索集合,監(jiān)測和控制系統(tǒng)的組成部分。系統(tǒng)對用戶的搜索行為作詳細(xì)和全面的日志記錄,以日志文件的形式存在,也可以將日志信息轉(zhuǎn)存到數(shù)據(jù)庫作進(jìn)一步分析使用,便于進(jìn)行全面的業(yè)務(wù)統(tǒng)計。2.2

7、主要模塊概述微軟FAST不僅僅是一個搜索解決方案,它涵蓋了搜索、推薦、聯(lián)合檢索、上下文相關(guān)廣告、電子商務(wù)應(yīng)用等眾多方面,能夠為用戶帶來整套的盈利方案。在這里,我們先介紹一些能夠?qū)崿F(xiàn)這些功能的主要模塊。2.2.1 FAST ESP(互聯(lián)網(wǎng)和企業(yè)海量信息智能搜索平臺)FAST ESP是FAST整套解決方案中的核心模塊,可以為您提供一個海量信息的智能搜索平臺,包括對組織內(nèi)部及外部互聯(lián)網(wǎng)信息的搜索。FAST ESP主要實現(xiàn)信息采集、信息處理和信息搜索等功能。FAST ESP通過獨具特色的高級語言學(xué)處理(同義詞、去除無用詞、歧義糾正、實體提煉等)、智能化搜索(智能糾錯、下拉提示、個性化搜索等)、搜索結(jié)果

8、分類導(dǎo)航及動態(tài)鉆取等功能為用戶提供體驗更好、相關(guān)性和準(zhǔn)確度更高的結(jié)果,從而大大提升用戶的搜索滿意度。在提供強大功能的同時,F(xiàn)AST ESP還具有優(yōu)異的性能特性,可支持上億級的文檔數(shù)量實現(xiàn)毫秒級的響應(yīng),它支持線性擴(kuò)展,支持負(fù)載均衡的分布式體系結(jié)構(gòu),使低成本的硬件仍然能實現(xiàn)高性能,能夠處理每秒數(shù)以百計的更新,每秒數(shù)以千計的查詢,同時仍能保持亞秒級的響應(yīng)速度。2.2.2 FAST Unity(聯(lián)合搜索解決方案)FAST Unity是一個聯(lián)合搜索的解決方案,能夠?qū)⒂蒄AST構(gòu)成的本站搜索引擎和外部流行的搜索引擎,如12580、Google、Yahoo、Baidu等聯(lián)合實現(xiàn)對用戶的全方位搜索體驗。圖 F

9、AST Unity聯(lián)合搜索平臺2.2.3 FASTRecommendations(個性化推薦平臺)FAST Recommendations是一個全方位的基于用戶行為和喜好的個性化推薦解決方案,包括相關(guān)產(chǎn)品、信息、新聞推薦和社交推薦(推薦有同樣喜好的人)。FAST Recommendations由三個核心產(chǎn)品組件組成:一個配置引擎,一個數(shù)據(jù)挖掘引擎和一個推薦引擎。它通過跟蹤多種具體的和不具體的客戶喜好事件(即搜索,頁面瀏覽,內(nèi)容預(yù)覽,購買,點擊率等)產(chǎn)生唯一的客戶配置文件,然后再對這些配置文件進(jìn)行數(shù)據(jù)挖掘,建立起內(nèi)容間的聯(lián)系、內(nèi)容與人的聯(lián)系及人與人的聯(lián)系,從而根據(jù)這些聯(lián)系實現(xiàn)豐富多樣的推薦特性。

10、FAST推薦平臺使在線服務(wù)提供更個性化的用戶體驗,從而促進(jìn)產(chǎn)品銷售、增加廣告收入和建立客戶忠誠度。第三章 FAST搜索引擎功能概述3.1 信息采集和索引3.1.1采集多種數(shù)據(jù)源的信息對于一個規(guī)模較大的企事業(yè)單位來說,搜索業(yè)務(wù)中所涉及的數(shù)據(jù)源多種多樣,如站內(nèi)數(shù)據(jù)庫、第三方提供的數(shù)據(jù)及其他網(wǎng)站等。微軟FAST可以采集多種數(shù)據(jù)源的信息,對搜索結(jié)果進(jìn)行邏輯集合,形成索引。結(jié)果集可以來自一個或多個信息源,多種信息源可以存在于獨立的物理索引中。在搜索端,可以同時搜索一個或幾個位于一臺或更多機(jī)器上的物理索引。為處理不同的內(nèi)部或者外部信息源,微軟FAST提供了各種結(jié)構(gòu)數(shù)據(jù)的采集工具,能夠抓取結(jié)構(gòu)化、非結(jié)構(gòu)化及

11、富媒體的數(shù)據(jù)源。微軟FAST為文件系統(tǒng)、網(wǎng)頁(http、ftp、https等協(xié)議訪問的)、關(guān)系型數(shù)據(jù)庫(Oracle、DB2、SQL Server及其它類型的jdbc數(shù)據(jù)庫)、MS Exchange、Lotus Notes、SAP、MS SharePoint等幾百種系統(tǒng)提供連接器。并且,還提供了一個定制連接器的API,可以定制連接器,如果用戶需要哪些連接器,可以被快速而有效的創(chuàng)建。微軟FAST提供了數(shù)據(jù)庫連接器、網(wǎng)絡(luò)爬蟲(Web Crawler)、文件遍歷器等工具來實現(xiàn)多種數(shù)據(jù)源信息內(nèi)容的采集。 文件系統(tǒng)遍歷器文件系統(tǒng)遍歷器的特點:ü 支持超過370種格式的文檔,包括常

12、見的Microsoft Office,text和Adobe PDFü 支持XML文件,并根據(jù)XML文件的定義將其中的條目以可搜索的條目對待ü 提供圖形方式和命令行行方式運行ü 支持本地文件夾和網(wǎng)絡(luò)文件夾的訪問ü 支持以登錄名和密碼方式確定用戶身份,以遍歷相應(yīng)的文件夾ü 支持定義單個最大文件和批量文件總大小ü 支持定義某個時間戳,使能只遍歷在該時刻之后產(chǎn)生的文件ü 命令行方式下支持管道過來的文件列表ü 支持遍歷所有格式(后綴)的文件ü 支持增量索引,通過計算校驗和的方式支持用Python語言對文件遍歷器進(jìn)行

13、功能擴(kuò)展.2 FAST數(shù)據(jù)庫連接器FAST通過JDBC連接器進(jìn)行數(shù)據(jù)采集,該連接器具有以下功能特點:Ø 能使數(shù)據(jù)庫數(shù)據(jù)記錄和其他類型的文檔獲得同樣的搜索能力;Ø 所有合法的SQL語句都支持,包括多表連接;Ø 支持對二進(jìn)制大字段中存儲的文件進(jìn)行索引和搜索;Ø 支持?jǐn)?shù)據(jù)庫和文件系統(tǒng)混合的索引和搜索;Ø 支持增量索引,通過使用校驗和,時間戳或用戶數(shù)據(jù)庫表中的標(biāo)志字段;Ø 支持?jǐn)?shù)據(jù)索引前、索引后操作;Ø 支持?jǐn)?shù)據(jù)庫字段到ESP字段的自動映射和人工配置的映射;Ø 自動合并相同主鍵的記錄;Ø 可以利用ESP數(shù)據(jù)庫連接

14、件內(nèi)置的http服務(wù)器直接接收發(fā)生在數(shù)據(jù)庫中的更新操作;Ø 支持?jǐn)?shù)據(jù)庫數(shù)據(jù)到文件,然后再將文件導(dǎo)入搜索引擎,這有利于系統(tǒng)診斷;Ø 支持圖形界面和命令行;Ø 支持多線程圖FAST的數(shù)據(jù)庫連接器FAST使用文件系統(tǒng)連接器、網(wǎng)站連接器、數(shù)據(jù)庫連接器采集和處理常見的信息系統(tǒng),除此之外,ESP還支持企業(yè)內(nèi)的其它系統(tǒng)如內(nèi)容管理系統(tǒng),郵件系統(tǒng)和門戶系統(tǒng)。 FAST網(wǎng)絡(luò)爬蟲FAST網(wǎng)絡(luò)爬蟲(Web Crawler)的功能是從網(wǎng)絡(luò)中抓取網(wǎng)頁,尤其擅長以一種可控并且合理確定的方式從機(jī)構(gòu)或公司內(nèi)部網(wǎng)絡(luò)中獲取數(shù)據(jù),同時也可擴(kuò)展至從整個互聯(lián)網(wǎng)中抓取相關(guān)信息。爬蟲工作時在許多方

15、面很像一個網(wǎng)頁瀏覽器從網(wǎng)絡(luò)服務(wù)器上下載內(nèi)容,但又不像瀏覽器那樣只回應(yīng)用戶通過鼠標(biāo)的點擊或鍵盤輸入,查詢網(wǎng)頁時爬蟲必須遵循一套規(guī)則,這些規(guī)則包括在查詢頁面之間等待多長時間(查詢速度)和在搜尋新/更新頁面之前等待多長時間(刷新間隔)。對于爬蟲下載的每一個網(wǎng)頁,都會產(chǎn)生一個所有鏈接到其他頁面的鏈接網(wǎng)址清單,然后檢查這些鏈接是否違背規(guī)則,包括主機(jī),域名或允許獲取的路徑。FAST網(wǎng)絡(luò)爬蟲是高度配置的,有超過100多項的配置選項和規(guī)則設(shè)置。爬蟲還包含了許多軟件插件點,可以執(zhí)行代碼或腳本作為抓取進(jìn)程的一部分。爬蟲能夠在特定環(huán)境中執(zhí)行網(wǎng)頁上的Flash和Java腳本,使Flash / Java腳本產(chǎn)生Url。

16、FAST網(wǎng)絡(luò)爬蟲是當(dāng)今世界上可配置性最強的網(wǎng)絡(luò)爬蟲之一。FSAT網(wǎng)絡(luò)爬蟲具有150多項用戶配置特性,一些主要的爬蟲特性包括:Ø 把頁面儲存在一個本地的FAST抓取頁面儲存器中,允許核對頁面是否需要被再次下載;Ø 詳細(xì)模擬一個完全的瀏覽器環(huán)境(包括支持菜單或點擊操作的Java腳本);Ø 控制網(wǎng)頁或網(wǎng)絡(luò)內(nèi)容下載(網(wǎng)頁,協(xié)議如HTTPS,圖片類型);Ø 控制HTTP URLs抓取-即只抓取來源于指定網(wǎng)址的內(nèi)容;Ø 可調(diào)節(jié)的抓取速度可以高速或低速抓取網(wǎng)站;Ø Logging, extensive rate 控制功能;Ø 如需要可進(jìn)行

17、登錄設(shè)置(來進(jìn)入需要用戶登錄才可獲取信息的站點);Ø 支持RSS feed。除此之外,ESP還支持企業(yè)內(nèi)的其它系統(tǒng)如內(nèi)容管理系統(tǒng),郵件系統(tǒng)和門戶系統(tǒng)。3.1.2信息索引機(jī)制FAST搜索平臺提供的內(nèi)容編程接口,使用XML-遠(yuǎn)程調(diào)用的協(xié)議向內(nèi)容分派器請求,內(nèi)容分派器將內(nèi)容交給一個或者多個文檔處理器。文檔處理器負(fù)責(zé)轉(zhuǎn)換,規(guī)范化,分類,標(biāo)簽等工作,最終,經(jīng)文檔處理器處理過的對象被分別交給實時搜索和預(yù)警引擎。支持增量式的索引更新,智能的增量式索引能及時反映源數(shù)據(jù)中的增刪改,對于不同的數(shù)據(jù)源,連接器在技術(shù)實現(xiàn)上稍微有所不同。簡單來說,當(dāng)前時刻數(shù)據(jù)源中所有文檔的狀態(tài)被維護(hù)在連接器中,包括文檔的唯一

18、標(biāo)志和最后一次被發(fā)現(xiàn)的時刻。在連接器對數(shù)據(jù)源進(jìn)行增量更新期間,它會比對數(shù)據(jù)源中文檔的狀態(tài)和保存在連接器中的最后一次更新時文檔的狀態(tài),因此,連接器就可以判斷:Ø 哪些文檔是新增加的還是被更新過的Ø 哪些文件被刪除了如果數(shù)據(jù)源的更新非常頻繁,也可以利用內(nèi)容編程接口直接對FAST搜索平臺進(jìn)行數(shù)據(jù)的增加,修改和刪除。支持多種類型的文檔,產(chǎn)品內(nèi)置支持225種文檔類型,包括XML,HTML,PDF,ASCII Text和MS Office格式(Word、PowerPoint、Excel)。另外,各個文檔集合可以配置獨立的文檔處理方式和流程。支持XML文檔的索引,F(xiàn)AST搜索平臺支持對X

19、ML文檔進(jìn)行字段級的索引,支持可客戶化的數(shù)據(jù)結(jié)構(gòu)映射,能對任何XML進(jìn)行搜索。其中包括一個XSLT轉(zhuǎn)換的階段,它使用簡單易用的編程規(guī)則。并且,F(xiàn)AST的文件系統(tǒng)連接器能直接分析,處理和索引XML文件。同一個引擎支持多個數(shù)據(jù)源的索引和搜索,F(xiàn)AST搜索平臺將采集來的信息以集合為單位進(jìn)行存儲和管理,一個集合可以包含一個或多個數(shù)據(jù)源的信息。在單個節(jié)點上可以支持多個文檔的索引集合,前端的搜索應(yīng)用則可以對一個集合或多個集合進(jìn)行搜索,而無需關(guān)注集合所處的物理節(jié)點。同時支持對文檔的索引和檢索,F(xiàn)AST搜索平臺為單一邏輯索引維護(hù)多個索引文件,使能索引更新在臨時目錄,而同時還能提供搜索服務(wù)。 索引的大小、索引的

20、文檔數(shù)量無限制,除非物理存儲空間有限制,F(xiàn)AST搜索平臺沒有任何索引的大小限制。也沒有任何索引文檔數(shù)量的限制。3.2 信息加工處理3.2.1 信息加工處理流水線在將各種數(shù)據(jù)獲取到FAST系統(tǒng)之后,我們通過管道處理流水線來實現(xiàn)信息的處理,在這個基礎(chǔ)上保證搜索的準(zhǔn)確度,并能進(jìn)行分類導(dǎo)航、分類聚類、排名控制等功能。FAST的文檔處理過程由不同的階段組成。每一個階段表現(xiàn)為一個可插入的模塊,這個模塊由FAST提供來完成一個特定任務(wù)(如Language Detector-語言探測器)。過程的最終階段是對實時搜索引擎的訪問。下圖是一個FAST ESP管道處理模型的概念性圖解:FAST ESP Documen

21、t Processor文檔處理流水線例子: 分類 標(biāo)簽 規(guī)范化 語義分析Indexing / Filtering客戶化的文檔處理邏輯圖 FAST的信息處理流水線FAST信息處理流水線的部分功能如下:Ø 語言學(xué)處理及分詞斷句Ø 實體提煉Ø 分類引擎Ø 歧義糾正Ø 人工關(guān)聯(lián)Ø 搜索提示Ø 智能糾錯對于這些功能,分別在下文進(jìn)行具體描述。3.2.2語言學(xué)處理及分詞斷句微軟FAST擁有強大的語言學(xué)處理功能,常用的包括拼寫檢查、智能糾錯、詞形還原、詞干化、搜索提示、同義詞、去除無用詞等。拼寫檢查:提供對單個詞語依據(jù)該語言特定的詞典進(jìn)行拼

22、寫檢查。拼寫檢查階段將檢查單個單詞的錯誤拼寫問題。FAST可以檢查和校正一些語種的單詞和短語的錯拼,目前主要包括英語、法語、德語、西班牙語、意大利語、葡萄牙語、俄語、匈牙利語、波蘭語、瑞典語、芬蘭語和挪威語等。智能糾錯:提供的一個常見方法是,向用戶的原始請求提供一個可選(可能更準(zhǔn)確)的鏈接。如果用戶輸入的搜索請求拼寫錯誤,它可以提供一個正確的詞讓用戶點擊,然后再執(zhí)行搜索。詞形還原:可以將詞語與其所有的變形(不同的語法形式)進(jìn)行匹配并提高查全率,同時它還將不規(guī)則變形考慮在內(nèi)。FAST ESP的缺省配置包括名詞單數(shù)和復(fù)數(shù)形式的常態(tài)化。詞形還原詞典還可用于形容詞和動詞的常態(tài)化。但詞形還原只發(fā)生在同一

23、詞性內(nèi),如動詞僅與動詞而不會與名詞進(jìn)行匹配,反之亦然。FAST詞形還原功能還提供對國家拼寫差異和處理分歧的支持,如拉美西班牙語和歐洲西班牙語之間的不同。如果能夠在搜索前端提供控制功能,則終端用戶可以在每次查詢中選擇啟用或關(guān)閉詞形還原。詞形還原目前已可用于近20種語言的文檔,其他語種的也可按照需求加入相應(yīng)詞典來實現(xiàn)詞形還原功能,并且在FAST的語言學(xué)處理系統(tǒng)中,所有語言的詞形還原詞典都可以進(jìn)行修改和維護(hù)。詞干化:提供對通配符的支持,F(xiàn)AST支持星號('*')和問號字符('?'),兩者分別用于表示多詞和單詞通配符,即星號“*”表示“任意字母”,問號“?”表示“任意一

24、個字母”;并且FAST支持在查詢詞的前端、后端或中間使用通配符,如,text*、 *text、 te?t,等等。詞干化和詞形還原的方法功能相似,通常來說,對于常用詞語或有詞典的情況下優(yōu)先選用詞形還原,而對于非常用詞語或沒有詞典的情況下可選用詞干化方法。搜索提示:默認(rèn)支持基于特定語言的詞典為搜索輸入框提供下拉式自動提示,在用戶輸入過程中自動提示相關(guān)搜索建議。另外,自動提示的詞典可按照客戶的需求進(jìn)行客戶化定制。同義詞:同義詞通常包括替換詞或詞組全稱/縮寫,例如,“mobile phone”被認(rèn)為與“cell phone”相同。FAST ESP Synonym and Thesaurus(FAST

25、ESP同義詞與主題詞典)架構(gòu)實現(xiàn)了查詢或索引文檔在同義詞和拼寫差異方面的擴(kuò)展。查詢端的擴(kuò)展在實際匹配前就為查詢添加了同義詞和拼寫差異。該解決方案非常靈活,其中詞典更新時可以無需重作內(nèi)容索引。FAST ESP還通過Search Business Center(搜索商務(wù)中心)一種圖形化用戶界面(GUI)系統(tǒng)提供對于同義詞表的管理。SBC允許管理員用戶批準(zhǔn)一種編輯/發(fā)布模式用以管理同義詞,即同一組織內(nèi)不同部門的用戶可以管理他們自己的同義詞表,并擁有獨立的“編輯”帳號來批準(zhǔn)并發(fā)布這些擬更改的同義詞。同義詞有兩種類型:單向同義詞,指從一個詞映射另一個詞,但并未建立起相反的關(guān)系;雙向同義詞,指兩個詞互相映

26、射對方。每個搜索配置文件都使用特定的同義詞表,因此,某個搜索配置文件下生成的搜索可能與另一搜索配置文件下生成的搜索使用的同義詞是不相同的。最后,文檔處理端將同義詞作為索引的單獨一部分來對文檔進(jìn)行擴(kuò)展。在查詢時,同義詞可以采用與詞形還原(含變形詞的詞干化)相同的控制方法。也可以將這兩種方案結(jié)合起來。用于管理同義詞的基于網(wǎng)絡(luò)的GUI工具SBC,令企業(yè)用戶及管理員等易于確保終端用戶可以獲得其所查詢的結(jié)果,即便是他們所鍵入的詞沒有出現(xiàn)在索引內(nèi)容里。去除無用詞:FAST ESP支持去除停止詞以及分析和去除無用詞,這能去除對查詢沒有價值的詞(組)或降低其權(quán)重。例如"是什么", &quo

27、t;誰是", "哪里可以", "個", "的",等等。與FAST ESP的許多其功能類似,這一功能客戶也可以很容易的進(jìn)行定制,以制訂出基于本地用戶或公司且與之相關(guān)的適用的停止詞表。例如:查詢"誰是李明?"被縮減為"李明"。比起整句初始查詢,縮減后的關(guān)鍵詞語的搜索方法通常能得到更準(zhǔn)確的答案。去除無用詞與停止詞(stop words)的概念密切相關(guān)。然而,比起停止詞,去除無用詞的特點在于并非去除單個詞而是去掉整個詞組。去除單個詞可能面臨著去掉了那些恰好與停止詞相同的重要詞的風(fēng)險。但詞組的歧

28、義較小,從查詢中去除也更保險些。因此,F(xiàn)AST ESP裝載的去除無用詞詞典不含單個詞。當(dāng)然如果需要的話,也可以用詞典維護(hù)模式將單個停止詞加入到去除無用詞詞典中。3.2.3 實體提煉FAST現(xiàn)有的語言學(xué)功能和FAST文檔處理流水線可以進(jìn)行大范圍的實體提煉和文本分析功能。FAST文檔處理流水線有超過130個可配置的實體提煉和文本處理階段。每一個階段完成一個不同的文本處理任務(wù),例如辨別:Ø 人名Ø 日期/時間Ø 公司名稱實體提煉產(chǎn)生的結(jié)果可以應(yīng)用在搜索中形成導(dǎo)航,這樣就便于用戶更容易的發(fā)現(xiàn)自己關(guān)心的內(nèi)容。 分類引擎FAST提供用以自動進(jìn)行文本分類的工具FAST分類器。它

29、采用監(jiān)督式的機(jī)器學(xué)習(xí)技術(shù),允許在ESP文檔處理流水線中創(chuàng)建分類詞表及對文檔進(jìn)行自動分類。FAST分類器自動創(chuàng)建監(jiān)督式分類的常規(guī)程序模式。輸入這一進(jìn)程的主要是一系列已經(jīng)分門別類的文檔。這些文檔被稱之為訓(xùn)練文檔。訓(xùn)練文檔應(yīng)組織成一個目錄結(jié)構(gòu),其中目錄名稱與所分類別名稱相同。文檔被設(shè)定為只隸屬于一個目錄,而目錄設(shè)置為樹形結(jié)構(gòu)模式,可展開或折疊。3.2.5 人工關(guān)聯(lián)人工關(guān)聯(lián)通常用于對詞典進(jìn)行人工維護(hù),包括同義詞詞典和用于拼寫檢查及智能糾錯中的詞典。管理員在對搜索行為的日志文件進(jìn)行查看和分析后,可以發(fā)現(xiàn)用戶搜索過程中經(jīng)常出現(xiàn)的錯誤搜索詞和新出現(xiàn)的一些搜索詞,然后人工將這些詞與詞典中已有的相關(guān)詞關(guān)聯(lián)起來,

30、從而達(dá)到終結(jié)“零搜索”的目標(biāo)。3.3確保內(nèi)容相關(guān)性在對信息進(jìn)行加工處理后,為了保證檢索結(jié)果與用戶的搜索需求更相關(guān),F(xiàn)AST ESP還提供了幾種調(diào)整相關(guān)性的方法:相關(guān)度:應(yīng)用設(shè)計人員可以調(diào)整相關(guān)性排序算法,通過評估各種靜態(tài)和動態(tài)屬性的相關(guān)性。 Ø 靜態(tài)相關(guān)屬性,和文件的內(nèi)容有關(guān),而和檢索條件無關(guān),如文檔的最后更新或訪問時間,文檔的連接數(shù)等Ø 動態(tài)屬性依賴于檢索條件,如文檔點擊率,詞匯出現(xiàn)頻率和近似詞。結(jié)合靜態(tài)和動態(tài)屬性的相關(guān)聯(lián)的大小數(shù)值(應(yīng)用中生成的一個分?jǐn)?shù)值),即得到“相關(guān)度”。應(yīng)用開發(fā)人員可以創(chuàng)建一個或幾個權(quán)重。在一次檢索的基礎(chǔ)上,用戶可以指定哪些相關(guān)屬性用于計算排序的相

31、關(guān)分?jǐn)?shù),并能設(shè)定具體的數(shù)值以控制相關(guān)性排序結(jié)果。檢索語言:FAST檢索語言(FQL) ,能夠使終端用戶通過輸入條件控制結(jié)果的相關(guān)度排序機(jī)制,例如,布爾操作,強制的納入或排除某些結(jié)果項。終端用戶也可以選擇忽略相關(guān)性排序,使結(jié)果只按文件其他的屬性排序,如創(chuàng)建日期,標(biāo)題或作者,前提是這些屬性是存在的。字段加權(quán):FAST ESP對文檔內(nèi)的某些字段進(jìn)行加權(quán),使這些字段的權(quán)重高于其他字段。舉例來說,點擊一篇文檔的標(biāo)題要比點擊內(nèi)容重要10倍。字段的權(quán)重值可設(shè)定任何數(shù)值或合并到已經(jīng)存在的索引字段中。搜索商務(wù)中心:FAST的搜索商務(wù)中心載有一項工具,可以讓管理者控制哪些文件最優(yōu)先排序,如果有必要,甚至不用管用戶

32、輸入的檢索條件。這已應(yīng)用于大多搜索領(lǐng)域,通過將該文檔置于搜索結(jié)果排序的最前端以體現(xiàn)其重要性并推薦給用戶,它一般的應(yīng)用是基于某種環(huán)境中某一特定網(wǎng)頁被認(rèn)為是某種條件檢索的最權(quán)威頁面。例如,奧運會期間要查找“籃球比賽”則應(yīng)把奧運會的官方主頁放在排序首位。相關(guān)度調(diào)節(jié)器 :利用相關(guān)度調(diào)節(jié)器能夠便捷的調(diào)節(jié)各種相關(guān)性,可以將相關(guān)度信息設(shè)置到現(xiàn)有的搜索索引數(shù)據(jù)庫中。它從一個xml文件中讀取內(nèi)容以增強某些特定文件的相關(guān)度。相關(guān)度調(diào)節(jié)器支持同一級別調(diào)整并不是基于GUI的。3.4搜索結(jié)果處理敏感詞過濾FAST ESP的搜索支持敏感詞過濾,并且允許客戶自定義詞典定制過濾功能。圖 敏感詞過濾相關(guān)度排名FAST ESP提

33、供相關(guān)度排名模型,相關(guān)度是指搜索結(jié)果和檢索條件的匹配程度,F(xiàn)AST的搜索引擎具有完整和靈活的相關(guān)度計算機(jī)制,以適應(yīng)不同行業(yè)的不同應(yīng)用,確保用戶獲得相關(guān)性最高的結(jié)果。完整性:十幾個可以調(diào)整的參數(shù),包括“近似度”,“字段”,“關(guān)鍵字”,“新鮮度”,“業(yè)務(wù)規(guī)則”,“權(quán)威性”,“質(zhì)量”,“鏈接級數(shù)”,“距離”,“上下文權(quán)重”,“統(tǒng)計”,“語言標(biāo)準(zhǔn)化的程度”等靈活性: 開放的和可供調(diào)整的組合,適合你的相關(guān)度排名需要。相關(guān)度排名模型是可以調(diào)整的,用來適應(yīng)不同部門的需求,比如說研發(fā)部門,市場營銷部門,客戶服務(wù)部門和行政管理部門各提供什么樣的排名算法,讓其在不同的界面上展示與自己使用習(xí)慣相關(guān)的搜索結(jié)果。FAS

34、T的相關(guān)度計算,使用以下因素加權(quán)平均,通過調(diào)整各個因素的權(quán)重形成不同的相關(guān)度計算方法,適應(yīng)企業(yè)不同部門的需求Ø 新鮮度:文檔的時間? 例:最新的新聞排在最前面;Ø 上下文:匹配發(fā)生在文檔的不同部位其相關(guān)度是不同的?例:匹配發(fā)生在文檔的標(biāo)題比在正文具有更高的相關(guān)度;Ø 權(quán)威性:所命中的文檔是否具有權(quán)威性?例:判斷文檔的權(quán)威性可以根據(jù)它是否被其他網(wǎng)頁參照和聯(lián)接;Ø 統(tǒng)計:所搜索的詞語和文檔之間的匹配度有多高?例:鄰近度(所搜索的詞語之間在文檔中的距離); 所搜索詞語在文檔中出現(xiàn)的頻率;Ø 質(zhì)量:所命中的文檔的質(zhì)量。例:首選目標(biāo)網(wǎng)頁、業(yè)務(wù)規(guī)則(例如,

35、收入的潛力)、編輯評級、新聞稿;Ø 距離:所命中的文檔和我的距離?對于研發(fā)部門,相關(guān)度計算以權(quán)威性為主,其次是統(tǒng)計特性;對于市場營銷部門,相關(guān)度計算以新鮮度為主,其次是上下文對于客戶服務(wù)部,相關(guān)度計算以統(tǒng)計特性為主,其次是權(quán)威性對于行政管理部門,相關(guān)度以質(zhì)量特性為主,其次是上下文。自動分類功能FAST提供自動分類功能,支持兩種自動分類:基于規(guī)則的和基于樣本實例的?;谝?guī)則的分類,管理員創(chuàng)建一個分類樹,并指定每一分類節(jié)點背后的規(guī)則。在文檔處理過程中,這些規(guī)則將被用來標(biāo)記文件的類別,這些類別將對應(yīng)分類樹種的某個節(jié)點。由于手工制作分類規(guī)則需要花費非常大的人力,并且對某些應(yīng)用難于做到非常精確

36、,因此FAST搜索還提供了一個基于樣本的能夠自學(xué)習(xí)的分類模式,系統(tǒng)管理員提供了一套文檔,被認(rèn)為是可以代表一個分類,然后運行一個訓(xùn)練工具,就能在文檔處理的過程中自動生成基于樣本的分類。分類信息將和文檔一起被索引,在搜索結(jié)果中,它們可以為用戶提供導(dǎo)航和瀏覽的功能。FAST為自動分類的規(guī)則的管理和樣本訓(xùn)練提供一個可視化的工具Taxonomy Workbench。自動聚類FAST搜索平臺支持自動聚類,這個功能是通過在文檔的處理過程中,自動生成文檔的特征向量,根據(jù)特征向量,將相似的文檔聚合歸類。所謂的特征向量,是由文檔中出現(xiàn)的概念/關(guān)鍵字以及它出現(xiàn)的頻率構(gòu)成。識別名詞短語能識別名詞短語并提供其它的特別的

37、跟語言相關(guān)的特性,使用戶體驗更好,除了名詞短語的識別(見上面的有關(guān)自動聚類的描述),F(xiàn)AST還提供(作為對于核心產(chǎn)品的補充)被命名的實體提煉器,用于從全文類型的實體中識別和抽取如人名、地名、公司名、產(chǎn)品名等。一旦抽取了,這些功能可被用于提供搜索校準(zhǔn)和分析功能,極大地改善了搜索的準(zhǔn)確度和用戶的搜索體驗。提供文檔的摘要在搜索結(jié)果中提供文檔的摘要,F(xiàn)AST搜索平臺動態(tài)產(chǎn)生上下文感知的文檔摘要,在搜索結(jié)果中顯示和用戶的搜索概念最相關(guān)的那部分文檔,并以高亮度的方式顯示關(guān)鍵字詞。高亮直達(dá)功能在搜索結(jié)果中支持高亮度顯示關(guān)鍵字,并有直達(dá)功能,F(xiàn)AST搜索平臺在搜索結(jié)果中以高亮度的方式顯示關(guān)鍵字詞,并且用戶通過

38、點擊關(guān)鍵字詞直接到達(dá)包含和被搜索關(guān)鍵字的最相關(guān)的文檔中的段落或句子。限制搜索結(jié)果的數(shù)量用戶或應(yīng)用設(shè)計者能限制搜索結(jié)果的數(shù)量,F(xiàn)AST搜索界面包含一個“采樣數(shù)”參數(shù)用于指出在一頁中返回的文檔的數(shù)量,和一個“偏差”參數(shù)用于指出在結(jié)果集中應(yīng)該在什么地方開始(如第十一個文檔)。這可以由應(yīng)用設(shè)計人員進(jìn)行控制或暴露給用戶進(jìn)行控制。3.5 用戶體驗第三章中詳細(xì)介紹了FAST ESP的工作機(jī)制,我們已經(jīng)了解到通過其各項功能,可以實現(xiàn)用戶實際應(yīng)用過程中的良好的搜索體驗。這節(jié)中我們再將各項體驗亮點總結(jié)一下。FAST支持的多種檢索方式展現(xiàn),可以將搜索框嵌入到各個場景的頁面中。支持的檢索類型FAST的搜索引擎支持以下

39、類型的檢索(無論哪種類型的檢索,都不會導(dǎo)致性能的下降):Ø 多檢索條目Ø 擴(kuò)展詞匯Ø 包含/不包含操作Ø 文字/數(shù)字表達(dá)式檢索Ø 近似檢索Ø 布爾詞語Ø 整數(shù)比較Ø 括號檢索Ø 字段檢索等搜索輸入框下拉式自動提示搜索輸入框支持下拉式自動提示:FAST默認(rèn)支持基于特定語言字典為搜索輸入框提供下拉式自動提示,在用戶輸入過程中自動提示相關(guān)搜索建議。另外,自動提示的字典可按照客戶所在的行業(yè)進(jìn)行客戶化定制。圖 搜索框下拉提示搜索結(jié)果排序、多重排序具有靈活的搜索結(jié)果排序方式、多重的排序方式,F(xiàn)AST的搜索引擎支持基于

40、任何文件的屬性的排序。默認(rèn)排序方式是按照相關(guān)度,但任何其他屬性可以使用(如日期,作者,大小,文件類型) 。此外,還可以有多個層次的排序。例如,在相關(guān)度排序后再按日期進(jìn)行排序,反之亦然。最后,任何一種級別的排序都可以升序和降序。排序順序在檢索時指定。FAST使用的排序方法內(nèi)置在核心引擎,因此在使用時不產(chǎn)生任何性能損失。導(dǎo)航器FAST ESP允許通過搜索過濾器,幫助用戶縮小檢索范圍,按類別,功能,語言和時間等分類,這些搜索過濾器被稱為導(dǎo)航器,它們可以預(yù)先明確地加以定義,如類別等,依賴在文檔處理過程中的靈活的實體提煉能力,它們被自動識別和生成。FAST ESP配備多個即開即用的實體類型,如適當(dāng)?shù)拿Q

41、,公司名稱,大學(xué)名稱,郵政編碼,除此之外還支持根據(jù)用戶的需求而定義的導(dǎo)航器,F(xiàn)AST ESP實體提取和匹配框架允許使用規(guī)則和字典來識別實體,支持任何類型的實體。利用這個框架可以根據(jù)用戶的需求進(jìn)行任意的擴(kuò)展,增加產(chǎn)品名稱,編號,產(chǎn)品屬性;服務(wù)和項目等導(dǎo)航器。導(dǎo)航器支持動態(tài)鉆?。―ynamic Drill-down)的功能。除了能幫助用戶縮小查找范圍,導(dǎo)航器和動態(tài)鉆取還起到意想不到的效果,它們能從多方位多角度回答用戶的問題,使用戶對他的問題獲得全面的了解,甚至發(fā)現(xiàn)他不知道的信息。圖 通過動態(tài)鉆取獲取精確結(jié)果支持自然語言檢索自然語言搜索能力是指一個搜索引擎能在用戶按日常說話方式進(jìn)行檢索時,也能返回相

42、關(guān)的結(jié)果。這意味著,用戶輸入檢索的形式是一個問題或陳述,而不是關(guān)鍵字。處理過程通過分解檢索語句,過濾那些和相關(guān)度無關(guān)的詞語,解釋問題或修飾符的含義,被稱為自然語言處理。自然語言處理的最終目標(biāo)是把“壞”檢索變成一個“好”的檢索,以返回相關(guān)的結(jié)果集。用戶檢索的轉(zhuǎn)換在多個層次進(jìn)行,語義學(xué)處理能力能讓用戶不僅能檢索,還能獲得搜索結(jié)果基于概念和目錄的分類,F(xiàn)AST的動態(tài)分類和動態(tài)鉆取能力讓用戶可以通過導(dǎo)航器進(jìn)行檢索,以逐步幫助他們縮小搜索范圍,快速獲得最相關(guān)的結(jié)果,隨著時間的推移,這些工具最終訓(xùn)練用戶如何使用先進(jìn)的搜索和獲得高質(zhì)量的搜索體驗。下面的語言功能可處理自然語言搜索,把一個壞的檢索變成一個很好的

43、檢索:Ø 拼寫檢查和搜索建議Ø 詞根化Ø 同義詞擴(kuò)展Ø 詞組檢測和實體識別(識別和建議詞組,產(chǎn)品名稱或其他常見的實體或想法) Ø 動態(tài)聚類(從搜索結(jié)果中提取概念,并且將它們組成“有關(guān)聯(lián)的議題”或“類似的概念”)Ø 分類(能夠動態(tài)的或基于訓(xùn)練的方式將搜索結(jié)果分為可瀏覽的組別) Ø 動態(tài)鉆取(能夠基于可搜索的項目或產(chǎn)品屬性進(jìn)行瀏覽,比如基于項目的參數(shù),如文件大小,語言,部門,作者等) Ø 字詞規(guī)范化(如繁體和簡體的轉(zhuǎn)換,大寫數(shù)字和小寫數(shù)字的轉(zhuǎn)換) Ø 忽略無用或無關(guān)的字詞圖 搜索結(jié)果展示除了以上的基本功能,F(xiàn)

44、AST還致力提供系統(tǒng)的調(diào)節(jié)能力,靈活性和可擴(kuò)展性。這意味著,可以在許多層面進(jìn)行相關(guān)度的調(diào)整以符合用戶的需要。報表可以幫助系統(tǒng)管理員能夠更好地了解最終用戶使用什么類型的搜索以及獲得的是什么樣的結(jié)果,隨著時間的推移,系統(tǒng)可逐步調(diào)優(yōu),信息的變化使用戶群變得更精通搜索。該系統(tǒng)是靈活的,允許基于信息的內(nèi)容定制的語義學(xué)特征,包括自定義的字典以及用戶的期望。企業(yè)可以客戶化自己的術(shù)語,短語,拼寫檢查,搜索建議和同義詞。組合不同的檢索方式單個檢索支持組合不同的檢索方式,不同方式的檢索可以按布爾邏輯的形式進(jìn)行組合。限制所檢索的文檔集合所檢索的文檔集合能被限制,搜索可以被限制在一個文檔的集合,或若干個文檔集合,或由

45、某個字段來限制。拼寫檢查FAST ESP支持搜索檢索的拼寫檢查。圖 搜索過程中的拼寫檢查通配符搜索支持多種類型的通配符搜索,F(xiàn)AST支持單字匹配(“?”)和多字匹配(“*”),支持前綴,后綴和嵌入式通配。自動識別檢索中的專有名字和詞組FAST能自動識別檢索中的專有名字和詞組,以提高檢索結(jié)果的相關(guān)度,并且能在特定情況下限制拼寫糾正功能,F(xiàn)AST搜索能自動識別用戶檢索中的專有名詞和詞組。具體的名稱或詞組識別被配置在一本基礎(chǔ)字典中。自定義的名稱或短語詞典可以增加或合并到現(xiàn)有的字典中。過濾FAST的搜索支持字/詞組過濾,并且是可客戶化,通過定義字典實現(xiàn)該功能。通過以上功能,F(xiàn)AST能夠滿足業(yè)務(wù)應(yīng)用對用戶搜索體驗的各種要求:從搜索界面來看,可以定義各種搜索、高級搜索界面應(yīng)用與不同的頁面,用戶使用搜索的時候能夠體驗到下拉提示、拼寫檢查、歧義糾正等功能。搜索結(jié)果的展示,我們可以提供各種分類導(dǎo)航條、關(guān)鍵字云、熱門搜索、相關(guān)搜索等導(dǎo)航工具,以及按照各種屬性排序的功能(如按照時間、相關(guān)度排序等),讓用戶通過簡單的點擊即可縮減搜索結(jié)果,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論