達觀分析文檔_第1頁
達觀分析文檔_第2頁
達觀分析文檔_第3頁
達觀分析文檔_第4頁
達觀分析文檔_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、達觀數(shù)據(jù)競品分析文檔、市場背景二、產(chǎn)品分析1、產(chǎn)品簡介達觀數(shù)據(jù)專注于人工智能領(lǐng)域的文本挖掘處理,利用NLP (自然語言處理)、機器學(xué)習(xí)、深 度學(xué)習(xí)等技術(shù),旨在為應(yīng)用方提供文本挖掘、搜索引擎、推薦系統(tǒng)、數(shù)據(jù)采集、數(shù)據(jù)統(tǒng)計等 大數(shù)據(jù)技術(shù)服務(wù)。為企業(yè)開發(fā)出文字?jǐn)?shù)據(jù)處理、企業(yè)知識管理的解決方案,提升企業(yè)數(shù)據(jù) 化運營能力和經(jīng)營業(yè)績。2、產(chǎn)品主要功能及流程2.1達觀數(shù)據(jù)文本挖掘1、文本審核檢測:文本自動審核系統(tǒng)利用高復(fù)雜的智能算法對文本內(nèi)容做涉黃涉政檢測, 同時給出違規(guī)的嚴(yán)重程度,滿足相應(yīng)政策要求,大幅減少人力成本。達觀數(shù)據(jù)提供使用非常便捷的文本審核接口(API),客戶網(wǎng)站使用時,只需要將待審 核的文本和

2、相關(guān)的信息(比如發(fā)彈幕人的昵稱、IP、UID、IMEI等信息)作為POST內(nèi) 容,進行HTTP調(diào)用后,達觀的系統(tǒng)可以在幾十毫秒內(nèi)能夠準(zhǔn)確識別文本是否包含違規(guī)內(nèi) 容、違規(guī)類型(垃圾廣告、色情、粗口等),通知使用方是否需要予以攔截。2、垃圾評論過濾:垃圾評論過濾系統(tǒng)可精準(zhǔn)識別垃圾評論,在論壇發(fā)言或用戶評論中,過 濾文本中的垃圾廣告,提升文本總體質(zhì)量;3、情感傾向分析:對用戶評論等文本內(nèi)容做情感分析,有助于了解產(chǎn)品反饋,指導(dǎo)決策與 運營。情感分基于分詞和情感詞典,即可以根據(jù)人們平時的語言表達習(xí)慣設(shè)置一些規(guī)則來計算 文本的情感傾向,比如每遇到一個正面情感詞則+1分,遇到負面情感詞則-1分,遇到否定詞則

3、乘以-1將情感反轉(zhuǎn),遇到程度副詞則將情感分?jǐn)?shù)乘以一個放大系數(shù)。最后根據(jù)計算出 的分?jǐn)?shù)判斷情感傾向,分?jǐn)?shù)為正數(shù)則判斷為正面情感,負數(shù)則判定為負面情感,正負相抵則 判定為中性。4、自動標(biāo)簽提?。鹤詣犹崛∥谋局匾獌?nèi)容生成關(guān)鍵性標(biāo)簽,在此基礎(chǔ)之上拓展更多功能形 式;5、文本自動分類:通過對文本內(nèi)容進行分析,給出文本所屬的類別和置信度,支持二級分 類,提升文本分類的精度,提高文本數(shù)據(jù)管理和使用的效率。6、網(wǎng)絡(luò)輿情分析:針對網(wǎng)絡(luò)輿論數(shù)據(jù)進行分析,了解行業(yè)動態(tài),跟蹤負面信息,協(xié)助政府 機構(gòu)檢測敏感事件和輿論熱點。7、深度學(xué)習(xí)a、詞語轉(zhuǎn)成詞向量使用目前應(yīng)用最廣泛的詞向量生成算法google的word2vec算

4、法,包含了 CBOW (ContinuousBag-of-Word)模型和 Skip-gram(ContinuousSkip-gram)模型。CBOW 模型的作 用是已知當(dāng)前詞Wt的上下文環(huán)境(Wt-2,Wt-1,Wt+1,Wt+2)來預(yù)測當(dāng)前詞,Skip-gram 模型的作用是根據(jù)當(dāng)前詞Wt來預(yù)測上下文(Wt-2,Wt-1,Wt+1,Wt+2)。b、利用深度學(xué)習(xí)框架進行訓(xùn)練詞轉(zhuǎn)成固定維度的詞向量之后,一個文本也就自然而然可以形成一個矩陣。以矩陣作為輸入 的深度學(xué)習(xí)算法,第一個想到的自然是在圖像識別領(lǐng)域獲得過成功的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。 但CNN在文本挖掘領(lǐng)域的運用具有一定局限性,因其每層內(nèi)部的節(jié)點之間是沒有連接的, 即又丟失了詞與詞之間的聯(lián)系。詞語的上下文關(guān)系對文本挖掘是至關(guān)重要的,尤其對情感分析,情感詞(“喜歡”)和否定詞(“不”)、程度詞(“很”)的搭配會對情感傾向產(chǎn)生 根本性的影響。因此目前比較廣泛

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論