下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、達觀數(shù)據(jù)競品分析文檔、市場背景二、產(chǎn)品分析1、產(chǎn)品簡介達觀數(shù)據(jù)專注于人工智能領(lǐng)域的文本挖掘處理,利用NLP (自然語言處理)、機器學(xué)習(xí)、深 度學(xué)習(xí)等技術(shù),旨在為應(yīng)用方提供文本挖掘、搜索引擎、推薦系統(tǒng)、數(shù)據(jù)采集、數(shù)據(jù)統(tǒng)計等 大數(shù)據(jù)技術(shù)服務(wù)。為企業(yè)開發(fā)出文字?jǐn)?shù)據(jù)處理、企業(yè)知識管理的解決方案,提升企業(yè)數(shù)據(jù) 化運營能力和經(jīng)營業(yè)績。2、產(chǎn)品主要功能及流程2.1達觀數(shù)據(jù)文本挖掘1、文本審核檢測:文本自動審核系統(tǒng)利用高復(fù)雜的智能算法對文本內(nèi)容做涉黃涉政檢測, 同時給出違規(guī)的嚴(yán)重程度,滿足相應(yīng)政策要求,大幅減少人力成本。達觀數(shù)據(jù)提供使用非常便捷的文本審核接口(API),客戶網(wǎng)站使用時,只需要將待審 核的文本和
2、相關(guān)的信息(比如發(fā)彈幕人的昵稱、IP、UID、IMEI等信息)作為POST內(nèi) 容,進行HTTP調(diào)用后,達觀的系統(tǒng)可以在幾十毫秒內(nèi)能夠準(zhǔn)確識別文本是否包含違規(guī)內(nèi) 容、違規(guī)類型(垃圾廣告、色情、粗口等),通知使用方是否需要予以攔截。2、垃圾評論過濾:垃圾評論過濾系統(tǒng)可精準(zhǔn)識別垃圾評論,在論壇發(fā)言或用戶評論中,過 濾文本中的垃圾廣告,提升文本總體質(zhì)量;3、情感傾向分析:對用戶評論等文本內(nèi)容做情感分析,有助于了解產(chǎn)品反饋,指導(dǎo)決策與 運營。情感分基于分詞和情感詞典,即可以根據(jù)人們平時的語言表達習(xí)慣設(shè)置一些規(guī)則來計算 文本的情感傾向,比如每遇到一個正面情感詞則+1分,遇到負面情感詞則-1分,遇到否定詞則
3、乘以-1將情感反轉(zhuǎn),遇到程度副詞則將情感分?jǐn)?shù)乘以一個放大系數(shù)。最后根據(jù)計算出 的分?jǐn)?shù)判斷情感傾向,分?jǐn)?shù)為正數(shù)則判斷為正面情感,負數(shù)則判定為負面情感,正負相抵則 判定為中性。4、自動標(biāo)簽提?。鹤詣犹崛∥谋局匾獌?nèi)容生成關(guān)鍵性標(biāo)簽,在此基礎(chǔ)之上拓展更多功能形 式;5、文本自動分類:通過對文本內(nèi)容進行分析,給出文本所屬的類別和置信度,支持二級分 類,提升文本分類的精度,提高文本數(shù)據(jù)管理和使用的效率。6、網(wǎng)絡(luò)輿情分析:針對網(wǎng)絡(luò)輿論數(shù)據(jù)進行分析,了解行業(yè)動態(tài),跟蹤負面信息,協(xié)助政府 機構(gòu)檢測敏感事件和輿論熱點。7、深度學(xué)習(xí)a、詞語轉(zhuǎn)成詞向量使用目前應(yīng)用最廣泛的詞向量生成算法google的word2vec算
4、法,包含了 CBOW (ContinuousBag-of-Word)模型和 Skip-gram(ContinuousSkip-gram)模型。CBOW 模型的作 用是已知當(dāng)前詞Wt的上下文環(huán)境(Wt-2,Wt-1,Wt+1,Wt+2)來預(yù)測當(dāng)前詞,Skip-gram 模型的作用是根據(jù)當(dāng)前詞Wt來預(yù)測上下文(Wt-2,Wt-1,Wt+1,Wt+2)。b、利用深度學(xué)習(xí)框架進行訓(xùn)練詞轉(zhuǎn)成固定維度的詞向量之后,一個文本也就自然而然可以形成一個矩陣。以矩陣作為輸入 的深度學(xué)習(xí)算法,第一個想到的自然是在圖像識別領(lǐng)域獲得過成功的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。 但CNN在文本挖掘領(lǐng)域的運用具有一定局限性,因其每層內(nèi)部的節(jié)點之間是沒有連接的, 即又丟失了詞與詞之間的聯(lián)系。詞語的上下文關(guān)系對文本挖掘是至關(guān)重要的,尤其對情感分析,情感詞(“喜歡”)和否定詞(“不”)、程度詞(“很”)的搭配會對情感傾向產(chǎn)生 根本性的影響。因此目前比較廣泛
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【名師一號】2020-2021學(xué)年高中英語北師大版必修3-雙基限時練20
- 2024-2025學(xué)年遼寧省沈陽市高一上學(xué)期1月期末質(zhì)量監(jiān)測數(shù)學(xué)試題(含解析)
- 22《鳥的天堂》課件(共28張)
- 【名師一號】2020-2021學(xué)年高中地湘教版必修1-雙基限時練4
- 【創(chuàng)新設(shè)計】2020-2021學(xué)年高中化學(xué)課堂講義(人教版選修四)配套試題:第四章-第二節(jié)-化學(xué)電源
- 【全程復(fù)習(xí)方略】2020年數(shù)學(xué)文(廣西用)課時作業(yè):第九章-第九節(jié)空間向量的坐標(biāo)運算
- 三年級數(shù)學(xué)計算題專項練習(xí)匯編及答案
- 【創(chuàng)新設(shè)計】2020-2021學(xué)年高中物理人教版選修3-1(浙江專用)題組訓(xùn)練-章末檢測1
- 沁園春雪朗誦-原版
- 《ZDAL資源與門戶》課件
- 企業(yè)清產(chǎn)核資報表
- 漢字文化解密學(xué)習(xí)通超星課后章節(jié)答案期末考試題庫2023年
- 新版小學(xué)道德與法治課程標(biāo)準(zhǔn)的解讀與梳理培訓(xùn)課件(道德與法治新課程標(biāo)準(zhǔn)培訓(xùn))
- 公司金融學(xué)張德昌課后參考答案
- DB3302-T 1015-2022 城市道路清掃保潔作業(yè)規(guī)范
- 管線探測技術(shù)介紹
- 南醫(yī)大藥用植物學(xué)實驗指導(dǎo)14被子植物(四):傘形科、唇形科、馬鞭草科、茜草科
- 2023年新改版教科版四年級下冊科學(xué)練習(xí)題(一課一練+單元+期中+期末)
- 手術(shù)室提高患者術(shù)中保溫措施的執(zhí)行率PDCA課件
- 醫(yī)院外科腸梗阻出院小結(jié)范文
- 2023年海南省三支一扶考試真題
評論
0/150
提交評論