基于京東快遞文本識別的自然語言優(yōu)化之路_第1頁
基于京東快遞文本識別的自然語言優(yōu)化之路_第2頁
基于京東快遞文本識別的自然語言優(yōu)化之路_第3頁
基于京東快遞文本識別的自然語言優(yōu)化之路_第4頁
基于京東快遞文本識別的自然語言優(yōu)化之路_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、技術(shù)創(chuàng)新,變革未來基于京東快遞文本識別的自然語言優(yōu)化之路三河的故事地址有規(guī)范嗎?四級地址是什么?北太平莊橋?qū)儆诤5磉€是朝 陽?收件姓名是來這個星球 嗎?業(yè)務(wù)意義根據(jù)訂單收貨地址、商品屬性、賣家類型 等計算末端配送站信 息從ofc獲得訂單信 息, 下傳訂單信息 到運(yùn)單系統(tǒng), 控制 下傳速度為倉庫、分揀提供打 印時的包裹標(biāo)簽信 息:站點,路區(qū),京 鮮達(dá)等信息作為訂單流程的部分, 下傳訂單信息到運(yùn)單系統(tǒng)實現(xiàn)分揀中快速作業(yè)指導(dǎo)站點提前安排配送資源讓KA商家提前知道包裹配送的路由信息分單的意義目標(biāo):結(jié)構(gòu)化朝陽亞奧北8號北A座到了橘1381輸-解構(gòu):本實體查詢北京海淀北京政詳細(xì)地址附姓名電話輸出:召回怎么

2、做分詞?樣本庫北京興亦莊朝林場A座熊 練語料庫 地址庫到貨請聯(lián)系我前電話 先電話聯(lián)系送前電話聯(lián)系以便留簽收電話聯(lián)系分詞模型label名稱詞語城市北京區(qū)縣興poi朝林廈名張三電到了電話名姓 吳 *汪*庫1392300*1527015*電 話 庫地址庫地址分詞詞典神經(jīng)絡(luò)本解析絡(luò)結(jié)構(gòu)+詞庫 遺留問題?語義相似度Word2Vec+TextCnn構(gòu)建地址模型“政區(qū)劃”北京興區(qū)榮華中路 19號 朝林場A座500dim Embedding(Word2Vec)Classification(TextCNN)Address 27990.0028190.00510

3、80.9851510.00convolutionpoolingdensesoftmax0.070.50.220.200.180.150.310.010.330.06-0.1-0.20.590.130.34-0.2-0.10.410.050.10.340.01-0.20.14-0.40.780.090.10.45-0.30.040.450.01-0.50.020.87-0.80.020.230.17-0.60.080.19-0.20.120.070.10.37-0.10.02-0.3-0.60.370.220.450.340.010.250.63-0.30.150.140.29-0.10.560

4、.030.24-0.50.310.410.020.18concatenate結(jié)構(gòu)化基礎(chǔ)數(shù)據(jù)建設(shè)架構(gòu)地址庫標(biāo)注 與檢查詞性分析=+同X詞詞性分析地址結(jié)構(gòu)化地名消歧動補(bǔ)全語義相似未登錄詞監(jiān)督監(jiān)督?其他?地址挖掘序列語料語料庫未登錄詞-編輯距離北京市朝陽區(qū)中關(guān)村街道中關(guān)村南條7號政區(qū)劃 北京市 朝陽區(qū)中關(guān)村街道 中關(guān)村地址樹路徑北京市:0,0朝陽區(qū): 0,0,2,5,12中關(guān)村街道: 0,0,3,10中關(guān)村: 0,0,3,10對候選地址進(jìn)懲罰值 計算若詞語不落在候選路徑 上,對路徑累加懲罰 值,懲罰值設(shè)為該詞不 為政區(qū)劃詞的概率的 對數(shù)值。懲罰值最的路徑0,0,3,10政區(qū)劃北京 北京市 海淀區(qū)中關(guān)

5、村街道反饋提供概率值政區(qū)劃別名庫亦莊鎮(zhèn)亦莊: 723586, 亦莊鎮(zhèn): 29369雙流區(qū)雙流區(qū): 1189560, 雙流縣: 成都成都市: 10792101, 成都: 523446輸出除噪結(jié)果別名北京市:北京中關(guān)村街道:中關(guān)村街道 中關(guān)村:中關(guān)村街道輸出別名庫中國北京北京東城城朝陽海淀上海存儲地址樹相似度匹配相似度匹配預(yù)處理圍欄清洗BiLSTM+CRF分詞模型訓(xùn)練詞向量TextCNN模型后處理置信度歸化相似度匹配-打分(,) = (,)NiW 每個詞在全檔的權(quán)重值(,) 每個查詢詞在當(dāng)前檔中的得分jaccard index(AB/AB)線性回歸并以及 sigmoid 歸化來構(gòu)建評估搜索返回結(jié)果置信度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論