運營商客服通話信息文本自動分類_第1頁
運營商客服通話信息文本自動分類_第2頁
運營商客服通話信息文本自動分類_第3頁
運營商客服通話信息文本自動分類_第4頁
運營商客服通話信息文本自動分類_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

運營商客服通話信息文本自動分類胡波【摘要】隨著大量的運營商客戶熱線語音能夠被智能識別形成文本文件,如何有效利用這些文本信息,進行有效的分類管理,發(fā)揮潛在的數(shù)據價值,是目前大數(shù)據整合的關注問題.本文采用文本分類技術進行建模,將中文分詞、特征提取、分類算法、分層抽樣等方法綜合應用到客戶文本的自動分類中.文中描述了如何通過模型進行優(yōu)化調整,達到了良好的自動分類準確率.【期刊名稱】《江蘇通信》【年(卷),期】2017(033)005【總頁數(shù)】4頁(P78-81)【關鍵詞】運營商;客服;分詞;文本分類;分層抽樣【作者】胡波【作者單位】中國電信股份有限公司江蘇分公司【正文語種】中文0背景電信運營商客戶服務熱線承擔著業(yè)務咨詢、投訴、辦理、障礙申告等職責。隨著計算機語音識別能力的提升,目前各運營商陸續(xù)開展了語音錄音文件向文本數(shù)據的轉換工作,形成了大量的客服文本信息庫,成為運營商大數(shù)據的一部分。目前,部分運營商在對客服撥打的客服電話進行大數(shù)據分析,挖掘潛在的內容價值,比如:發(fā)現(xiàn)熱點投訴問題、客戶業(yè)務咨詢中的商機捕獲、客戶情緒評價等。與傳統(tǒng)的業(yè)務訂購、賬單、通話等信息行為等精確數(shù)據相比,客服文本信息存在一定的噪聲,語音識別存在一定的差錯的問題,尤其是普通話不標準的對話。但是即使從客服人員單方面的語言來分析,依舊能夠進行有效分類。然而文本分類是通過客服人員掛機后人工指定,主觀性和隨機性較大,準確度也不高。本文介紹如何利用文本分類技術,實現(xiàn)對運營商客戶服務文本信息的分詞、關鍵字評價,并構建自動分類模型。1文本分類介紹近些年來,作為大數(shù)據的相關技術,越來越多的非結構化信息得到存儲和分析,文本分類是其中的重要研究和實踐方向。所謂文本分類是根據文本的內容,由計算機對未知類別的文字文檔進行自動處理,判別它們所屬預定義類別集中的一個或多個類別。文本分類近些年來,在輿情識別、商品評價、新聞分類等方面得到了應用。文本分類一般采用〃詞袋”(bag-of-words)假設。所謂〃詞袋”假設是在自然語言處理和信息檢索中的一種簡單假設:在這種模型中,文本(段落或者文檔)被看作是無序的詞匯集合,忽略語法甚至是單詞的順序。在“詞袋”假設下,采用“有監(jiān)督學習”的方法,主要思路是:從已打上分類標簽的文檔中提取特征,在特征的預處理的基礎上,引入監(jiān)督模型進行特征值與分類標簽的訓練和模型迭代,模型的準確性滿足后投入實際的分類應用。與〃英文”等文字不一樣,中文的文本分類首選需要進行,,分詞,,處理,在此基礎上再進行特征提取等后續(xù)工作。圖1是中文文本分類的一般建模過程。圖1基于統(tǒng)計學習的中文文本分類一般性過程1.1中文分詞分詞是從中文自然語言句子中劃分出有獨立意義詞的過程。眾所周知,〃英文”是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,不能天然形成〃詞”。計算機進行分詞的基礎是詞庫,將整理形成的中文詞納入到詞庫中?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法等。分詞技術是做中文文本分析的基礎,應用非常廣泛。1.2特征提取過高的特征維度是文本分類的一個顯著特點,因為每個不重復的分詞都可以視為一個單獨的特征。為了兼顧運算時間和分類精度兩個方面,不得不進行特征選擇,力求在不損傷分類性能的同時達到降維的目的。常用的特征選擇方法有文檔頻率方法(DF)、信息增益方法(IG)、互信息方法(MI)、CHI方法、期望交叉熵、文本證據權、優(yōu)勢率等。1.3分類建模在分類算法的選擇上,目前存在各種各樣的文本分類算法,如樸素貝葉斯、文本相似度法(也稱向量空間法)、支持向量機、K-最近鄰、SVM等算法。其中樸素貝葉斯和支持向量機方法應用比較廣泛,它們具有分類機制簡單,處理速度快的優(yōu)點。1.4模型評價數(shù)據挖掘中的模型評價有很多種,這里不考慮差異化的誤分代價。誤分情況采用混淆矩陣來刻畫,總體用〃召回率”、“準確率”來評價模型。對文本分類結果,類別i的〃準確率”(也稱〃查準率”)定義為預測為〃預測類別i的集合中,實際為類別i的比例”:類別i的“召回率”(也稱〃查全率”)定義為預測為〃實際類別i的集合中,被預測分類為類別i的比例”:模型的〃整體準確率”定義為〃被正確分類的樣本數(shù)量占全體樣本的比例”:(N為全體驗證樣本數(shù)量)。2建模實驗分析2.1樣本說明建模實例為某個運營商大區(qū)呼叫中心,經智能語音識別工具識別,一段時間客服溝通文本文件??偣灿?3500個文本文件,每個文件為一次語音通話的識別內容。為了進行文本分類學習,先隨機抽取出3000個文本文件,安排人員對其內容進行人工識別,打上分類標簽,作為訓練和驗證的樣本集。分類標簽分為以下幾類,具體見表1。表1文本樣本集中各分類情況說明標號分類說明樣本占比產生原因1表1文本樣本集中各分類情況說明表1文本樣本集中各分類號分類說明樣本占比產生原因投訴1.03%不滿服務2標表1文本樣本集中各分類情況說明號分類說明樣本占比號分類說明樣本占比產生原因標標流量咨詢7.53%流量包資費及咨詢3ITV報障3.60%ITV不正常4手機報障3.00%手機不正常5寬帶報障53.07%寬帶不正常6寬帶咨詢0.57%寬帶業(yè)務及資費7欠費咨詢7.40%欠費8積分咨詢0.87%積分兌換9資費咨詢5.53%資費、套餐10密碼咨詢6.50%業(yè)務密碼獲取、重置11手機掛失1.57%手機掛失12業(yè)務咨詢9.33%國際漫游等業(yè)務1投訴1.03%不滿服務2流量咨詢7.53%流量包資費及咨詢3ITV報障3.60%ITV不正常4手機報障3.00%手機不正常5寬帶報障53.07%寬帶不正常6寬帶咨詢0.57%寬帶業(yè)務及資費7欠費咨詢7.40%欠費8積分咨詢0.87%積分兌換9資費咨詢5.53%資費、套餐10密碼咨詢6.50%業(yè)務密碼獲取、重11手機掛失1.57%手機掛失12業(yè)務咨詢9.33%國際漫游等業(yè)務1投訴1.03%2流量咨詢7.53%流量3ITV報障3.60%I4手機報障3.00%手5寬帶報障53.07%寬6寬帶咨詢0.57%寬帶7欠費咨詢7.40%8積分咨詢0.87%9資費咨詢5.53%資10密碼咨詢6.50%業(yè)務密11手機掛失1.57%12業(yè)務咨詢9.33%國際1投訴1.03%不滿服務2流量咨詢7.53%流量包資費及咨詢3ITV報障3.60%ITV不正常4手機報障3.00%手機不正常5寬帶報障53.07%寬帶不正常6寬帶咨詢0.57%寬帶業(yè)務及資費7欠費咨詢7.40%欠費8積分咨詢0.87%積分兌換9資費咨詢5.53%資費、套餐10密碼咨詢6.50%業(yè)務密碼獲取、重置2.2建模環(huán)境本文建模采用python(版本3.5.2)編寫腳本,中文分詞包采用jieba(版本0.18),文本挖掘采用通用挖掘工具包sckit-learn包(版本0.18.1),軟件在Windows10環(huán)境下運行。2.3建模操作步驟1分詞處理分詞之前涉及到兩個方面的工作,一個是自定義詞庫的設置,一個是停用詞的設置。自定義詞庫主要是將強化一些運營商產品和服務的相關術語、常用口頭語,保證分詞處理能夠被識別為詞,避免通用詞庫不能識別的風險,或者沒有必要進行進一步劃分。我們在樣本生成的過程中,由業(yè)務資深人員確認了相關術語,加載到自定義庫中,比如:〃光貓”、“網口”、“翼支付”、〃移機費”、“信用開機”、〃國際漫游”、“10000號”、“增值業(yè)務”等35個自定義分詞。為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為StopWords(停用詞)。但是并沒有一個明確的停用詞表能夠適用于所有的工具。因此我們根據分詞結果進行統(tǒng)計,將出現(xiàn)頻率較高但無實際價值的分詞,加入到停用詞庫中,比如:〃坐席”、“為您服務”、“謝謝”等。該步驟的進一步完善與〃步驟2”的特征提取操作結合在一起。步驟2特征提取基于上一步驟的分詞處理結果,我們提取出6354個特征維度(即不同分詞),我們通過文檔頻率方法進行特征篩選。具體做法是將分詞在全部文檔中,進行最高、最低頻率排名,通過業(yè)務甄別將頻率過多、過少,且對文檔分類價值不大的通用溝通詞語,比如〃請稍等”、“如果”、“那么”等進行剔除。我們剔除了文檔頻率超過3000的分詞,大多數(shù)是通用語氣詞、過渡詞,以及文檔頻率不足10的分詞,大多數(shù)是未正確語音識別的詞語。通過篩選,最終我們將參與建模的特征值數(shù)量控制在2000左右。步驟3分類建模為了后續(xù)模型訓練處理,將特征信息(分詞)和文檔標簽放置到矩陣中。圖3是矩陣的表現(xiàn)形式,其中wij是權重參數(shù)。圖2文檔-特征權重表達式wij權重的表示、計算常用以下方式:(1)BOOL(布爾)權重,bij值為0或者1,表示特征i與文檔j是否有聯(lián)系。(2)TF(詞頻)權重,TFij表示特征i在文檔j的出現(xiàn)次數(shù)。(3)TF-IDF(詞頻-逆文檔頻率)權重,wij=TFij*log(N/DFi),N表示文檔數(shù)量,DFi表示特征i出現(xiàn)文檔的次數(shù)。我們綜合采用上述3種權重表達方式參與建模,并采用文本分類建模中應用比較廣泛的NaiveBayes(樸素貝葉斯)算法和SVM(支持向量機)算法。步驟4模型評價和優(yōu)化調整(1)普通抽樣建模3000個打好標簽的樣本集中,隨機抽取2000個樣本參與建模,剩下1000個樣本進行驗證,表2是建模效果比較。表2建模效果比較分類模型權重表達式訓練樣本準確率驗證樣本準確率BOOL67%63%TF73%71%TF-IDF53%51%SVN(RBF核函數(shù),gamma=1)樸素貝葉斯(MultinomialNB)BOOL52%53%TF59%55%TF-IDF54%52%我們發(fā)現(xiàn),SVN建模效果都不好,此外,基于TFIDF以及BOOL權重的模型效果明顯不如TF的權重模型。因此確定采用基于TF權重的NaiveBayes進行建模迭代。為了進一步檢查模型誤分的情況,對混淆矩陣進行了進一步的分析(標號對應含義請參考表1),詳見表3。針對表3的混淆矩陣分析,我們發(fā)現(xiàn)預測主要問題集中標號5(即〃寬帶報障”類別)的誤分上。原因是部分分類占比太低,使得一些算法模型難以進行識別。我們在數(shù)據挖掘中稱之為〃薄靶”,比如運營商客戶流失的預測(流失客戶占比在2%左右)。在這種情況下,我們一般采用〃分層抽樣”人為加大一些標簽的分布占比,來處理〃薄靶”的數(shù)據分布。(2)分層抽樣建模分層抽樣采用的具體方法,是分別從不同的分類中采用不同的抽樣比值。我們將標號5的抽樣比例從66%,降低到22%以提高其他分類的比例。通過分層抽樣,誤分為〃標號5”的數(shù)量大大減少。表4是基于分層抽樣樸素貝葉斯分類結果的混淆矩陣。訓練樣本集和測試樣本集的準確率分別提升到90.0%和86.7%,基本達到了實際應用的需求效果。在此基礎上,我們部署了該模型,應用到其它文本的快速自動分類識別,取得了較好的效果。表3基于普通抽樣的樸素貝葉斯建模結果的混淆矩陣實際值序號123456789101112預測值10000000000002013200010210239003000000000000400000000TOC\o"1-5"\h\z0000519070631045057908719186000000000000701200005511000080000000000009000000006500111000001200003700110000000000001209000090210121表4基于分層抽樣的樸素貝葉斯建模結果的混淆矩陣實際值序號123456789101112預測值19000000200002013900030006013006500000000040005900000002550503410030107060000070000007550470133400013800000001100009000000009800710000060009108301100000000001901209

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論