版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望報告人:董震復(fù)旦大學(xué)計算機(jī)學(xué)院背景介紹案例分享001基于大語言模型的等價類劃分測試技術(shù)02基于大語言模型的測試輸入增強(qiáng)三挑戰(zhàn)與展望03基于大語言模型的場景測試用例生成04基于大語言模型的跨APP測試用例遷移三挑戰(zhàn)與展望一背景介紹大語言模型(LLM)的演變圖片來源:Yang,J.,Jin,H.,Tang,R.,Han,X.,Feng,Q.,Jia大語言模型(LLM)的應(yīng)用大語言模型(LLM)應(yīng)用案例圖片來源:Hong,S.,Zheng,X.,Chen,J.,Cheng,Y.,Wang,J.,Zhang,C.,...&Wu,C.(2023).Metagpt:Me軟件測試全流程中的大語言模型(LLM)l測試輸入生成ll測試輸入生成l測試用例生成lOracle生成ll回歸測試用例生成測試報告與評測試報告與評l業(yè)務(wù)邏輯分析l測試場景分析l邊界條件識別缺陷管理與回歸測缺陷管理與回歸測測試執(zhí)行測試執(zhí)行測試計劃制定測試計劃制定測試設(shè)計與實現(xiàn)結(jié)構(gòu)化報告生成l測試設(shè)計與實現(xiàn)結(jié)構(gòu)化報告生成l測試集優(yōu)化與選擇l測試集優(yōu)化與選擇l測試用例執(zhí)行l(wèi)反饋分析與策略調(diào)整l測試計劃生成l風(fēng)險預(yù)測l測試優(yōu)先級建議案例分享案例分享二基于大語言模型的等價類劃分測試技術(shù)等價類劃分2.程序顯示此三角形是等邊三角形(三條邊都相等)、等腰三角形(只有兩條邊相等)或432不等邊三角形432等邊三角形22等腰三角形等價類劃分輸入非三角形輸入非三角形三角形三角形根據(jù)“輸出”情況細(xì)分“三角形”主類等邊等邊三角形等腰三角形等腰三角形不等邊三角形<200,100,200>代表所有“等腰三角形”大語言模型的常識推理與代碼理解能力用于判斷三角形的程序代碼大語言模型對代碼的理解大語言模型具備常識推理與代碼理解的能力利用大語言模型進(jìn)行等價類劃分測試由于大語言模型具備常識推理和代碼理解能力,我們可以利用其分析程序代碼,自動劃分適當(dāng)?shù)牡葍r類。隨后,為每個等價類生成若干輸入,從而提升輸入生成的效率。用于判斷三角形的程序代碼任何一對邊的和不大于第三邊三條邊都相等有兩條邊相等,第三條邊不同三條邊都不相等大模型劃分出的等價類大模型生成的測試輸入基于大語言模型的等價類劃分測試工具由于大語言模型具備常識推理和代碼理解能力,我們可以利用其分析程序代碼,自動劃分適當(dāng)?shù)牡葍r類。隨后,為每個等價類生成若干輸入,從而提升輸入生成的效率。程序源代碼我們從10個第三方開源庫中選取了共2205個方法對工具進(jìn)行了性能測試,并設(shè)計對比實驗。結(jié)果如下:①基于大語言模型的等價類劃分測試工具使用更少的輸入,達(dá)到更高的覆蓋②在等價類劃分是增加更多的深層函數(shù)信息不能提升工具的覆蓋效果結(jié)論①基于大語言模型的等價類劃分測試工具的生成效果遠(yuǎn)好于傳統(tǒng)的基于搜索的軟件測試生成工具以及符號執(zhí)行工具,證明了將大語言模型與等價類劃分測試結(jié)合可以顯著提高測試效率。②提供待測方法調(diào)用的更深層次代碼并沒有顯著提高大語言模型劃分等價類的效果,反而大大增加了成本。基于大語言模型的測試輸入增強(qiáng)測試輸入增強(qiáng)測試輸入增強(qiáng):就是在現(xiàn)有測試用例的基礎(chǔ)上為測試生成更多樣化的輸入,來覆蓋不同的場景增強(qiáng)前增強(qiáng)前用戶名:user123密碼:password123增強(qiáng)后增強(qiáng)后用戶名:user123密碼:p用戶名:user!@#密碼:password123密碼:password123基于大語言模型的測試輸入增強(qiáng)大語言模型憑借其語義理解和常識推理能力,能夠在示例:測試應(yīng)用在不同區(qū)域下的搜索功能,軟件依據(jù)地區(qū)和時區(qū)提供符合當(dāng)前參數(shù)名參數(shù)含義region地區(qū)名稱query搜索的內(nèi)容tzname時區(qū)名稱version應(yīng)用的版本號有效輸入無效輸入地區(qū)與時區(qū)不匹配流量數(shù)據(jù)使用錄制使用系統(tǒng)用戶待測試系統(tǒng)流量數(shù)據(jù)基于流量數(shù)據(jù)的大語言模型測試輸入增強(qiáng)工具①工具從流量數(shù)據(jù)中提取參數(shù)間約束關(guān)系 統(tǒng)計學(xué)算法預(yù)分析&流量數(shù)據(jù)潛在約束關(guān)系的參數(shù)對經(jīng)過約減的流量數(shù)據(jù)模型推斷出的約束基于流量數(shù)據(jù)的大語言模型測試輸入增強(qiáng)工具②結(jié)合參數(shù)間約束關(guān)系,輔助大語言模型生成高質(zhì)量測試輸入以實現(xiàn)輸入增強(qiáng)LLM分析出的約束條件結(jié)合約束生成的有效輸入我們工具已在某企業(yè)的2個業(yè)務(wù)模塊上進(jìn)行落地實驗,涵蓋不同的功能接口。結(jié)果如下:①基于流量數(shù)據(jù)的大語言模型測試輸入增強(qiáng)工具協(xié)助團(tuán)隊提升了代碼覆蓋率②去掉預(yù)分析及流量約減后,提取出的有效約束數(shù)量減少9結(jié)論①利用實際的流量數(shù)據(jù)與大語言模型結(jié)合進(jìn)行測試輸入增強(qiáng),可以生成更多符合系統(tǒng)實際運(yùn)行場景的測試輸入,從而提高測試的全面性和覆蓋率。②預(yù)分析及流量約減對有效約束的提取至關(guān)重要,可以有效減少LLM處理過程中可能產(chǎn)生的幻覺問題,避免因數(shù)據(jù)過載或不相關(guān)信息干擾導(dǎo)致的錯誤推斷?;诖笳Z言模型的場景測試用例生成測試場景:描述用戶在某個具體情況下會怎么操作軟件,用來檢查系統(tǒng)在這個情況下能不能正常工作。 搜索想購買的商品名稱 點(diǎn)擊商品進(jìn)入詳情頁 點(diǎn)擊立即購買 選擇地址和支付方式點(diǎn)擊支付按鈕點(diǎn)擊支付按鈕場景測試用例場景測試用例由操作、測試輸入、預(yù)期結(jié)果構(gòu)成操作搜索搜索查看詳情購買修改提交測試輸入手機(jī)手機(jī)當(dāng)前詳情頁中的手機(jī)地址和支付方式其中一個手機(jī)結(jié)算詳情預(yù)期結(jié)果預(yù)期成功修改地址和支付方式預(yù)期成功修改地址和支付方式預(yù)期返回支付成功提示,并生成訂單號預(yù)期加載該手機(jī)詳情預(yù)期顯示手機(jī)商品預(yù)期進(jìn)入結(jié)算頁面?zhèn)鹘y(tǒng)人工編寫場景測試用例代碼①操作步驟:根據(jù)測試用例描述文檔,結(jié)合API文檔或與開發(fā)人員溝通,人工逐步模擬用戶的操作流程。②測試輸入:根據(jù)測試需求,手動準(zhǔn)備場景需要的測試輸入。③預(yù)期結(jié)果:通過理解業(yè)務(wù)邏輯,手動編寫斷言驗證每一步操作后產(chǎn)生的結(jié)果是否正確。API文檔測試用例描述文檔 人工理解推斷后編寫 人工理解推斷后編寫場景測試用例代碼』場景測試用例代碼基于大語言模型生成場景測試用例的挑戰(zhàn)我們嘗試?yán)么笳Z言模型的自然語言理解和代碼生成能力,直接通過大語言模型解析測試用例描述文檔和API文檔,生成測試用例代碼,但效果不佳。經(jīng)分析,主要原因是:①測試用例描述文檔編寫質(zhì)量參差不齊②API文檔維護(hù)不及時需要真實且符合測試用例描述文檔的實時數(shù)據(jù)場景流量數(shù)據(jù)場景流量:在測試場景下,系統(tǒng)按順序發(fā)送和接收的所有網(wǎng)絡(luò)請求與響應(yīng)。條目2條目3條目4條目5操作步驟搜索搜索查看詳情購買購買修改修改提交提交用戶輸入手機(jī)手機(jī)當(dāng)前詳情頁中的手機(jī)地址和支付方式其中一個手機(jī)結(jié)算詳情系統(tǒng)輸出顯示進(jìn)入結(jié)算頁面顯示進(jìn)入結(jié)算頁面成功修改地址和支付方式返回支付成功提示,并顯示訂單號該手機(jī)的詳情手機(jī)商品列表基于大語言模型的測試用例生成工具基于錄制的場景流量數(shù)據(jù),結(jié)合大模型對測試用例描述文檔的語義理解,生成場景測試用例場景流量信息測試用例描述文檔結(jié)合流量與文檔分析場景測試用例代碼工具效果與結(jié)論用于驗證專輯信息修改功能的測試用例基于大語言模型的跨APP測試用例遷移移動應(yīng)用測試移動應(yīng)用測試的挑戰(zhàn)!測試用例遷移案例分析源購物清單應(yīng)用的測試用例:測試價格降序功能,下圖為該測試案例分析而在目標(biāo)應(yīng)用中的價格降序功能的工作流卻 利用大模型克服挑戰(zhàn)利用大模型克服挑戰(zhàn) 方法控件上下文控件上下文 ?LLM#SuccessRate:成功遷移率#Time#SuccessRate:成功遷移率#Time:遷移1條測試用例的平均耗時(min)#SuccessRate提供上下文48不提供上下文69%4.5控件識別利用XML進(jìn)行控件識別LLMLLM利用圖像進(jìn)行控件識別圖像即應(yīng)用界面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度精密產(chǎn)品模具設(shè)計與委托加工服務(wù)合同4篇
- 2025年休閑公園場地租賃合同印花稅繳納規(guī)范2篇
- 專業(yè)發(fā)藝師2024服務(wù)協(xié)議樣本版A版
- 2025年度智慧農(nóng)業(yè)園區(qū)場商位租賃與農(nóng)產(chǎn)品上行合同4篇
- 專用消防系統(tǒng)增補(bǔ)協(xié)議樣本2024版A版
- 2025年度多功能鏟車租賃服務(wù)合同范本4篇
- 2025年度文化創(chuàng)意產(chǎn)業(yè)合作開發(fā)合同7篇
- 2025年度可打印PAD與智能教室系統(tǒng)配套合同3篇
- 2024蔬菜種植合作社與社區(qū)團(tuán)購平臺合作協(xié)議范本3篇
- 2025年度拆伙協(xié)議書范本下載4篇
- 2024年職工普法教育宣講培訓(xùn)課件
- 金蛇納瑞企業(yè)2025年會慶典
- 安保服務(wù)評分標(biāo)準(zhǔn)
- T-SDLPA 0001-2024 研究型病房建設(shè)和配置標(biāo)準(zhǔn)
- (人教PEP2024版)英語一年級上冊Unit 1 教學(xué)課件(新教材)
- 全國職業(yè)院校技能大賽高職組(市政管線(道)數(shù)字化施工賽項)考試題庫(含答案)
- 2024胃腸間質(zhì)瘤(GIST)診療指南更新解讀 2
- 光儲電站儲能系統(tǒng)調(diào)試方案
- 2024年二級建造師繼續(xù)教育題庫及答案(500題)
- 小學(xué)數(shù)學(xué)二年級100以內(nèi)連加連減口算題
- 建設(shè)單位如何做好項目管理
評論
0/150
提交評論