下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
軟件眾包任務(wù)的認(rèn)知度研究
1非軟件眾包任務(wù)的參與度2006年,杰夫首次提出“公共包”一詞。這意味著公司或機(jī)構(gòu)以自由和自發(fā)的方式將員工的過去執(zhí)行的任務(wù)拆下,并將其分發(fā)給非特定的公眾?!氨姲笨梢允拱l(fā)包方以更短的時間、更低的成本獲得更高質(zhì)量的產(chǎn)出“如何吸引用戶參與”是“眾包”模式面臨的一個重大挑戰(zhàn)目前,關(guān)于軟件眾包參與度的研究比較匱乏,但是存在一些非軟件眾包任務(wù)用戶參與動機(jī)、參與行為的研究我們結(jié)合全球最大軟件眾包平臺TopCoder的任務(wù)數(shù)據(jù),對軟件眾包任務(wù)的參與度進(jìn)行研究,回答以下三個問題:1.哪些因素會對軟件眾包任務(wù)的參與度產(chǎn)生影響,如何影響?2.軟件任務(wù)發(fā)布前,怎樣提前預(yù)估任務(wù)的參與度?3.發(fā)包方或眾包平臺應(yīng)采取怎樣的措施,降低軟件眾包任務(wù)的低參與風(fēng)險(xiǎn)?本文組織結(jié)構(gòu)如下:第二部分介紹TopCoder平臺和實(shí)驗(yàn)數(shù)據(jù)集.第三部分提出軟件眾包參與度影響因素的分析方法及實(shí)驗(yàn)結(jié)果.第四部分給出建立軟件眾包參與度預(yù)測模型的方法及實(shí)驗(yàn)結(jié)果.第五部分總結(jié)研究得出結(jié)論.2經(jīng)驗(yàn)數(shù)據(jù)集2.1包流程及內(nèi)容TopCoder社區(qū)成立于2001年,注冊用戶超過730,000人,定期舉行算法競賽的同時,以“眾包”形式為Google、Facebook、Amazon、IBM、Microsoft等客戶發(fā)布軟件任務(wù),獲取盈利.TopCoder軟件眾包流程如圖1.首先,TopCoder根據(jù)客戶需求發(fā)布軟件眾包任務(wù);接著,社區(qū)用戶選擇感興趣的任務(wù)注冊參與,本研究將軟件眾包任務(wù)的參與度定義為此階段的注冊人數(shù);然后,注冊用戶依據(jù)任務(wù)要求在規(guī)定的時間內(nèi)提交軟件作品;任務(wù)提交截止后,TopCoder會安排2–3名有經(jīng)驗(yàn)的專家,對所有作品進(jìn)行評審,接包方如果對評審結(jié)果有異議,可在評審結(jié)果發(fā)布的24小時內(nèi)上訴;評審結(jié)束后,優(yōu)勝的接包方將獲得任務(wù)獎金.TopCoder上軟件眾包任務(wù)的組織架構(gòu)如圖2.軟件應(yīng)用的研發(fā)過程分為需求分析、體系結(jié)構(gòu)、組件設(shè)計(jì)、組件開發(fā)、組件集成、應(yīng)用測試等階段,前階段的最優(yōu)產(chǎn)出作為后階段輸入.每個階段不同類型的任務(wù)被發(fā)布,如需求分析階段,主要發(fā)布Specification和Conceptualization類型的軟件眾包任務(wù).2.2面向終身教育的任務(wù)參與度2003年9月至今,TopCoder共發(fā)布了3061個組件設(shè)計(jì)任務(wù)和3172個組件開發(fā)任務(wù).其中1336個可重用組件,包括836個Java組件,500個.Net組件,設(shè)計(jì)和開發(fā)階段的產(chǎn)出大部分被TopCoder公開.由于不同階段軟件任務(wù)參與度影響因素的度量方法不同,同時,TopCoder公開組件數(shù)據(jù)的開放性最高,故以TopCoder公開組件的開發(fā)任務(wù)為經(jīng)驗(yàn)數(shù)據(jù)集,研究軟件眾包任務(wù)的參與度.基于scrapy框架,我們編寫爬蟲程序爬取了所有公開組件的信息,包括各個組件對應(yīng)的設(shè)計(jì)任務(wù)、設(shè)計(jì)產(chǎn)出、開發(fā)任務(wù)、開發(fā)產(chǎn)出數(shù)據(jù).因?yàn)橐恍┙M件設(shè)計(jì)階段或者開發(fā)階段數(shù)據(jù)缺失,共爬取到932個組件為了計(jì)算這些組件對應(yīng)的平臺、競爭等維度數(shù)據(jù),使用爬蟲爬取了TopCoder上所有組件開發(fā)任務(wù)的數(shù)據(jù),一些組件開發(fā)任務(wù)參數(shù)的缺失,導(dǎo)致共爬取到3122個組件開發(fā)任務(wù).3該軟包項(xiàng)目的影響因素分析3.1影響因素識別軟件眾包參與度影響因素分析方法的框架如圖3.首先,分析經(jīng)驗(yàn)數(shù)據(jù)集并結(jié)合一般眾包任務(wù)用戶參與影響因素的研究,從任務(wù)參數(shù)、任務(wù)復(fù)雜度、前階段產(chǎn)出、平臺活躍度、同期競爭五個維度提出可能對軟件眾包任務(wù)參與度產(chǎn)生影響的潛在因素.接著,計(jì)算各潛在因素與參與度間的相關(guān)系數(shù),識別與軟件眾包任務(wù)參與度顯著相關(guān)的因素.描述兩個變量間相關(guān)關(guān)系的統(tǒng)計(jì)量主要包括Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)其中,d最后,使用多元回歸方法建立各影響因素與參與度之間的分析模型.以前一階段得到的與軟件眾包參與度顯著相關(guān)的因素為自變量,參與度為因變量,建立如下多元回歸模型:考慮到與軟件眾包參與度顯著相關(guān)的因素間有可能出現(xiàn)彼此相關(guān),即因素間不獨(dú)立的情況,如果直接使用這些因素建立多元回歸模型,模型中將出現(xiàn)多重共線性,造成回歸結(jié)果混亂.為了消除多重共線性對分析結(jié)果的干擾,我們采用具有最優(yōu)變量篩選效果的逐步回歸方法3.2結(jié)果3.2.1潛在影響因素我們對TopCoder軟件任務(wù)進(jìn)行分析,從任務(wù)參數(shù)、任務(wù)復(fù)雜度、前階段產(chǎn)出、平臺活躍度、同期競爭五個維度提出31個可能影響軟件眾包任務(wù)參與度的潛在因素.各因素的度量方法及統(tǒng)計(jì)描述屬性如表1所示,第4列有效N表示對應(yīng)因素上具有有效值的數(shù)據(jù)量.3.2.2顯著性水平軟件眾包任務(wù)參與度與各潛在影響因素之間的Spearman相關(guān)系數(shù)計(jì)算結(jié)果如表1.在0.05的顯著性水平下,與軟件眾包任務(wù)參與度顯著相關(guān)的因素包括:類型(如果任務(wù)類型為Java,值為1;任務(wù)類型為.Net,值為0)、名稱長度、描述長度、技術(shù)要求數(shù)、前階段參與度、前階段提交人數(shù)、前階段通過人數(shù)、前階段獲勝者排名、活躍提交用戶數(shù)、近期任務(wù)平均參與度、同期同類任務(wù)數(shù).3.2.3多元線性回歸分析經(jīng)分析,11個與軟件眾包參與度顯著相關(guān)的因素中,存在2個或2個以上因素彼此不獨(dú)立.例如,前階段提交人數(shù)與前階段通過人數(shù)兩個因素就高度相關(guān),二者之間的Spearman相關(guān)系數(shù)為0.959,顯著性水平小于0.001.結(jié)合逐步回歸方法建立軟件眾包參與度的分析模型,共進(jìn)行了9次變量篩選.前8次變量篩選時,模型中依次引入了前階段參與度、技術(shù)要求數(shù)、類型、名稱長度、近期任務(wù)平均參與度、活躍提交用戶數(shù)、同期同類任務(wù)數(shù)、描述長度等8個因素,且沒有變量被剔除.第9次變量篩選時,嘗試引入前階段提交人數(shù)、前階段通過人數(shù)、前階段獲勝者排名3個因素中的任何一個時,該因素對參與度均無統(tǒng)計(jì)顯著性,即變量的t檢驗(yàn)不通過,因此模型建立過程終止,結(jié)果如表2.回歸模型的總體P值小于0.001,說明可用多元線性回歸分析各因素對參與度的影響;8個自變量的P值均小于0.05,認(rèn)為這8個因素對軟件任務(wù)參與度的影響是顯著的;各因素的方差膨脹因子(VIF)均小于1.5,故模型中不存在多重共線性.由多元回歸結(jié)果可知:影響軟件眾包任務(wù)參與度的因素包括類型、名稱長度、描述長度、技術(shù)要數(shù)、前階段參與度、活躍提交用戶數(shù)、近期任務(wù)平均參與度、同期同類任務(wù)數(shù).其中,Java任務(wù)比.Net任務(wù)更受歡迎,如果軟件類型是Java,參與度將提高3.886;任務(wù)名稱每增加1個英文單詞,參與度降低1.491;任務(wù)描述每增加1個英文單詞,參與度降低0.017;技術(shù)要求數(shù)目每增加1,參與度降低1.533;前階段參與度每增加1,參與度將提高0.884;活躍提交用戶數(shù)增加1時,參與度提高0.008;近期任務(wù)平均參與度增加1時,參與度提高0.281;同期同類任務(wù)數(shù)增加1時,參與度降低0.197.研究發(fā)現(xiàn),軟件眾包參與度的影響因素并未包括一般眾包任務(wù)用戶參與行為的相關(guān)文獻(xiàn)4關(guān)于軟件包參與預(yù)測模型的研究4.1多源異構(gòu)模型預(yù)測技術(shù)軟件眾包參與度預(yù)測模型的建立過程如圖4:首先,標(biāo)記軟件眾包任務(wù)參與度所屬類別.注冊參與軟件眾包任務(wù)的用戶不一定能夠在規(guī)定的時間內(nèi)提交軟件作品.眾包模式下,軟件作品的提交類似于商品交易中的投標(biāo),中華人民共和國招投標(biāo)法規(guī)定投標(biāo)人數(shù)不應(yīng)少于三個然后,劃分經(jīng)驗(yàn)數(shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練集和檢驗(yàn)集,以便對模型的預(yù)測效果進(jìn)行評估.我們使用十折交叉驗(yàn)證接著,結(jié)合數(shù)據(jù)挖掘領(lǐng)域的分類預(yù)測模型對軟件眾包任務(wù)的參與度進(jìn)行預(yù)測,對比預(yù)測效果.數(shù)據(jù)分類的基本技術(shù)有決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、邏輯斯蒂回歸等.決策樹是一種類似于流程圖的樹結(jié)構(gòu),每個內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試,每個分枝代表一個測試輸出,每個樹葉節(jié)點(diǎn)存放一個類標(biāo)號最后,以具有最優(yōu)預(yù)測效果的模型為基礎(chǔ)建立軟件眾包任務(wù)參與度的預(yù)測模型.如果依據(jù)基本數(shù)據(jù)挖掘算法得到的預(yù)測模型較為復(fù)雜,考慮模型簡化的方法,使模型具有更高的實(shí)用價(jià)值.4.2結(jié)果4.2.1不同參與度條件下軟件眾包投標(biāo)人數(shù)的變化TopCoder公開組件開發(fā)任務(wù)參與度的分布如圖5.從圖中可以看出,軟件任務(wù)的注冊參與人數(shù)從0到93不等,主要集中在0到32之間,參與度大于32的軟件眾包任務(wù)較少.對不同參與度條件下軟件眾包的平均投標(biāo)人數(shù)進(jìn)行分析,結(jié)果如圖6:當(dāng)軟件眾包任務(wù)的參與度在0到32之間變化時,隨著參與度的增加,投標(biāo)人數(shù)也有不斷增加的趨勢;當(dāng)軟件眾包任務(wù)的參與度大于32時,投標(biāo)人數(shù)的變化趨勢波動較大,這是因?yàn)閰⑴c度大于32的軟件眾包任務(wù)較少,導(dǎo)致平均投標(biāo)人數(shù)的估計(jì)存在偏差.由于參與度小于等于11的軟件眾包任務(wù)平均投標(biāo)人數(shù)均在三個以下,而參與度大于11的軟件眾包任務(wù)的平均投標(biāo)人數(shù)也都大于三個,因此,將參與度大于11的任務(wù)標(biāo)記為“高”參與度,記為C4.2.2國外組件劃分剔除在8個參與度影響因素上存在缺失值的軟件任務(wù),共得到912個組件數(shù)據(jù),隨機(jī)將其劃分成十個互不相交的子集或“折”,如表3.從表中可以看出,各折數(shù)據(jù)量分配均勻,C4.2.3模型預(yù)測正確率評估結(jié)合多種分類模型對眾包模式下軟件任務(wù)的參與度進(jìn)行預(yù)測,使用十折交叉驗(yàn)證法評估各模型的預(yù)測正確率,結(jié)果如下:從圖7所有預(yù)測模型效果的對比可以看出,C5.0決策樹具有最優(yōu)預(yù)測效果,支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、邏輯斯蒂回歸模型次之,CART決策樹、QUEST決策樹、CHAID決策樹模型的預(yù)測效果最差.4.2.4軟件眾包任務(wù)參與度預(yù)測模型及對發(fā)包方的啟示鑒于C5.0決策樹在軟件眾包任務(wù)參與度預(yù)測效果上表現(xiàn)最優(yōu),在其基礎(chǔ)上建立軟件眾包任務(wù)參與度的預(yù)測模型.C5.0算法在默認(rèn)條件下構(gòu)建的決策樹復(fù)雜度較高、模型難于理解,因此,需要對決策樹剪枝.通過提高C5.0決策樹的修剪純度,可獲得更小更簡潔的決策樹由圖8可知,隨著剪枝純度的不斷增加直至95,預(yù)測正確率、C為了得到盡可能簡單、易于理解的參與度預(yù)測模型,將C5.0決策樹的修剪純度設(shè)定為95,得到如圖9所示決策樹預(yù)測模型:從軟件眾包任務(wù)參與度的預(yù)測模型可以看出,各因素對軟件眾包任務(wù)參與度的影響與使用多元回歸所得結(jié)果基本一致:(1)Java任務(wù)比.Net更受歡迎;(2)名稱長度、描述長度、技術(shù)要求數(shù)、同期同類任務(wù)數(shù)對參與度產(chǎn)生負(fù)面影響;(3)前階段參與度、活躍提交用戶數(shù)、近期任務(wù)平均參與度對參與度產(chǎn)生正面影響.軟件眾包任務(wù)參與度的預(yù)測模型使發(fā)包方或眾包平臺可以在軟件任務(wù)發(fā)布前預(yù)估參與度,減小低參與度風(fēng)險(xiǎn).結(jié)合軟件眾包任務(wù)參與度的預(yù)測模型,給發(fā)包方或眾包平臺提出如下建議:(1)軟件應(yīng)用如果沒有平臺要求的話,相比于C#語言開發(fā),優(yōu)先選擇發(fā)布Java任務(wù);(2)減少任務(wù)名稱的長度,盡量使其小于等于4個英文單詞;(3)盡量用精簡的語言把任務(wù)描述清楚,描述單詞數(shù)控制在128個以內(nèi);(4)盡量降低任務(wù)的技術(shù)要求數(shù)目,控制在5個技術(shù)以內(nèi),可通過任務(wù)拆分等方式實(shí)現(xiàn);(5)提高前階段任務(wù)的參與度;(6)在活躍提交用戶數(shù)大于507時發(fā)布任務(wù);(7)選擇在任務(wù)平均參與度大于10時發(fā)布任務(wù);(8)為了降低
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南省文山壯族苗族自治州(2024年-2025年小學(xué)五年級語文)人教版期末考試(下學(xué)期)試卷及答案
- 工程制圖教案創(chuàng)新:2024年的機(jī)遇與挑戰(zhàn)
- 教育技術(shù)驅(qū)動:2024年《登上企鵝島》課件的革新
- 《曾子殺豬》課件
- 新版2024年安全教育培訓(xùn)記錄表設(shè)計(jì)與應(yīng)用
- 2024年企業(yè)ERP采購流程重構(gòu)培訓(xùn)
- 第47屆世界技能大賽江蘇省選拔賽網(wǎng)絡(luò)系統(tǒng)管理項(xiàng)目技術(shù)文件V1.1
- 2024年XX企業(yè)社會責(zé)任與企業(yè)文化
- 2020盲盒經(jīng)濟(jì)洞察報(bào)告
- 《高科技智能住宅》課件
- 樂理知識考試題庫130題(含答案)
- 人教版(2024)七年級地理上冊2.2《地形圖的判讀》精美課件
- 2024年共青團(tuán)入團(tuán)積極分子團(tuán)校結(jié)業(yè)考試試題庫及答案
- 2024年遼寧高考?xì)v史試題(含答案和解析)
- 黃河商品交易市場介紹稿
- Unit 3 My friends Part C Story time(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版英語四年級上冊
- 2024中國海油校園招聘2024人(高頻重點(diǎn)提升專題訓(xùn)練)共500題附帶答案詳解
- 孫中山誕辰紀(jì)念日主題班會主題班會
- 2024年安徽省合肥市中考語文題卷(含答案)
- G -B- 43630-2023 塔式和機(jī)架式服務(wù)器能效限定值及能效等級(正式版)
- 24春國開電大《工具書與文獻(xiàn)檢索》平時作業(yè)1-4答案
評論
0/150
提交評論