泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽試題_第1頁(yè)
泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽試題_第2頁(yè)
泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽試題_第3頁(yè)
泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽試題_第4頁(yè)
泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽試題_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三屆泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽試題說明:1、參賽選手可從下述試題中任選一題作答,并在論文報(bào)告中標(biāo)明2、論文等級(jí)會(huì)綜合考慮論文質(zhì)量和難度系數(shù)試題一基于電商平臺(tái)家電設(shè)備的消費(fèi)者需求及產(chǎn)品數(shù)據(jù)挖掘分析(難度系數(shù):1.0)試題來源:背景:隨著互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,截止2014年6月,我國(guó)的網(wǎng)民規(guī)模達(dá)6.32億,互聯(lián)網(wǎng)普及率為46.9%,2015年中國(guó)網(wǎng)民的滲透率將接近50%。2014年天貓雙十一的交易額達(dá)571億,網(wǎng)上購(gòu)物將成為人民生活的一部分。網(wǎng)民在電商平臺(tái)上瀏覽和購(gòu)物,產(chǎn)生了海量的數(shù)據(jù),如何利用好這些碎片化、非結(jié)構(gòu)化的數(shù)據(jù),將直接影響到企業(yè)產(chǎn)品在電商平臺(tái)上的發(fā)展,也是大數(shù)據(jù)在實(shí)際企業(yè)經(jīng)營(yíng)中的應(yīng)用。對(duì)于用戶在電商平臺(tái)上留下的評(píng)論數(shù)據(jù),運(yùn)用文本分析方法,了解用戶的需求、抱怨,購(gòu)買原因以及產(chǎn)品的優(yōu)點(diǎn)、缺點(diǎn),對(duì)于改善家電設(shè)備產(chǎn)品及用戶體驗(yàn)有著重要的意義。據(jù)觀研天下行業(yè)分析:近年來我國(guó)家電設(shè)備銷量增長(zhǎng)迅速,以電熱水器為例,2011年電熱水器市場(chǎng)銷量比2010年增長(zhǎng)2.29%,銷售額增長(zhǎng)5.23%;2013年熱水器零售量達(dá)到2842萬臺(tái),零售額達(dá)到459億元,2014年熱水器整體規(guī)模向上,但增速較2013年有所回落,零售量達(dá)到2985萬臺(tái),零售額達(dá)到504億元。需求:1、分析用戶對(duì)于熱水器/凈水器產(chǎn)品的個(gè)性化需求;2、分析現(xiàn)有電商熱水器/凈水器的產(chǎn)品劣勢(shì)(用戶抱怨點(diǎn))及產(chǎn)品優(yōu)勢(shì)(用戶贊點(diǎn));3、分析各品牌的產(chǎn)品間的差異,進(jìn)行差異化賣點(diǎn)提煉;4、分析用戶購(gòu)買的原因;5、對(duì)用戶的購(gòu)買行為進(jìn)行分析挖掘(搜索關(guān)鍵字、購(gòu)買時(shí)關(guān)注點(diǎn)、購(gòu)買步驟、使用、評(píng)價(jià))(此部分可選擇來做)。提示:1、在電商平臺(tái)進(jìn)行評(píng)論數(shù)據(jù)抓取(可用火車頭采集器進(jìn)行評(píng)論爬蟲);2、對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理(處理掉水軍及隨意發(fā)表的評(píng)論數(shù)據(jù));3、可分品類進(jìn)行細(xì)化分析(熱水器:電熱熱水器、燃?xì)鉄崴?;凈水器:凈水機(jī)、純水機(jī));4、對(duì)評(píng)論數(shù)據(jù)進(jìn)行文本分析(好評(píng)、差評(píng)、中文分詞、詞頻統(tǒng)計(jì)、情感分析、語義網(wǎng)絡(luò));5、可利用百度指數(shù)、淘寶指數(shù)等互聯(lián)網(wǎng)工具對(duì)熱水器和凈水器的消費(fèi)人群及搜索關(guān)注點(diǎn)進(jìn)行分析;6、建議在國(guó)內(nèi)外相關(guān)文獻(xiàn)的基礎(chǔ)上盡量選擇新技術(shù)手段進(jìn)行挖掘,比如基于深度學(xué)習(xí)理論模型完成情感分析,參見文獻(xiàn):《基于深度學(xué)習(xí)的微博情感分析》、《基于深度學(xué)習(xí)的文本情感分類研究》等。說明:1、附件一_電熱水器及凈水器評(píng)論數(shù)據(jù)集.zip是電熱水器和凈水器的評(píng)論數(shù)據(jù),參賽者也可去電商平臺(tái)進(jìn)行數(shù)據(jù)爬蟲,爬取最新的評(píng)論數(shù)據(jù)(若自行爬取的數(shù)據(jù),提交論文成果時(shí)請(qǐng)一并提交);2、參賽者可以選擇熱水器或者凈水器任一一個(gè)品類進(jìn)行分析挖掘;3、參賽者可以從以上需求選擇部分或所有主題進(jìn)行建模分析,也可提出自已的分析主題。試題二基于數(shù)據(jù)挖掘技術(shù)的市財(cái)政收入分析預(yù)測(cè)模型(難度系數(shù):0.8)試題來源:背景:在我國(guó)現(xiàn)行的分稅制財(cái)政管理體制下,地方財(cái)政收入不僅是國(guó)家財(cái)政收入的重要組成部分,而且具有其相對(duì)獨(dú)立的構(gòu)成內(nèi)容。地方財(cái)政收入是區(qū)域國(guó)民經(jīng)濟(jì)的綜合反映,也是市場(chǎng)經(jīng)濟(jì)國(guó)家的政府進(jìn)行宏觀調(diào)控的基礎(chǔ)。科學(xué)、合理地預(yù)測(cè)地方財(cái)政收人,對(duì)于克服年度地方預(yù)算收支規(guī)模確定的隨意性和盲目性,正確處理地方財(cái)政與經(jīng)濟(jì)的相互關(guān)系具有十分重要的意義。廣州市作為廣東省的省會(huì),改革開放的前沿城市,交通便利,擁有中國(guó)大陸三大國(guó)際航空樞紐機(jī)場(chǎng)之一的廣州白云國(guó)際機(jī)場(chǎng)和中國(guó)第三大港口、港口貨物吞吐量居世界港口第五位的廣州港。廣州號(hào)稱“千年商埠”,歷史上一直是中國(guó)最重要的商業(yè)中心之一,商業(yè)網(wǎng)點(diǎn)多、行業(yè)齊全、輻射面廣、信息靈、流通渠道通順,擁有商業(yè)網(wǎng)點(diǎn)10萬多個(gè),為中國(guó)十大城市之冠。廣州市在實(shí)現(xiàn)經(jīng)濟(jì)快速發(fā)展,地區(qū)生產(chǎn)總值飛躍的同時(shí),也意味著財(cái)政收入的增收。2013年,廣州實(shí)現(xiàn)地區(qū)生產(chǎn)總值(GDP)15420.14億元,增長(zhǎng)11.6%。其中,第一產(chǎn)業(yè)增加值228.87億元,增長(zhǎng)2.7%;第二產(chǎn)業(yè)增加值5227.38億元,增長(zhǎng)9.2%;第三產(chǎn)業(yè)增加值9963.89億元,增長(zhǎng)13.3%。第一、二、三產(chǎn)業(yè)增加值的比例為1.48∶33.90∶64.62。三種產(chǎn)業(yè)對(duì)經(jīng)濟(jì)增長(zhǎng)的貢獻(xiàn)率分別為0.4%、29.0%和70.6%。廣州地方公共財(cái)政預(yù)算收入1141.79億元,增長(zhǎng)10.8%;如何做出下一年有效的財(cái)政收入預(yù)算,為下一年的政策提供指導(dǎo)依據(jù),是一個(gè)具有重大意義的問題。需求:1、梳理影響廣州市財(cái)政收入關(guān)聯(lián)指標(biāo)的有關(guān)數(shù)據(jù),分析、識(shí)別影響財(cái)政收入的關(guān)鍵影響因素;2、結(jié)合需求1的因素分析,利用相關(guān)的數(shù)據(jù)挖掘技術(shù)對(duì)廣州市2015年的財(cái)政總收入及各個(gè)類別收入進(jìn)行預(yù)測(cè);3、結(jié)合社會(huì)經(jīng)濟(jì)發(fā)展和廣州市近幾年的財(cái)政收入及支出等情況,從財(cái)政收入和支出預(yù)算的角度,向廣州市財(cái)政局提出幾點(diǎn)建議。提示:1、可在廣州市統(tǒng)計(jì)信息網(wǎng)()下載相關(guān)數(shù)據(jù);2、在稅收方面,可進(jìn)行細(xì)化分析,如增值稅、營(yíng)業(yè)稅、企業(yè)所得稅、個(gè)人所得稅等;在向廣州市財(cái)政局提建議時(shí),考慮經(jīng)濟(jì)因素和非經(jīng)濟(jì)因素;、3.建議查找多方面的數(shù)據(jù),進(jìn)行綜合分析。4、說明:參賽者也可自行查找相關(guān)資為財(cái)政收入影響因素的參考資料,_附件二相關(guān)資料.zip1、料。)城市供水處理混凝投藥過程的建模與控制(難度系數(shù):0.9試題三試題來源:背景:人類活動(dòng)范圍然而隨著工業(yè)發(fā)展迅速,水是生命的源泉,是人類生活不可缺少的成分,怎么樣有效地對(duì)水進(jìn)行凈化處理,成為了的快速擴(kuò)大,水資源受到的污染日益嚴(yán)重。因此,當(dāng)今國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)問題。絮凝沉淀是水處理對(duì)水進(jìn)行凈化處理要經(jīng)過混合、絮凝、沉淀、過濾和消毒五個(gè)階段,影響絮凝效果的因素很多,包括原的初始環(huán)節(jié),是懸浮顆粒、膠體等雜質(zhì)處理的必需工藝。值、原水溫度、混凝劑投加量和原水中藻類等等。投藥控制就水流量、原水濁度、原水pH濁度為水的清亮是綜合考慮這些因素進(jìn)行混凝劑最少最經(jīng)濟(jì)投加,而達(dá)到最優(yōu)的絮凝效果。。混凝就是用混凝劑把水中膠體粒子以及微小程度,是水質(zhì)指標(biāo)的重要參數(shù),單位為NTU絮凝是脫穩(wěn)膠體凝聚是膠體失去穩(wěn)定性的過程,懸浮物的聚集過程,是凝聚和絮凝的總稱,相互聚集,沉淀則是將混凝后的水中凝聚物實(shí)現(xiàn)下降、沉積,減少上層水中的凝聚物數(shù)量。投藥控制的也就能實(shí)現(xiàn)濁度降低,通過混凝和沉淀就可以減少水中懸浮顆粒的數(shù)量和大小,因此對(duì)此外由于混凝沉淀池是一個(gè)大容積對(duì)象,目的是使沉淀池的出水濁度符合相關(guān)標(biāo)準(zhǔn)。展1于混凝劑投加與對(duì)應(yīng)水絮凝沉淀后的濁度存在一段較長(zhǎng)的時(shí)間差,造成控制滯后。圖示了投藥控制流程。水質(zhì)水質(zhì)后續(xù)工藝沉淀池原水反應(yīng)池(過濾、消毒測(cè)量測(cè)量)投藥控制系統(tǒng)圖1投藥控制流程水處理混凝投加過程是一個(gè)復(fù)雜的物理、化學(xué)反應(yīng)過程,具有時(shí)滯和非線性特性。目前的混凝投藥控制方法中總有一些不足之處,如燒杯實(shí)驗(yàn)法需要每天或每周進(jìn)行頻繁試驗(yàn),耗時(shí)很多且對(duì)輸出水質(zhì)影響很大;流動(dòng)電流法中的流動(dòng)電流檢測(cè)器在使用過程中會(huì)逐漸降低精度,且在高濁度水或某些污染較嚴(yán)重的水質(zhì)和絮凝劑是有機(jī)陰離子高分子時(shí)不能適用;數(shù)學(xué)難以建立高精度和高可靠性的過程模型導(dǎo)致控制不能適應(yīng)控制情況模型法因混凝過程復(fù)雜,的變化,所以總的來說目前的投藥控制方法都是難以適應(yīng)水質(zhì)的變化,魯棒性較差、抗干擾能力較弱。本案例的水廠在抽取原水后會(huì)進(jìn)行化學(xué)預(yù)氧處理,達(dá)到除去微量有機(jī)污染、除藻、除臭味、控制氯化消毒副產(chǎn)物、氧化助凝和除去鐵錳等目的。水廠選用混凝劑是PAC,添加混凝劑后的水在反應(yīng)池進(jìn)行絮凝,流入3號(hào)和4號(hào)沉淀池,取3號(hào)和4號(hào)沉淀池出水濁度的平均值作為沉淀池出水濁度,沉淀池出水濁度的合格標(biāo)準(zhǔn)為不大于1.10NTU。在歷史數(shù)據(jù)中,存在藥劑反應(yīng)效果不好,沉淀池出水濁度不合格的數(shù)據(jù)。一般情況下,原水添加混凝劑反應(yīng)到沉淀結(jié)束出水需要70min到120min。需求:1、根據(jù)歷史原水水質(zhì)數(shù)據(jù)、原水流量數(shù)據(jù)、混凝劑投加量和沉淀池出水濁度數(shù)據(jù),求出原水添加混凝劑反應(yīng)到沉淀結(jié)束出水需要的時(shí)間。2、考慮需求1結(jié)果的滯后性,根據(jù)歷史原水水質(zhì)數(shù)據(jù)、原水流量數(shù)據(jù)和混凝劑投加量數(shù)據(jù),建立數(shù)學(xué)模型,求出最佳混凝劑投藥量。3、考慮需求1結(jié)果的滯后性,考慮增加沉淀池濁度作為輸入?yún)?shù),結(jié)合歷史原水水質(zhì)數(shù)據(jù)、原水流量數(shù)據(jù)和混凝劑投加量數(shù)據(jù),建立數(shù)學(xué)模型,求出最佳混凝劑投藥量;4、通常而言,溫度也是影響化學(xué)反映速度的一個(gè)重要因素。原數(shù)據(jù)中并未包含溫度數(shù)據(jù)。請(qǐng)做出相應(yīng)的嘗試引入溫度數(shù)據(jù),并分析其對(duì)最佳投藥量的影響。提示:1、水處理過程的最終目標(biāo)是通過對(duì)原水水質(zhì)參數(shù)的分析,在線實(shí)時(shí)控制藥劑的投加量,以適應(yīng)原水水質(zhì)的不斷變化,使出水滿足各項(xiàng)水質(zhì)指標(biāo)。即根據(jù)歷史數(shù)據(jù)辨識(shí)建立進(jìn)水流量、濁度、PH值、加藥量和沉淀池出水濁度之間的數(shù)學(xué)模型,實(shí)時(shí)確定最佳混凝劑投藥量。說明:1、附件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論