數(shù)據(jù)挖掘-實驗1_第1頁
數(shù)據(jù)挖掘-實驗1_第2頁
數(shù)據(jù)挖掘-實驗1_第3頁
數(shù)據(jù)挖掘-實驗1_第4頁
數(shù)據(jù)挖掘-實驗1_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、實驗一數(shù)據(jù)挖掘概念及Python初步實驗?zāi)康?.1上招聘網(wǎng)站,搜索“數(shù)據(jù)挖掘”、“數(shù)據(jù)倉庫”,“Java軟件工程師”,“C+軟 件工程師”,“會計”等關(guān)鍵詞,了解招聘市場對該領(lǐng)域的技能要求。1.2閱讀集體智慧編程第四章,了解“搜索引擎”構(gòu)建的步驟與搜索結(jié)果的評價方 法。1.3利用Wing IDE開發(fā)環(huán)境,調(diào)試并運行集體智慧編程第四章的程序。實驗報告包括內(nèi)容實驗報告:學(xué)委統(tǒng)一收齊后,發(fā)送到郵箱,截止日期為2012年10月21 日22點整。實驗報告的成績計入總成績,請各位按照自己的理解,完成實驗內(nèi)容,撰寫實 驗報告,切莫抄襲!實驗報告的Word標題為:【數(shù)據(jù)挖掘-實驗1】學(xué)號姓名。請不要壓縮,直接

2、提 交word版本即可。數(shù)據(jù)挖掘-實驗1.1數(shù)據(jù)挖掘1 .熟悉利用Matlab,SPSS,SAS,R中任意一款來進行建模和數(shù)據(jù)分析;思維活躍,知識面廣,邏輯性強,并具備快速學(xué)習(xí)的能力3 .數(shù)學(xué),應(yīng)用數(shù)學(xué),統(tǒng)計學(xué)等在讀學(xué)生.1、統(tǒng)計學(xué)、數(shù)學(xué)等相關(guān)專業(yè)學(xué)士及以上學(xué)歷(若有統(tǒng)計專長,可放寬專業(yè)限制);2、具有深厚的數(shù)據(jù)分析、數(shù)據(jù)挖掘理論知識,深入了解相關(guān)技術(shù);3、能熟練使用至少一種統(tǒng)計分析或數(shù)據(jù)挖掘工具(包含但不限于SPSS、SAS等);4、具有數(shù)據(jù)挖掘項目實施經(jīng)驗者優(yōu)先考慮;5、思維敏捷,良好的邏輯分析能力、良好的溝通及組織能力;6、全國能經(jīng)常出差。數(shù)據(jù)倉庫1、正規(guī)全日制大學(xué)本科及以上學(xué)歷,計算機

3、相關(guān)專業(yè);2、1年及以上數(shù)據(jù)倉庫項目工作經(jīng)驗,對數(shù)據(jù)倉庫系統(tǒng)架構(gòu)具有良好的認識;3、熟悉Oracle存儲過程開發(fā);4、熟悉數(shù)據(jù)倉庫開發(fā)相關(guān)技術(shù),如數(shù)據(jù)倉庫、ETL、OLAP、BI展現(xiàn)等;5、能獨立進行BI設(shè)計及開發(fā),精通Cognos報表開發(fā)工具,能夠應(yīng)用Cognos報表完成相應(yīng) 分析報表的開發(fā);6、熟悉JAVA開發(fā)7、良好的自我學(xué)習(xí)能力、團隊協(xié)作能力,具有較強的文字功底;1、計算機相關(guān)專業(yè),本科學(xué)歷以上;2、熟悉數(shù)據(jù)倉庫建模理論,具有數(shù)據(jù)倉庫建模的實際經(jīng)驗;3、3年以上銀行DB2數(shù)據(jù)倉庫模型設(shè)計、開發(fā)管理相關(guān)工作經(jīng)驗;4、有DB2大數(shù)據(jù)量(TB級)數(shù)據(jù)處理開發(fā)及數(shù)據(jù)倉庫系統(tǒng)性能優(yōu)化問題等相關(guān)經(jīng)

4、驗;5、具有較強的業(yè)務(wù)分析能力,能夠及時準確的捕獲客戶的需求信息,并能合理引導(dǎo)和把控 客戶的需求。Java軟件工程師1、計算機及相關(guān)專業(yè)大學(xué)本科學(xué)歷;2、Java基礎(chǔ)扎實,熟悉J2EE架構(gòu)和常用的設(shè)計模式,并能夠在實際中靈活應(yīng)用;3、熟練掌握Java、SQL、XML等常用技術(shù);4、熟悉主流數(shù)據(jù)庫系統(tǒng)、應(yīng)用服務(wù)器和開發(fā)工具;5、有SOA架構(gòu)設(shè)計經(jīng)驗優(yōu)先考慮;6、熱愛軟件設(shè)計和開發(fā),積極主動、工作勤奮、細致、踏實,優(yōu)秀的團隊協(xié)作能力;1、計算機或相關(guān)專業(yè),大專以上學(xué)歷。2、有1年以上JAVA開發(fā)經(jīng)驗,熟悉MVC模式。3、具備獨立思考、解決問題的能力,擁有良好的學(xué)習(xí)能力。4、具有電子商務(wù)或大型門戶網(wǎng)

5、站經(jīng)驗的優(yōu)先。5、具備基本團隊合作精神和溝通技巧。熟悉Struts + spring + hibernate等框架技術(shù)、開發(fā)模式。熟悉 JSP、JSTL、Servlet、JavaBean、Xml、Javascript 等技術(shù)。熟悉Tomcat、JBoss等應(yīng)用服務(wù)器配置。熟悉SQL各種操作語法,熟悉常用的數(shù)據(jù)庫Oracle、Mysql等。C+軟件工程師本科及以上學(xué)歷,計算機相關(guān)專業(yè);精通Linux/Unix下C+開發(fā),并有2年以上開發(fā)經(jīng)驗;精通Socket網(wǎng)絡(luò)編程,熟悉TCP/IP;4.熟悉各種常用數(shù)據(jù)結(jié)構(gòu)和算法;5.熟悉Oracle等數(shù)據(jù)庫系統(tǒng);1、計算機相關(guān)專業(yè)畢業(yè),熟悉VC編譯環(huán)境,Wi

6、ndows核心編程技術(shù)、面向?qū)ο蟮木幊趟?想;2、精通:C/C+編程、網(wǎng)絡(luò)編程技術(shù)、Win32多線編程、TCP/IP、UDP協(xié)議及Winsock編 程技術(shù)者優(yōu)先;3、熟悉SQL或ORACLE有數(shù)據(jù)庫的相關(guān)知識;4、有良好的編程習(xí)慣,具備學(xué)習(xí)和分析解決問題的能力、溝通及理解能力,高漲的工作熱 情,強烈的責(zé)任心。會計1、工作態(tài)度端正、仔細認真,積極主動2、中文打字每分鐘60個以上,具有扎實的會計基礎(chǔ)3、熟練應(yīng)用辦公軟件4、熟悉會計準則和稅法的相關(guān)知識,熟悉國家財務(wù)制度和相關(guān)政策法規(guī),熟悉會計準則商 業(yè)會計操作實務(wù)和納稅實務(wù)。5、有良好的溝通能力、表達能力,有較強的責(zé)任心和敬業(yè)精神。1.2閱讀集體智

7、慧編程第四章,了解“搜索引擎”構(gòu)建的步驟與搜索結(jié)果的評價方法。從搜索引擎的原理來看,可以看作三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁,建立索引數(shù)據(jù)庫,在索 引數(shù)據(jù)庫中搜索。全文搜索引擎的“網(wǎng)絡(luò)蜘蛛”能夠掃描一定地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從 一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新, 還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進行分析,根據(jù)一定的相關(guān)度算法 進行大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎, 實際上只是一個搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進行查詢時,搜索引擎會從龐大 的數(shù)據(jù)庫中找到符

8、合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定規(guī)則呈現(xiàn)給我們。不同的搜 索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,搜索結(jié)果也就不盡相同。利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider程序,自動訪問互聯(lián)網(wǎng),并沿著網(wǎng)頁中的 所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。然后建立索引數(shù)據(jù)庫, 由分析索引程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼 類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等,然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。接下來在索引數(shù)據(jù)庫中搜索排序,當(dāng)用戶輸入關(guān) 鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)

9、網(wǎng)頁。最后, 由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。搜索引 擎只能搜到它網(wǎng)頁索引數(shù)據(jù)庫里儲存的內(nèi)容。最后搜索引擎的評價的方法并非單獨存在,而是被綜合應(yīng)用。綜述是研究的基礎(chǔ)。1.3利用Wing IDE開發(fā)環(huán)境,調(diào)試并運行集體智慧編程第四章的程序。Fin.py - C:UsersJohnDesktopchapter4nn.py.回.5-7. EFile Edit Format Run Options Windows Helpfrom pysqlite2 ir-iport dtapi2 as sqlitedef dtanh(y):ret _;rr. 1. O-y*

10、ycla2-3 3 ear cline t:def init (self f dbnaute):self con=sqlitE cannect (dbnair.e)def del (self) :|self.con.close(si ma:ketatles (self:self. can. execute (1 create tat-le 2:iddennode (create_key) self . con, execute ( 1 create tah-le wordhidden (f rciEidf toidf strength 1 self. can execute (1 create

11、 tat-le hiddenrl (f rcT.j.df taidf strength) 1) self. con. conmiit (:iez getstxength (self f f ronLid toidf layer):1 la.yer=O: talole=1 wordidden1else : taile =1 hiddenurl1xes=self . can. execute (1 select strength f rcrr.where frciEid=%d and ,caid=,d!if res=?one:if layer=O : ret urn -Q . 2if layer=l: return 0ref.:.rn res JOdef aetstrength (self f f roiEidf toidf layer, strength):i layer=O: talole=1 wordhidden1else: tatole=1hiddenurl1re3=self . con. execute ( 1 select rcwid f rcir. %s where f rcir.id=%d and tGid=%d1 % if res=?one:self. con. execute (1 insert into(f rcitidf toid st

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論