版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大連交通大學(xué)信息工程學(xué)院畢業(yè)設(shè)計(jì)(論文)任務(wù)書(shū)題 目 游戲拍賣(mài)行系統(tǒng)任務(wù)及要求:1.設(shè)計(jì)(研究)內(nèi)容和要求任務(wù):1、 調(diào)查游戲拍賣(mài)行系統(tǒng)當(dāng)前技術(shù)的發(fā)展近況,完成實(shí)習(xí)報(bào)告,字?jǐn)?shù)不少于3000,第三周交給指導(dǎo)老師。2、 結(jié)合自己實(shí)習(xí)情況安排進(jìn)度,填寫(xiě)進(jìn)度計(jì)劃表,第二周完成后交給指導(dǎo)老師簽字,并嚴(yán)格執(zhí)行。3、 按照軟件工程思想,獨(dú)立完成系統(tǒng)的設(shè)計(jì)和程序開(kāi)發(fā),完成代碼估計(jì)2000行左右。4、 用jsp技術(shù)實(shí)現(xiàn)游戲拍賣(mài)行系統(tǒng)的功能。5、 程序簡(jiǎn)潔,算法可行,運(yùn)行情況良好。要求:1、 每周和指導(dǎo)老師至少見(jiàn)面溝通一次,回報(bào)課題進(jìn)展情況,接受老師詢(xún)問(wèn)。2、 接到任務(wù)書(shū)后,查閱與題目及專(zhuān)業(yè)相關(guān)的外文資料進(jìn)行翻譯
2、,要求不少于10000個(gè)外文字符,譯出漢字不得少于3000,于第四周交給指導(dǎo)老師審閱。3、 畢業(yè)設(shè)計(jì)第13周完成畢業(yè)論文的裝訂,并由指導(dǎo)老師評(píng)閱。論文要求12000字以上,包括綜述、系統(tǒng)總體設(shè)計(jì)、系統(tǒng)實(shí)現(xiàn)、性能分析、結(jié)論等。4、 教學(xué)第13周通過(guò)中軟及教研室組織進(jìn)行軟件驗(yàn)收,驗(yàn)收時(shí)要提供軟件使用說(shuō)明書(shū)。5、 于第13周提出畢業(yè)答辯申請(qǐng)并簽字。6、 第14 周答辯,要求制作ppt。2.原始依據(jù)通過(guò)大學(xué)幾年的學(xué)習(xí),已經(jīng)學(xué)習(xí)了諸如軟件工程、數(shù)據(jù)庫(kù)原理及應(yīng)用、數(shù)據(jù)結(jié)構(gòu)、c+、visual basic、java等多門(mén)程序設(shè)計(jì)語(yǔ)言和網(wǎng)絡(luò)等基礎(chǔ)知識(shí)和專(zhuān)業(yè)知識(shí),學(xué)生有能力而且可以獨(dú)立完成小中型項(xiàng)目的設(shè)計(jì)與開(kāi)發(fā)
3、。學(xué)校現(xiàn)有設(shè)備和環(huán)境可以提供給學(xué)生實(shí)習(xí)和上機(jī),而且具有專(zhuān)業(yè)老師可以指導(dǎo)學(xué)生。3.參考文獻(xiàn)1 王誠(chéng)梅.jsp案例開(kāi)發(fā)集錦m.北京:電子工業(yè)出版社.20052 吳曉松.國(guó)際電子商務(wù)發(fā)展?fàn)顩r及我國(guó)應(yīng)對(duì)策略j.云南財(cái)貿(mào)學(xué)院學(xué)報(bào).20013 軍征.閏眾.電子商務(wù)應(yīng)用與重構(gòu)案例分析m.北京:高等教育出版社.20034 唐有明.jsp動(dòng)態(tài)網(wǎng)站開(kāi)發(fā)基礎(chǔ)練習(xí).典型案例m.北京:清華大學(xué)出版社.20065 陳兵.網(wǎng)絡(luò)安全與電子商務(wù)m.北京:北京大學(xué)出版社.20026 池雅慶.jsp項(xiàng)目開(kāi)發(fā)實(shí)踐m.北京:中國(guó)鐵道出版社.20067 黃明.jsp信息系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)實(shí)例m.上海:機(jī)械工業(yè)出版社.20048 薩師煊.王珊
4、.數(shù)據(jù)庫(kù)系統(tǒng)概論m.北京:高等教育出版社.20009 陳旭東.劉迪仁編著.jsp 2.0應(yīng)用教程m.北京:清華大學(xué)出版社.2006.6 10 葉乃沂.電子商務(wù)信息時(shí)代的管理與戰(zhàn)略m.上海:上海交通大學(xué)出版社.200211 juan lipson vuong.a semantics-based routing scheme for grid resource discoverym.e-science: first international conference on e-science and gridcomputing.200512 cay s .horstmann. gary cornel
5、l美.core java 2 volume 1 fundamentalsm.pearson .education.2005-01 指導(dǎo)教師簽字:專(zhuān)業(yè)(方向)負(fù)責(zé)人簽字: 2012年3月26日大連交通大學(xué)信息工程學(xué)院畢業(yè)設(shè)計(jì)(論文)進(jìn)度計(jì)劃與考核表學(xué)生姓名李青霖專(zhuān)業(yè)班級(jí)軟件工程08-1班指導(dǎo)教師常敬巖史原本課題其他人員題目游戲拍賣(mài)行系統(tǒng)日期計(jì)劃完成內(nèi)容完成情況指導(dǎo)老師檢查簽字第1周完成任務(wù)書(shū)、提交進(jìn)度表第2周完成調(diào)研報(bào)告、完成英文翻譯第3周進(jìn)行市場(chǎng)調(diào)查研究,需求分析第4周初步對(duì)系統(tǒng)進(jìn)行分析設(shè)計(jì)第5周系統(tǒng)詳細(xì)設(shè)計(jì),進(jìn)行編碼第6周系統(tǒng)編碼實(shí)施、完成論文初稿第7周完成系統(tǒng)編碼,進(jìn)行調(diào)試第8周系調(diào)試統(tǒng)編
6、碼、提交論文初稿第9周完成系統(tǒng)編碼調(diào)試、完善畢業(yè)論文第10周完成撰寫(xiě)畢業(yè)設(shè)計(jì)論文編寫(xiě)及代碼測(cè)試第11周完成論文終稿、準(zhǔn)備畢業(yè)論文打印、裝訂第12周提交畢業(yè)論文終稿及代碼第13周提交畢業(yè)論文成果資料第14周畢業(yè)論文答辯指導(dǎo)教師簽字: 年月日注:“計(jì)劃完成內(nèi)容”由學(xué)生本人認(rèn)真填寫(xiě),其它由指導(dǎo)教師考核時(shí)填寫(xiě)。大連交通大學(xué)信息工程學(xué)院畢業(yè)設(shè)計(jì)(論文)外文翻譯學(xué)生姓名 李青霖 專(zhuān)業(yè)班級(jí) 軟件工程08-1班 指導(dǎo)教師 常敬巖史原 職 稱(chēng) 高工 講師 所在單位 信息科學(xué)系軟件工程教研室 教研室主任 劉瑞杰 完成日期 2012 年 4 月 13 日a clustering method to distribu
7、te a database on a gridsciencedirect:future generation computer systems 23 (2007) 9971002summary: clusters and grids of workstations provide available resources for data mining processes. to exploit these resources, new distributed algorithms are necessary, particularly concerning the way to distrib
8、ute data and to use this partition. we present a clustering algorithm dubbed progressive clustering that provides an “intelligent” distribution of data on grids. the usefulness of this algorithm is shown for several distributed datamining tasks.keywords: grid and parallel computings; data mining; cl
9、usteringintroductionknowledge discovery in databases, also called data mining, is a valuable engineering tool that serves to extract useful information from very large databases. this tool usually needs high computing capabilities that could be provided by parallelism and distribution. the work deve
10、loped here is part of the disdamin project that deals with data mining issues (as association rules, clustering, . . . ) using distributed computing. disdamins aim is to develop parallel and distributed solutions for data mining problems. it achieves two gains in execution times: gain from the use o
11、f parallelism and gain from decreased computation (by using an intelligent distribution of data and computation). in parallel and distributed environments such as grids or clusters, constraints inherent to the execution platform must be taken into account in algorithms. the non-existence of a centra
12、l memory forces us to distribute the database into fragments and to handle these fragments using parallelism. because of the high communication cost in this kind of environment, parallel computing must beas autonomous as possible to avoid costly communications (or at least synchronizations). however
13、, existing grid data mining projects (e.g. discovery net, gridminer, dmga 7, or knowledge grid 11) provide mechanisms for integration and deployment of classical algorithms on grid, but not new grid-specific algorithms. on the other hand the disdamin project intends to tackle data mining tasks consi
14、dering data mining specifics as well as grid computing specifics. for data mining problems, it is necessary to obtain an intelligent data partition, in order to compute more independent data fragments. the main problem is how to obtain this intelligent partition. for the association rules problem, f
15、or example, the main criterion for intelligent partition is that data rows within a fragment are as similar as possible (according to values for each attribute), while data rows between fragments are as dissimilar as possible. this criterion allows us to parallelize this problem which normally needs
16、 to access the whole database. it allows us to decrease complexity (see 2). as this distribution criterion appears similar to the objective of clustering algorithms, the partition could be produced by a clustering treatment. the usefulness of the intelligent partition obtained from clustering for th
17、e association rules problem has already been studied (see 2). clearly the clustering phase itself has to be distributed and needs to be fast in order not to slow down the global execution time. clustering methods will be described before introducing the distributed progressive clustering algorithm f
18、or execution on grid.fig. 1. kmeans and agglomerative clustering principle.clusteringclustering is the process of partitioning data into distinct groups (clusters) so that objects within a same cluster are similar, but dissimilar from objects in other clusters. distinct clustering methods could be s
19、eparated considering two kinds of leading principles: hierarchical methods and partitioning ones.hierarchical methods are composed of agglomerative ones (that initially consider a partition with clusters of a unique data instance and merge neighbouring clusters until a termination criterion is met)
20、and divisive ones (that initially consider a partition with one cluster which contains all data instances and cut clusters iteratively until termination). partitioning methods are composed by distance-based methods (as kmeans 8 for example), density-based methods or based on probabilities. other cri
21、teria permit us to distinguish between clustering methods (see 10); those methods based on membership degree of data instances to clusters (hard as cited before or fuzzy (see 4), and incremental methods for which data instances are considered when available instead of all at a time (see 5), method b
22、ased on neighbourhood search (k-nearest neighbours). . . . two well-known clustering algorithms are the partitioning kmeans (see 8) (which yields approximate results and has an acceptable time complexity), and agglomerative methods (see 12) (which yield relative good quality results, but are limited
23、 by time complexity).principle of kmeans: kmeans is an iterative algorithm that constructs an initial k-partition of data instances. an iterative relocation technique attempts to improve the partitioning by moving data from one group to another one until a termination criterion (see fig. 1, left par
24、t). kmeans will produce a local optimum result. principle of agglomerative clustering: hierarchical agglomerative clustering consists of a bottom-up approach to the problem that considers all data separately as clusters and merges two nearest clusters at each iteration until a termination condition
25、(see fig. 1, right part). this method uses a similarity measure matrix that makes the method unsuitable for huge datasets (because of the storage cost). parallel algorithms: the two previous methods need to access the whole database or to communicate between each iteration in order to obtain a corre
26、ct solution. parallel methods exist for kmeans (see 3) and agglomerative clustering .parallel versions also exist for other algorithms cited before (see 6). for parallel clustering to achieve the same quality clusters as under sequential clustering, a lot of communications is required. those methods
27、 are suited to supercomputers as cc-numa or smp, using a common memory and fast internal interconnection networks (parallel data miner for ibm-sp3 for example). the huge number of communications in existing parallel methods yields performance problems in the context of grids. the classical methods n
28、eed to be revisited to take into account the constraints of grid architectures (no common memory, slow communications). the distributed progressive clustering (dpc) method presented in the next section considers these constraints.fig. 2. database b and associated matrix v.progressive clusteringthe d
29、istributed progressive clustering method deals with attributes in an incremental manner (this differs from existing incremental methods that deal with increasing number of data instances instead of increasing number of attributes in dpc). the method is suitable for distributed execution using local
30、computation to construct global results without synchronization. dpc is inspired by the sequential clustering algorithm called clique (see 1) that consists in clustering data by projections in each dimension, and by identifying dense clusters of data projections. the method assumes that the whole da
31、tabase can be reached for projections. in the context of grid, it is assumed that the database is distributed by vertical splits (multibase). dpc works in a bottom up approach considering attributes of the database. it first computes clusters on vertical fragments containing few attributes and then
32、combines these clusters to obtain clusters in higher dimensions. both steps (i.e. the clustering of vertical fragments and the combination of these clusters) are executed in a distributed way benefiting from distributed execution. the distributed progressive clustering method is explained in the nex
33、t sections. three steps could be identified: initial clustering, crossing and merging optimizing steps.definitionsa database with m attributes and n rows (instances) is represented by b = (a, k, v), where: a = a1, a2, . . . am is a finite set of attributes; k = k1, k2, . . . kn is the set of keys of
34、 the database rows; v is the associated matrix1 (see fig. 2), with vi, j (where 1 _ i _ m and 1 _ j _ n) is the ith coordinate of the jth row. let u be a partition based on keys,2 such as u = u1, s . . . ,up, with ui = kl 2 k, i ui = k and ui uj = ;. let a be an attribute-partition, such as a = x1,
35、. . . , xq , with x j = ak 2 a, s j x j = a and x j xk = ;. let px be a projection of database b on an attribute-subset x (x 2 a). given x = ak . . . ar , the associated matrix to px has n rows and q columns (a row for each instance of b and a column for each attribute aj of x). the jth column of px
36、 is associated to the jth column of b (see fig. 3). given an instance partition u (p elements) of database b (m columns), (u, b) could be associated to a reduced matrix r (p, r matrix, see fig. 3). each row of r is associated to a subset of instances ui of b.from r (p, m matrix), it is possible to o
37、btain a matrix r0 (n, m), by duplicating, for each ui of r, the row in r associated to ui with cardinality of ui . it is also possible to obtain a matrix associated to the database b, by replacing, for each ui of r, the row in r associated to ui by rows associated to ui in b. replacing n rows of b b
38、y p rows in r permit to decrease size of data to treat. each row of r represents the mean of rows in b associated to ui . let rx be the reduced matrix associated to a projection px of b. given x a subset of attributes of database b from an attribute-partition a. m is the operation of projection defi
39、ned by m: b, x ! px .massociates the projection px of b to the subset x. px is obtain using a mask mx on matrix b. the mask mx is defined by a n, m matrix such as mxi j = 1, 8i, 8 j with aj 2 x and mxi j = 0, 8i, 8 j with aj 62 x. the operation of projectionm is then defined by:m(b, x) = mx t x = px
40、 . partition f. a partition of a database is a row partition of the associated matrix with computation of rows. this operation is achieved by the use of a classical clustering algorithm as a step of algorithm dpc. 網(wǎng)格上分布式數(shù)據(jù)庫(kù)的聚類(lèi)方法sciencedirect:future generation computer systems 23 (2007) 9971002摘要:集群和
41、網(wǎng)格的工作站為數(shù)據(jù)挖掘過(guò)程提供可利用的資源。為了利用這些資源,新的分布式算法是必要的,特別是涉及分配數(shù)據(jù)以及使用分區(qū)的方法。我們提出一個(gè)被稱(chēng)為逐步聚類(lèi)的聚類(lèi)算法,它可以為網(wǎng)格中的數(shù)據(jù)提供一個(gè)“智能”分區(qū)。該算法的應(yīng)用顯示了分布式數(shù)據(jù)挖掘任務(wù)。關(guān)鍵詞:網(wǎng)格式和并行處理;數(shù)據(jù)挖掘;聚類(lèi)導(dǎo)言 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),也稱(chēng)為數(shù)據(jù)挖掘,是一種寶貴的工程工具,可從非常大的數(shù)據(jù)庫(kù)提取有用的信息。此工具通常需要高計(jì)算能力,可以提供并行處理和分配。這里的開(kāi)發(fā)工作是disdamin項(xiàng)目一部分,disdamin項(xiàng)目是利用分布式計(jì)算處理數(shù)據(jù)挖掘的問(wèn)題(如關(guān)聯(lián)規(guī)則,聚類(lèi)分析,)。disdamin的目的是為數(shù)據(jù)挖掘問(wèn)題開(kāi)發(fā)并
42、行和分布式方案。它在執(zhí)行時(shí)間方面實(shí)現(xiàn)了兩個(gè)成果:成果從并行的使用和減少計(jì)算來(lái)獲得(通過(guò)使用一種數(shù)據(jù)的智能分布和計(jì)算)。在并行和分布式環(huán)境,如網(wǎng)格或集群,限制固有的執(zhí)行平臺(tái),必須考慮到的算法。中心記憶的不存在迫使我們分發(fā)數(shù)據(jù)到片段,并且利用并行來(lái)處理這些片段。由于在這樣的環(huán)境下的高通信成本,并行計(jì)算必須盡可能避免昂貴的通訊費(fèi)(或至少是同步)。但是,現(xiàn)有的網(wǎng)格數(shù)據(jù)挖掘項(xiàng)目(如discovery net, gridminer,dmga7,或knowledge grid11)提供的機(jī)制,都是整合和部署經(jīng)典算法的網(wǎng)格,但不是新的網(wǎng)格的算法。另一方面,disdamin項(xiàng)目要處理的數(shù)據(jù)挖掘任務(wù)考慮數(shù)據(jù)挖掘細(xì)
43、節(jié)以及網(wǎng)格計(jì)算細(xì)節(jié)。數(shù)據(jù)挖掘的問(wèn)題,獲取智能數(shù)據(jù)分區(qū)是必要的,以便計(jì)算更單獨(dú)的數(shù)據(jù)片段。其主要的問(wèn)題是如何取得這個(gè)智能分區(qū)。對(duì)于關(guān)聯(lián)規(guī)則的問(wèn)題,例如,智能分區(qū)的主要標(biāo)準(zhǔn)時(shí)每個(gè)片段的數(shù)據(jù)行是盡可能相似的(根據(jù)每個(gè)屬性的值),片段之間數(shù)據(jù)行是盡可能不同的。這一標(biāo)準(zhǔn)通常需要我們?cè)L問(wèn)整個(gè)數(shù)據(jù)庫(kù)來(lái)并行這個(gè)問(wèn)題。它使我們能夠降低復(fù)雜性(見(jiàn)2)。由于分配的標(biāo)準(zhǔn)在目標(biāo)聚類(lèi)算法表現(xiàn)得很相似,分區(qū)可產(chǎn)生的聚類(lèi)待遇。從關(guān)聯(lián)規(guī)則問(wèn)題方面的聚類(lèi)獲得的智能分區(qū)的好處已經(jīng)進(jìn)行了研究(見(jiàn)2)。顯然,聚類(lèi)階段本身已分發(fā),而且需要快速進(jìn)行,為了不減慢全球執(zhí)行的時(shí)間。在網(wǎng)格上,聚類(lèi)方法將在引入逐步分布聚類(lèi)算法的執(zhí)行之前被描述。聚類(lèi)
44、聚類(lèi)是數(shù)據(jù)分割成不同的群體(集群)的過(guò)程,使同一集群的數(shù)據(jù)相似,但不同于其他集群。獨(dú)特的聚類(lèi)方法可以根據(jù)兩種主要原則分開(kāi):分層方法和分割方法。kmeans聚類(lèi)凝聚聚類(lèi)輸入:數(shù)據(jù),用來(lái)計(jì)算的聚類(lèi)號(hào)(k)輸出:數(shù)據(jù)的聚類(lèi)輸入:數(shù)據(jù),結(jié)束標(biāo)準(zhǔn)輸出:數(shù)據(jù)的聚類(lèi)(1)初始化k對(duì)象作為初始中心(2)重復(fù)(3)轉(zhuǎn)讓每個(gè)對(duì)象到最近的聚類(lèi)(4)更新聚類(lèi)的值(5)知道沒(méi)有數(shù)據(jù)可以改變(6)返回k被定義的聚類(lèi)(1)考慮每個(gè)數(shù)據(jù)作為聚類(lèi)(2)重復(fù)(3)合并最近的兩個(gè)聚類(lèi)(4)更新聚類(lèi)的距離(5)直到結(jié)束標(biāo)準(zhǔn)(6)返回被定義的聚類(lèi)圖1.kmeans和凝聚聚類(lèi)原則分層的方法是由凝聚部分(即最初根據(jù)惟一的數(shù)據(jù)實(shí)例考慮分區(qū),
45、合并鄰近的簇,直到滿足終止的標(biāo)準(zhǔn))和分布部分(即最初根據(jù)一個(gè)集群考慮分區(qū),這個(gè)集群包含所有數(shù)據(jù)實(shí)例并且消減集群迭代直至終止)組成。劃分的方法是以距離為基礎(chǔ)的方法(如kmeans 8所示),基于密度的方法或基于概率的方法。其他標(biāo)準(zhǔn)使我們能夠區(qū)分聚類(lèi)方法(見(jiàn)10);那些方法基于集群的數(shù)據(jù)實(shí)例的隸屬度(很難被引用或含糊不清(見(jiàn)4),以及數(shù)據(jù)實(shí)例的增量方法在某一時(shí)刻可以代替所有數(shù)據(jù)時(shí)被考慮(見(jiàn)5),這種方法基于鄰里搜索(k-neareat鄰居)兩個(gè)著名的聚類(lèi)算法是分割kmeans(見(jiàn)8)(產(chǎn)生近似的結(jié)果,并有可接受的時(shí)間復(fù)雜性)和凝聚的方法(見(jiàn)12)(其中產(chǎn)量相對(duì)優(yōu)質(zhì)的成果,但受到時(shí)間復(fù)雜度的限制)。
46、原則kmeans:kmeans是一個(gè)迭代算法,構(gòu)建了數(shù)據(jù)實(shí)例的初始化k-分區(qū)。迭代遷移技術(shù)試圖通過(guò)將數(shù)據(jù)從一組移動(dòng)到另一組的方式來(lái)改善分區(qū),直至終止的標(biāo)準(zhǔn)(見(jiàn)圖1,左部分)。kmeans將產(chǎn)生局部最優(yōu)的結(jié)果。凝聚聚類(lèi)的原則:分層凝聚聚類(lèi)包括一個(gè)問(wèn)題的自下而上的方法,這個(gè)問(wèn)題是要把所有數(shù)據(jù)分別作為集群還是在每個(gè)迭代上合并兩個(gè)最近的集群直至終止條件(見(jiàn)圖1,右部分)。這種方法使用了相似度量矩陣,使該方法不適合大數(shù)據(jù)集(由于存儲(chǔ)成本)。并行算法:前面的兩個(gè)方法需要訪問(wèn)整個(gè)數(shù)據(jù)庫(kù)或在每次迭代進(jìn)行溝通,以獲得正確的解決辦法。并行方法存在kmeans(見(jiàn)3)和凝聚聚類(lèi)中。并行版本也存在于其他算法引用之前(
47、見(jiàn)6)。為了達(dá)到同一質(zhì)量集群作為順序聚類(lèi)的并行集群來(lái)說(shuō),大量的通信是必需的。這些方法適用于作為cc numa或smp的大型計(jì)算機(jī),它使用一個(gè)相同的記憶和快速的內(nèi)部交互網(wǎng)絡(luò)(ibm - sp3的并行數(shù)據(jù)挖掘)。在現(xiàn)有的并行方法中大量的通信產(chǎn)生網(wǎng)格文本里的性能問(wèn)題。將在下一節(jié)中考慮分布式逐步聚類(lèi)(dpc)方法的這些制約因素。逐步聚類(lèi) 分布式逐步聚類(lèi)方法以循序漸進(jìn)的方式處理屬性(在分布式逐步聚類(lèi)技術(shù)中,它有別于現(xiàn)有的增量方法,現(xiàn)有的增量方法處理越來(lái)越多的數(shù)據(jù)實(shí)例取代處理越來(lái)越多的屬性)。該方法適用于利用當(dāng)?shù)厮惴ㄒ詷?gòu)建全球結(jié)果無(wú)需同步的分布式執(zhí)行。分布式逐步聚類(lèi)技術(shù)通過(guò)clique(見(jiàn)1)這種序列聚類(lèi)
48、算法被定義,clique包括在每層被映射的聚類(lèi)數(shù)據(jù),并將這些數(shù)據(jù)預(yù)測(cè)定義為深度聚類(lèi)。該方法假定整個(gè)數(shù)據(jù)庫(kù)都能被映射。在網(wǎng)格文本中,通過(guò)垂直分裂(多基)來(lái)假定來(lái)分布數(shù)據(jù)庫(kù)。分布式逐步聚類(lèi)技術(shù)自下而上的辦法進(jìn)行工作,它考慮數(shù)據(jù)庫(kù)的屬性。它首先計(jì)算集群在包含一些屬性的標(biāo)準(zhǔn)片段中,然后結(jié)合這些集群獲得集群的更高層面。這兩個(gè)步驟(即垂直片段的集群和集群的合并)以分布的方法被執(zhí)行,這種方法受益于分布式執(zhí)行。在下面的部分將研究分布式逐步聚類(lèi)方法。三個(gè)步驟可確定:初步聚類(lèi),交叉和合并優(yōu)化的步驟。k/aa1 aj am 1ith instance n1 j mith rowk1kiknv11 v1j v1m v
49、11 v1j v1m vi1 vij vimvi1 vij vim vn1 vnj vnm vn1 vnj vnmdatabase bmatrix v associated to database b圖2.數(shù)據(jù)庫(kù)b和關(guān)聯(lián)矩陣v定義一個(gè)屬性為m屬性列和n行(實(shí)例)的數(shù)據(jù)庫(kù),被表示b=(a,k,v),此處:a = a1, a2,am是一個(gè)有限的屬性集; k = k1, k2,kn是數(shù)據(jù)庫(kù)行的關(guān)鍵字集;v是關(guān)聯(lián)矩陣1(見(jiàn)圖.2),vi,j(1 _ i _ m和1 _ j _ n的位置)是第j行的第i個(gè)坐標(biāo)。設(shè)u是一個(gè)基于關(guān)鍵字的分區(qū),2就是 u=u1, s,up,ui=kl 2 k,iui =k和u
50、i/uj= ;。設(shè)a是一個(gè)屬性劃分,如a=x1,xq,xj=ak 2 a,sjxj=a和xj/xk= ;設(shè)px是數(shù)據(jù)庫(kù)b在屬性子集x(x2 a)上的映射。給定x = akar ,px的相關(guān)矩陣有n行和q列(行代表b的每個(gè)實(shí)例,列待變x的每個(gè)屬性aj)。px的第j列和b的第j列相關(guān)聯(lián)(見(jiàn)圖3)。給定數(shù)據(jù)庫(kù)b(m列)的一個(gè)實(shí)例分割u(p個(gè)因子),(u,b)和下一層矩陣r相關(guān)聯(lián)(p,r矩陣,見(jiàn)圖3)。r的每一行和數(shù)據(jù)庫(kù)b的實(shí)例ui的子集相關(guān)聯(lián)。從r(p,m矩陣)里可以獲得矩陣r0(n,m),通過(guò)重復(fù),對(duì)于r的每個(gè)ui,r的每一行都和帶有ui的基數(shù)的ui相關(guān)聯(lián)。也可以通過(guò)取代和數(shù)據(jù)庫(kù)b相關(guān)聯(lián),對(duì)于r的
51、每個(gè)ui,r的每一行都和數(shù)據(jù)庫(kù)b中ui行相關(guān)的方式與ui相連。通過(guò)r中的p行取代數(shù)據(jù)庫(kù)b中的n行,允許縮小數(shù)據(jù)處理的規(guī)模。r的每一行代表和ui相關(guān)聯(lián)的數(shù)據(jù)庫(kù)b的所屬行。設(shè)rx是與數(shù)據(jù)庫(kù)b的一個(gè)映射px相關(guān)聯(lián)的低層矩陣。給定x一個(gè)數(shù)據(jù)庫(kù)b的屬性子集,與屬性分布a相對(duì)應(yīng)的。m是對(duì)通過(guò)m:b,x!px被定義的映射的操作。將b的映射px投影到子集x上。px是在矩陣b中獲得一個(gè)隱藏的mx。這個(gè)隱藏的mx是指被n,m矩陣定義,像mxi j = 1, 8i, 8 j ,aj 2 x和mxi j = 0, 8i, 8 j以及aj 62 x這種形式。映射m的操作通過(guò)m(b,x)=mxtx=px定義。分區(qū)f、數(shù)據(jù)
52、庫(kù)的一個(gè)分區(qū)是具有行運(yùn)算的關(guān)聯(lián)矩陣的行分區(qū)。a這種操作通過(guò)經(jīng)典聚類(lèi)算法來(lái)實(shí)現(xiàn),這個(gè)算法是分布式逐步聚類(lèi)方法的一個(gè)步驟。大連交通大學(xué)信息工程學(xué)院畢業(yè)設(shè)計(jì)調(diào)研報(bào)告學(xué)生姓名 李青霖 專(zhuān)業(yè)班級(jí) 軟件工程08-1班 指導(dǎo)教師 常敬巖史原 職 稱(chēng) 高工講師 所在單位 信息科學(xué)系軟件工程教研室 教研室主任 劉瑞杰 完成日期 2012 年 4 月 6 日實(shí)習(xí)報(bào)告1 課題的來(lái)源及意義近年來(lái),隨著電子商務(wù)和internet技術(shù)的不斷發(fā)展,網(wǎng)上(在線)拍賣(mài)模式已經(jīng)成為電子商務(wù)重要的常見(jiàn)業(yè)務(wù)之一,并作為一種新型電子商務(wù)模式正逐漸被越來(lái)越多的用戶所接受。拍賣(mài)是從美國(guó)興起的,它通過(guò)internet將過(guò)去少數(shù)人才能參于的貴
53、族式的物品交換形式,變成每一個(gè)網(wǎng)民都可以加入的平民化交易方式。拍賣(mài)網(wǎng)站營(yíng)造了一個(gè)供需有效集結(jié)的市場(chǎng),成為消費(fèi)者和生產(chǎn)商各取所需的場(chǎng)所。隨著電子商務(wù)模式的不斷改變,大多數(shù)網(wǎng)民認(rèn)同并充滿激情的在參與競(jìng)拍,覺(jué)得這種商務(wù)方式能給自己帶來(lái)趣味和娛樂(lè),是以往傳統(tǒng)方式所不能有的,覺(jué)得花幾十元甚至是幾塊錢(qián)就可以買(mǎi)到自己心儀而且高價(jià)的產(chǎn)品是件特別激動(dòng)人心的事,他們認(rèn)為以后會(huì)有越來(lái)越多的網(wǎng)民參與進(jìn)來(lái),同時(shí)也將會(huì)有越來(lái)越多的開(kāi)拓者加入到“競(jìng)拍”這種電子商務(wù)新模式的大家族中,來(lái)開(kāi)墾互聯(lián)網(wǎng)這塊肥沃的土地。所以無(wú)論從背景還是從現(xiàn)在電子商務(wù)模式上都可以看出開(kāi)發(fā)游戲拍賣(mài)行系統(tǒng)是可行的。2 國(guó)內(nèi)外發(fā)展?fàn)顩r回顧2009年,中國(guó)互
54、聯(lián)網(wǎng)行業(yè)發(fā)展勢(shì)頭十分喜人。從中國(guó)工業(yè)和信息化部發(fā)布的統(tǒng)計(jì)數(shù)據(jù)可以看到,2009年中國(guó)網(wǎng)民數(shù)達(dá)到3.84億,凈增超過(guò)8000萬(wàn)。而易觀國(guó)際enfodesk產(chǎn)業(yè)數(shù)據(jù)庫(kù)近期發(fā)布的2009年第四季度中國(guó)b2c網(wǎng)上零售市場(chǎng)季度監(jiān)測(cè)數(shù)據(jù)也顯示了,2009年第四季度,中國(guó)b2c網(wǎng)上零售市場(chǎng)規(guī)模達(dá)79.2億元,同比增長(zhǎng)高達(dá)181%,網(wǎng)購(gòu)用戶規(guī)模也將突破1億。這些數(shù)據(jù)表明中國(guó)電子商務(wù)已經(jīng)進(jìn)入了快速發(fā)展階段。中國(guó)網(wǎng)購(gòu)市場(chǎng)交易規(guī)模的高速增長(zhǎng),網(wǎng)購(gòu)用戶的穩(wěn)定增長(zhǎng),都為中國(guó)電子商務(wù)未來(lái)的發(fā)展鋪平了道路。在這樣的優(yōu)勢(shì)背景下,越來(lái)越多的企業(yè)對(duì)電子商務(wù)情有獨(dú)鐘,并紛紛投身電子商務(wù),想要搶在他人之前占領(lǐng)這一塊能為企業(yè)帶來(lái)極大回
55、報(bào)的經(jīng)濟(jì)領(lǐng)域。同時(shí),電子商務(wù)模式也變的多種多樣,“競(jìng)拍”“低價(jià)競(jìng)拍”“競(jìng)拍網(wǎng)”等詞又成了風(fēng)靡網(wǎng)絡(luò)電子商務(wù)的代名詞。網(wǎng)上競(jìng)拍是一種全新集娛樂(lè)休閑購(gòu)物為一體的電子商務(wù)新模式,在廣大網(wǎng)民以超低價(jià)購(gòu)買(mǎi)一線主流時(shí)尚商品的同時(shí),還可以使身心得到放松。傳統(tǒng)的購(gòu)物網(wǎng)站商品價(jià)格昂貴,質(zhì)量又無(wú)保證,而這種網(wǎng)購(gòu)模式確實(shí)改變了這一現(xiàn)狀,它采用國(guó)外最先進(jìn)的電子商務(wù)經(jīng)營(yíng)理念,為廣大消費(fèi)者搭建了一個(gè)低價(jià)購(gòu)物,娛樂(lè)身心,安全可靠于一身的網(wǎng)絡(luò)技術(shù)商務(wù)平臺(tái)。在國(guó)外,競(jìng)拍網(wǎng)站也成為商家競(jìng)爭(zhēng)的重要手段之一,世界比較著名的珠寶企業(yè)藍(lán)色尼羅河就在這方面取得了比較成功的業(yè)績(jī)。2005年,藍(lán)色尼羅河的銷(xiāo)售額高達(dá)2.03億美元;2006年,藍(lán)色尼羅河公司的年收入就達(dá)到2.5億美元,遠(yuǎn)遠(yuǎn)超過(guò)了其最大的幾家競(jìng)爭(zhēng)對(duì)手polygon、cartier和tiffany等老牌珠寶公司。藍(lán)色尼羅河的成功創(chuàng)造了珠寶電子商務(wù)銷(xiāo)售史上的一個(gè)奇跡,同時(shí)也說(shuō)明了電子商務(wù)在珠寶行業(yè)中是具有巨大的發(fā)展?jié)摿Φ摹olygon公司是全球珠寶首飾行業(yè)中第一個(gè)也是最大的一個(gè)網(wǎng)上b2b珠寶電子商務(wù)交易平臺(tái),在90年代polygon曾幫助20000多家珠寶零售店建立了網(wǎng)站,引領(lǐng)著美國(guó)珠寶首飾行業(yè)向網(wǎng)絡(luò)轉(zhuǎn)移。在polygon中珠寶產(chǎn)品的交易是在會(huì)員間以非公開(kāi)的方式完成的,賣(mài)方列出自己產(chǎn)品的庫(kù)存,買(mǎi)方可以根據(jù)自己的需求在數(shù)據(jù)庫(kù)中查詢(xún);買(mǎi)方也可以發(fā)出尋價(jià)單,尋求賣(mài)方單獨(dú)與
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 混凝土課程設(shè)計(jì)代做
- 點(diǎn)畫(huà)課程設(shè)計(jì)
- 母嬰服務(wù)培訓(xùn)課程設(shè)計(jì)
- 母嬰營(yíng)銷(xiāo)案例課程設(shè)計(jì)
- 小學(xué)課程設(shè)計(jì)的名稱(chēng)
- 水質(zhì)污染課程設(shè)計(jì)模板
- 水文專(zhuān)業(yè)有什么課程設(shè)計(jì)
- 演講社團(tuán)課程設(shè)計(jì)
- 機(jī)械課程課程設(shè)計(jì)的感想
- 2025至2030年中國(guó)微型汽車(chē)散熱器行業(yè)投資前景及策略咨詢(xún)研究報(bào)告
- 2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試卷(基礎(chǔ)篇)(含答案)
- 直系親屬股權(quán)無(wú)償轉(zhuǎn)讓合同(2篇)
- 2023-2024學(xué)年廣東省廣州市白云區(qū)九年級(jí)(上)期末語(yǔ)文試卷
- 汽車(chē)吊籃使用專(zhuān)項(xiàng)施工方案
- 2024年典型事故案例警示教育手冊(cè)15例
- 中秋國(guó)慶慰問(wèn)品采購(gòu)?fù)稑?biāo)方案
- 110kV變電站及110kV輸電線路運(yùn)維投標(biāo)技術(shù)方案(第二部分)
- 新高處安裝維護(hù)拆除作業(yè)專(zhuān)題培訓(xùn)課件
- 【打印版】2021年上海市浦東新區(qū)中考一模數(shù)學(xué)試卷及解析
- 【數(shù)據(jù)結(jié)構(gòu)】A類(lèi)停車(chē)場(chǎng)管理系統(tǒng)
- 外貿(mào)參展攻略
評(píng)論
0/150
提交評(píng)論