《汽車競(jìng)品車型聚類分析模型構(gòu)建與應(yīng)用研究9900字》_第1頁(yè)
《汽車競(jìng)品車型聚類分析模型構(gòu)建與應(yīng)用研究9900字》_第2頁(yè)
《汽車競(jìng)品車型聚類分析模型構(gòu)建與應(yīng)用研究9900字》_第3頁(yè)
《汽車競(jìng)品車型聚類分析模型構(gòu)建與應(yīng)用研究9900字》_第4頁(yè)
《汽車競(jìng)品車型聚類分析模型構(gòu)建與應(yīng)用研究9900字》_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

汽車競(jìng)品車型聚類分析模型構(gòu)建與應(yīng)用研究目錄TOC\o"1-2"\h\z\u引言

摘要:隨著時(shí)代的進(jìn)步,汽車行業(yè)的地位逐步上升,汽車市場(chǎng)也空前活躍,人們對(duì)汽車需求量開始快速攀升。對(duì)于汽車行業(yè)要迅速搶占市場(chǎng),前期的汽車競(jìng)品分析變得越來越重要。然而,傳統(tǒng)的競(jìng)品分析方法存在工作量大和耗費(fèi)時(shí)間較長(zhǎng)的問題。如今迫切需要更加高效的車型競(jìng)品分析方法。本文以汽車競(jìng)品分析為背景,首先介紹了建立汽車產(chǎn)品模型的相關(guān)概念和技術(shù)。然后采用經(jīng)典的k-means和Elbow聚類算法對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行挖掘和聚類分析,重點(diǎn)從汽車產(chǎn)品數(shù)據(jù)中獲取有價(jià)值的信息,在競(jìng)品分析中提供技術(shù)支持,根據(jù)建立好的模型,找到相應(yīng)的競(jìng)品車型。通過對(duì)車型大小、品牌、動(dòng)力性能、性價(jià)比、空間體驗(yàn)和油耗等方面進(jìn)行對(duì)比分析,找出相對(duì)應(yīng)產(chǎn)品的優(yōu)勢(shì)和劣勢(shì),并提出建議和總結(jié)。關(guān)鍵詞:聚類分析;Elbow;數(shù)據(jù)挖掘;k-means;競(jìng)品分析引言近年來,汽車的發(fā)展呈現(xiàn)朝氣蓬勃的狀態(tài),但如今汽車企業(yè)推出的新產(chǎn)品已經(jīng)不能滿足市場(chǎng)的多樣化需要。汽車市場(chǎng)細(xì)分有利于汽車公司推出有競(jìng)爭(zhēng)力的車型。只有準(zhǔn)確分析競(jìng)爭(zhēng)對(duì)手汽車產(chǎn)品的數(shù)據(jù)和信息,可以由此看出才能為設(shè)計(jì)全新車型設(shè)定明確的目標(biāo)(林一博,王梓萱,2022)。根據(jù)其產(chǎn)品定位和市場(chǎng)情況,汽車必須通過精準(zhǔn)的數(shù)據(jù)分析快速創(chuàng)建參考模型,從而超越現(xiàn)有車型并將其引入市場(chǎng)。設(shè)計(jì)新型車型之前的數(shù)據(jù)分析能為之后的研發(fā)減低成本和縮短研發(fā)時(shí)間。數(shù)據(jù)分析的方法和手段很多,通常是基于競(jìng)品車型性能、參數(shù)等分解,從這些表現(xiàn)可以推測(cè)出但市場(chǎng)上有很多車型,這種做法不但費(fèi)時(shí),而且費(fèi)用昂貴。此外,還可以通過數(shù)據(jù)檢索方法對(duì)分散的數(shù)據(jù)進(jìn)行收集和集中分析。這種方法需要大量的人力物力和有效的數(shù)據(jù)管理(馮晨昊,李映雪,2023)。這些方法耗時(shí)費(fèi)力。針對(duì)這些問題,本文采用基于數(shù)據(jù)挖掘技術(shù),對(duì)汽車產(chǎn)品進(jìn)行聚類分析,建立汽車產(chǎn)品聚類分析模型得出結(jié)果。并通過對(duì)車型級(jí)別、品牌、動(dòng)力性能和油耗等方面進(jìn)行對(duì)比分析,找到相應(yīng)的競(jìng)品車型,并提出建議和總結(jié)。1緒論1.1國(guó)內(nèi)外研究動(dòng)態(tài)汽車工業(yè)發(fā)展較早的地方是在歐洲、美國(guó)等國(guó)家。在20世紀(jì)80年代,為汽車產(chǎn)品的發(fā)展提出了一種實(shí)用的產(chǎn)品競(jìng)爭(zhēng)分析方法。在競(jìng)品分析的早期階段,只有通過市場(chǎng)調(diào)查等渠道獲得數(shù)。為了獲得最具競(jìng)爭(zhēng)力的車型,對(duì)消費(fèi)者認(rèn)為最重要的性能參數(shù)、價(jià)格等進(jìn)行分類比較。依此背景而定這樣一種有效的競(jìng)爭(zhēng)產(chǎn)品分析方法很快就得到了認(rèn)可(高云飛,孫芷晨,2021)??紤]到外界條件可能會(huì)對(duì)結(jié)果造成偏差,本文在設(shè)計(jì)與實(shí)踐環(huán)節(jié)設(shè)置了多重手段來維護(hù)數(shù)據(jù)的準(zhǔn)確性與方案的牢固性。首先探究了可能對(duì)執(zhí)行效果構(gòu)成威脅的所有外部因素,隨后在設(shè)計(jì)階段加入了環(huán)境變異分析,通過模擬各類外部狀況評(píng)估其潛在影響,并基于這些分析結(jié)果修改設(shè)計(jì)方案,提高其適應(yīng)外界變化的能力和穩(wěn)健性,確保其始終有效且相關(guān)。隨著市場(chǎng)分工細(xì)化,出現(xiàn)了一批商業(yè)化運(yùn)作的競(jìng)品分析公司,如歐洲的艾西斯滕、西門子工業(yè)軟件,艾西斯滕專門從事市場(chǎng)調(diào)研、整車拆解等業(yè)務(wù),通過建立數(shù)據(jù)庫(kù)為整車企業(yè)提供競(jìng)品車型咨詢和分析業(yè)務(wù)(薛宇峰,馬思敏,2021)[REF_Ref6050\r\h4]。商業(yè)企業(yè)雖然極大縮減開發(fā)時(shí)間,根據(jù)這一背景但在經(jīng)營(yíng)過程中耗費(fèi)了大量的人力物力。被拆卸的車輛不能重復(fù)使用,占用了很多存儲(chǔ),給企業(yè)帶來沉重的負(fù)擔(dān)。為了減輕負(fù)擔(dān),企業(yè)完善自己的制度創(chuàng)建自己的競(jìng)品分析研發(fā)團(tuán)隊(duì)。相比之下,國(guó)外的研究相對(duì)先進(jìn),試圖在開發(fā)汽車產(chǎn)品中應(yīng)用競(jìng)品分析的方法(林子昂,張雅麗,2022)。國(guó)內(nèi)從產(chǎn)品經(jīng)理的角度對(duì)具有競(jìng)爭(zhēng)力的汽車產(chǎn)品進(jìn)行的研究,考慮到這種背景大多涉及產(chǎn)品定位、企業(yè)戰(zhàn)略、汽車制造質(zhì)量、技術(shù)、成本、設(shè)計(jì)方案等方面。1.2論文研究?jī)?nèi)容論文用阿里云平臺(tái)收集原始數(shù)據(jù),并對(duì)其進(jìn)行清理和特征工程等處理。通過k-means和Elbow聚類算法確定本品車型的競(jìng)品車型。并對(duì)其對(duì)比分析,給出總結(jié)和建議。首先,研究了國(guó)內(nèi)外競(jìng)品分析研究動(dòng)態(tài)。對(duì)建立汽車產(chǎn)品模型所用的技術(shù):數(shù)據(jù)挖掘、聚類分析、主成分分析、k-means和Elbow算法進(jìn)行了相關(guān)的介紹。分析模型的流程,在此類條件中對(duì)汽車產(chǎn)品的數(shù)據(jù)進(jìn)行“清洗”、特征工程處理和歸一化后的干凈汽車產(chǎn)品數(shù)據(jù),進(jìn)行數(shù)據(jù)選取,基于Elbow和k-means算法建立汽車產(chǎn)品聚類模型(王俊凱,趙月華,2020)。對(duì)聚類后的數(shù)據(jù)結(jié)果進(jìn)行分析和對(duì)比,最終確定的競(jìng)品車型,并與競(jìng)品車型的各個(gè)特征屬性進(jìn)行對(duì)比,分析選中的汽車產(chǎn)品的優(yōu)缺點(diǎn),并提出了相應(yīng)的建議(孫浩然,郭婷婷,2023)。2理論和技術(shù)分析2.1數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從數(shù)據(jù)中提取隱含的、先前未知的、潛在有用的信息[REF_Ref4375\r\h2]。這個(gè)想法是構(gòu)建一個(gè)自動(dòng)搜索數(shù)據(jù)庫(kù)以查找規(guī)律的計(jì)算機(jī)程序。當(dāng)檢測(cè)到強(qiáng)大的模型時(shí),很可能會(huì)對(duì)它們進(jìn)行泛化,以便準(zhǔn)確的對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)。主要是數(shù)據(jù)中結(jié)構(gòu)模型的檢測(cè)和描述方法,在此特定狀態(tài)下是基于數(shù)據(jù)的解釋和預(yù)測(cè)手段。數(shù)據(jù)挖掘通常用于獲取有用的信息(李明杰,陸晨曦,2020)。在數(shù)據(jù)提取過程中,需要解決傳統(tǒng)的分析數(shù)據(jù)集存在的問題,例如數(shù)據(jù)可擴(kuò)展性、數(shù)據(jù)覆蓋范圍、異構(gòu)性和復(fù)雜性以及數(shù)據(jù)歸屬和分布問題(陳若愚,吳雨桐,2021)。理論上講,只要方案的輸入信息與預(yù)期一致,其輸出就有望符合預(yù)期設(shè)計(jì)目標(biāo)。詳細(xì)而言,若初始狀態(tài)與參數(shù)設(shè)定精確無誤,且所構(gòu)建的模型或方法體系合理,則其產(chǎn)出將具備較高的可靠性和有效性。這既需要輸入數(shù)據(jù)的精確性,也依賴于分析結(jié)構(gòu)的科學(xué)性、技術(shù)方法的先進(jìn)性以及研究策略的合理性。此外,還需關(guān)注外部環(huán)境對(duì)結(jié)果的影響,確保研究過程的可控性和可驗(yàn)證性,為結(jié)論的普遍接受度提供堅(jiān)實(shí)基礎(chǔ)。2.2聚類分析聚類(clustering)是把整個(gè)數(shù)據(jù)集中的所有數(shù)據(jù)對(duì)象按照某種規(guī)則劃分到如若干個(gè)類別(class)或簇(cluster)的步驟,按照這種設(shè)定行事并且保證同一個(gè)簇內(nèi)的目標(biāo)彼此之間更同質(zhì)化,而不同簇中的目標(biāo)彼此之間更互異化[REF_Ref9097\r\h5]。根據(jù)數(shù)據(jù)對(duì)象屬性的特定數(shù)值利用目標(biāo)距離去計(jì)算相似性(楊文博,許欣怡,2023)。2.3主成分分析主成分分析是一種多維統(tǒng)計(jì)分析,在多變量線性變換下選取少量重要變量。假設(shè)原始數(shù)據(jù)的維度是p,用Y表示(張玉峰,李曉婷,2022)。若總共有n個(gè)短行程,則Y{Y1,Y2,…,YP}n×p。主成分分析就是將p維數(shù)據(jù)降為k維X{X1,X2,…,XK},這些數(shù)據(jù)能夠充分反映原參數(shù)信息并相互獨(dú)立,之后再對(duì)k維數(shù)據(jù)進(jìn)行片段分析[REF_Ref9688\r\h7]。2.4k-means聚類算法簡(jiǎn)述K-means算法是基于劃分的算法。算法需要預(yù)先指定初始聚類數(shù)目k以及k個(gè)初始聚類中心,根據(jù)數(shù)據(jù)對(duì)象與聚中心之間的相似度,不斷更新聚類中心的位置,不斷降低類簇的誤差平方和,可以由此看出當(dāng)SSE不再變化或目標(biāo)函數(shù)收斂時(shí),聚類結(jié)束,得到最終結(jié)果(王澤民,范嘉瑩,2021)[REF_Ref12836\r\h9]。K-means算法是聚類分析的一種,利用的是迭代計(jì)算。此類算法往往簡(jiǎn)單、高效、收斂速度快(劉智偉,曾小雪,2022)。2.5Elbow算法簡(jiǎn)述Elbow方法是一種技術(shù),它將方差的百分比表示為K-means中最優(yōu)簇?cái)?shù)的函數(shù)。這種方法的存在基于這樣一種想法,即必須選擇多個(gè)簇,這樣一個(gè)簇的平均值就不會(huì)提供稍微更好的數(shù)據(jù)建模。從這些表現(xiàn)可以推測(cè)出將聚類展示的方差百分比與最佳聚類數(shù)作圖。第一個(gè)簇將插入大量信息,但在某個(gè)點(diǎn)上,獲得的簇的邊際數(shù)量將顯著下降,并在圖中提供一個(gè)角度[REF_Ref14420\r\h12]。此時(shí)選擇的簇?cái)?shù)即“k”值,稱為Elbow準(zhǔn)則(沈浩然,朱怡婷,2019)。3汽車產(chǎn)品聚類分析模型3.1汽車產(chǎn)品聚類分析模型流程汽車產(chǎn)品聚類分析模型的實(shí)際任務(wù)是從海量的汽車產(chǎn)品數(shù)據(jù)中挖掘到有用的信息,找出對(duì)應(yīng)的競(jìng)品。根據(jù)這一背景基本步驟為數(shù)據(jù)收集、數(shù)據(jù)清理、特征工程、模型建立和模型監(jiān)控如圖1(曹云飛,方文潔,2023)。1)數(shù)據(jù)準(zhǔn)備:根據(jù)數(shù)據(jù)源,提取所需數(shù)據(jù)的特征信息,將數(shù)據(jù)信息匯總到相關(guān)數(shù)據(jù)庫(kù)中。然后數(shù)據(jù)集進(jìn)行清理,使其更小更加規(guī)范化,而不改變運(yùn)行算法的結(jié)果和數(shù)據(jù)完整性(高子銘,邱慧敏,2020)。2)特征工程:為了使數(shù)據(jù)信息更好的應(yīng)用于數(shù)據(jù)挖掘算法,需要將原有的數(shù)據(jù)轉(zhuǎn)變?yōu)楦妹枋鲞@些數(shù)據(jù)的特征??紤]到這種背景通過對(duì)數(shù)據(jù)的枚舉值編碼,變量選擇,衍生變量等方式進(jìn)行處理。3)模型建立:在前期處理的數(shù)據(jù)的基礎(chǔ)上,應(yīng)用k-means、Elbow、規(guī)則推理、主成分分析等方法對(duì)其繼續(xù)處理,在此類條件中之后建立汽車聚類分析模型,找出相應(yīng)的競(jìng)品。4)結(jié)果評(píng)價(jià):通過對(duì)車型級(jí)別、品牌、動(dòng)力性能和油耗等方面進(jìn)行對(duì)比分析,找到相應(yīng)的競(jìng)品車型,并提出建議和總結(jié)(鄭昊天,魏琳娜,2021)。圖1汽車產(chǎn)品聚類分析模型流程圖3.2數(shù)據(jù)預(yù)處理3.2.1數(shù)據(jù)收集選擇的數(shù)據(jù)是阿里云平臺(tái)中汽車產(chǎn)品數(shù)據(jù)集,總共有205款車的樣本信息。原始數(shù)據(jù)的字段26個(gè)屬性,在此特定狀態(tài)下可以分為三大類:汽車ID類屬性、類別性變量、連續(xù)數(shù)值型變量。信息內(nèi)容包括:車號(hào),車名,保險(xiǎn)風(fēng)險(xiǎn)評(píng)級(jí),燃料類型,發(fā)動(dòng)機(jī)吸氣形式,車門數(shù),車身型式,驅(qū)動(dòng)輪,發(fā)動(dòng)機(jī)位置,發(fā)動(dòng)機(jī)型號(hào),氣缸數(shù),燃油系統(tǒng),軸距,車長(zhǎng),車寬,車高,汽車凈重,發(fā)動(dòng)機(jī)尺寸,氣缸橫截面面積與沖程比,發(fā)動(dòng)機(jī)沖程,壓縮比,馬力,最大功率轉(zhuǎn)速,城市里程,高速公路里程,價(jià)格(李志遠(yuǎn),王雪琴,2022)。3.2.2數(shù)據(jù)清洗和特征工程由于汽車產(chǎn)品原始數(shù)據(jù)沒有經(jīng)過加工,原始數(shù)據(jù)不符合聚類分析的需要,所以需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、PCA降維,使數(shù)據(jù)標(biāo)準(zhǔn)化,方便之后建立汽車產(chǎn)品聚類分析模型(陳思遠(yuǎn),李晨曦,2020)。特征工程將最初的數(shù)據(jù)轉(zhuǎn)換為代表數(shù)據(jù)潛在模型的特征的過程,它對(duì)數(shù)據(jù)進(jìn)行提取、刪除或組合等以獲得特性。針對(duì)上述方案的調(diào)試工作,本文從理論分析與實(shí)際驗(yàn)證兩個(gè)層面展開。理論分析環(huán)節(jié),深入探討了方案設(shè)計(jì)的基本原理與預(yù)期目標(biāo),通過構(gòu)建理論框架與邏輯推理,為后續(xù)的實(shí)驗(yàn)奠定了堅(jiān)實(shí)的基礎(chǔ)。接著,在實(shí)際驗(yàn)證階段,本文精心設(shè)計(jì)了一系列實(shí)驗(yàn),旨在檢驗(yàn)方案的有效性與穩(wěn)定性。實(shí)驗(yàn)過程中,嚴(yán)格執(zhí)行了信息收集與分析流程,以保障結(jié)果的可靠性。同時(shí),為了深入探索方案在不同情境下的適用性,本文還考慮了多種典型應(yīng)用場(chǎng)景,并針對(duì)每種場(chǎng)景對(duì)系統(tǒng)參數(shù)進(jìn)行了調(diào)整。這一過程不僅驗(yàn)證了方案的正確性與可行性,也為后續(xù)的研究提供了有價(jià)值的參考。按照這種設(shè)定行事數(shù)據(jù)特征對(duì)模型預(yù)測(cè)起著重要的作用。首先,觀察《car_price.csv》的數(shù)據(jù)內(nèi)容,發(fā)現(xiàn)以下情況:保險(xiǎn)風(fēng)險(xiǎn)評(píng)級(jí)的取值范圍為[-1,3],數(shù)值越小表示風(fēng)險(xiǎn)評(píng)級(jí)越低,風(fēng)險(xiǎn)性越小(張逸凡,王靜怡,2023)。汽缸數(shù)代表排量相同下,汽缸數(shù)越多,缸徑也越小,才能提升速度,以便于達(dá)到最大的提高功率;在相同缸徑下,按照這種設(shè)定行事氣缸數(shù)越多,代表排量越大,容量也越大。氣缸數(shù)可轉(zhuǎn)換為數(shù)字代替。車門數(shù),燃料類型的分類取值沒有大小意義。有很多不規(guī)則的命名,如:'t曹云飛,方文潔uta','porcshce','Nissan',,'vokswagen'等。很多車名是重復(fù)的,不是唯一值。需要?jiǎng)澐周囆痛笮。菙?shù)據(jù)中長(zhǎng)度的單位是英寸。歐系分類是根據(jù)車身的長(zhǎng)度劃分車型大小,且單位是米,其中為微型車A00<3.7M;小型車A0<4.3M;緊湊型車A<4.6M;中型車B<4.9M;中大型車C<5.1M;大型車D>5.1M。有些屬性可以刪掉。如車型大小即可代表車的形態(tài),可以刪除車的長(zhǎng)度和寬度(徐俊宇,趙月婷,2019)。按照上述描述的情況,在此情勢(shì)的作用下對(duì)數(shù)據(jù)進(jìn)行處理:對(duì)具有大小意義的類型變量數(shù)據(jù)轉(zhuǎn)換為數(shù)值型,如氣缸數(shù)的取值轉(zhuǎn)換為數(shù)字。{‘two’:2,’three’:3...}。刪去重復(fù)的車名后還剩下有147個(gè)記錄。對(duì)部分命名不規(guī)則進(jìn)行更改。pandas中的cut()函數(shù)先將車身長(zhǎng)度劃分A00,A0,A,B,C,D的車型,再利用LabelEncoder()對(duì)其進(jìn)行編碼處理{0,1,2,3,4,5}。采用one-hot對(duì)取值間沒有大小意義的類別離散型數(shù)據(jù)進(jìn)行編碼處理,使數(shù)據(jù)之間的距離更加的合理,可以由此看出方便提取特征(郭文昊,劉梓晴,2022)。維度增加23列,最終為47列,如表1。表1離散型特征one-hot編碼后的數(shù)據(jù)表Symboling...enginetype_ohcvenginetype_rotorfuel陳思遠(yuǎn),李晨曦tem_1bbl...0123433122001000000000000從這些表現(xiàn)可以推測(cè)出經(jīng)過一系列處理,生成數(shù)據(jù)表car,表內(nèi)有47個(gè)字段。之后在對(duì)數(shù)據(jù)值數(shù)據(jù)歸一化如表2。表2歸一化數(shù)據(jù)表car部分?jǐn)?shù)據(jù)0123456...46012341.01.00.60.80.80.0583090.0583090.2303210.3848400.3731780.3166670.3166670.4333330.4916670.5083330.0833330.0833330.5416670.5416670.5416670.4111710.4111710.51784303293250.5182310.20.20.40.20.30.2603770.2603770.3433960.1811320.2830190.00.00.00.00.03.2.3PCA降維現(xiàn)在的數(shù)據(jù)集下的計(jì)算量還是很大,需要對(duì)數(shù)據(jù)進(jìn)行PCA降維(主成分分析法),根據(jù)這一背景將線性相關(guān)的數(shù)據(jù)轉(zhuǎn)變?yōu)榫€性獨(dú)立的數(shù)據(jù),并降低數(shù)據(jù)維度,成為主要組成部分,信息保留為99.99%(朱晨陽(yáng),趙琳琳,2021)。最大限度地減少轉(zhuǎn)換特性和原始特性之間的誤差。主成分?jǐn)?shù)學(xué)模型式如下(林瑞達(dá),王子怡,2020):X1、X2…Xk是原始數(shù)據(jù)Y的主成分。結(jié)合python中的主成分分析法降維后,有37個(gè)主要成分,各成分累計(jì)解釋方差占比如圖2:[0.239780780.440412040.560059750.629675630.6923570.738604610.780428030.813386740.839059240.861147190.880783950.897074910.911730310.925475720.936184950.945903780.954540810.962461850.969144290.974715890.979136880.982974240.986125480.988843490.991127690.992910560.994387770.995538160.996648040.997596570.998267640.998766620.999202140.999524760.99971160.999827670.99993479]。圖2降維后各成分方差占比和累計(jì)方差占比圖用PCA中n_components選擇降維保留的主要成分,根據(jù)圖2和帕累托不平衡原則可知,在此類條件中對(duì)前八個(gè)成分進(jìn)行保留。降維之后,利用PAC中的explained_variance_ratio_檢測(cè)信息保留率是否在80%以上。結(jié)果顯示累計(jì)各成分方差占比和為0.813386736192723(黃澤宇,孫靜宜,2023)。為了保持研究結(jié)論的可復(fù)制性和可推廣性,本次研究采取了多項(xiàng)措施以確保研究的嚴(yán)謹(jǐn)性和普遍性。通過嚴(yán)格遵循了科學(xué)研究的方法論原則從研究設(shè)計(jì)到數(shù)據(jù)收集、分析,每一步都力求標(biāo)準(zhǔn)化和透明化。在研究設(shè)計(jì)階段明確界定了研究目標(biāo)和變量確保研究的邏輯性和可操作性。同時(shí)采用了多種數(shù)據(jù)來源和收集方法,以增加數(shù)據(jù)的多樣性和代表性,從而避免單一數(shù)據(jù)來源可能帶來的偏差。通過詳細(xì)的研究日志、數(shù)據(jù)收集和分析流程的描述,以及清晰的研究結(jié)果圖表,都有助于研究結(jié)果的推廣。3.3汽車產(chǎn)品聚類分析模型的建立3.3.1Elbow確定簇的最佳數(shù)量K-Means中的最優(yōu)簇?cái)?shù)k是不確定的,所以需要先用Elbow法去確定最佳k值。Elbow方法找到最佳k值,在此特定狀態(tài)下需要用簇內(nèi)平方和(WSS)如下,其中簇的所有數(shù)據(jù)點(diǎn)(每個(gè)單獨(dú)組的平均值或組平均值)的平方平均距離為從組均值到同一簇質(zhì)心的統(tǒng)計(jì)測(cè)量距離(周子豪,李思悅,2021)。(1)將簇中的誤差平方和和最優(yōu)簇?cái)?shù)k作圖,在某個(gè)k值下,誤差平方和會(huì)大幅度的下降。當(dāng)?shù)阶顑?yōu)簇?cái)?shù)k時(shí),按照這種設(shè)定行事提高k值,誤差平方和會(huì)小幅度下降。圖形會(huì)形成一個(gè)明顯的角度,類似肘部圖。Elbow法的核心指標(biāo)是SSE(誤差平方和)公式如下(賈鵬飛,張慧萍,2022):(2)這個(gè)公式中k等于形成C(即第i個(gè)簇)的許多簇,X表示每個(gè)簇給出的數(shù)據(jù)。將降維后的數(shù)據(jù)分成15個(gè)簇,依據(jù)上式計(jì)算相對(duì)應(yīng)的SSE,并畫出每個(gè)簇和簇中平方和的關(guān)系圖,如圖3(王翔宇,李璐瑤,2019)。在此情勢(shì)的作用下橫坐標(biāo)為k值,當(dāng)k=5時(shí),發(fā)現(xiàn)之后的誤差平方和小幅度下降,即最佳k值為5。圖3k值與SSE關(guān)系圖3.3.2模型建立運(yùn)用python中的sklearn庫(kù),對(duì)處理后的數(shù)據(jù)進(jìn)行聚類分析并建立模型。把降維后的數(shù)據(jù)作為訓(xùn)練集,利用Kmeans()函數(shù),根據(jù)確定的最優(yōu)簇?cái)?shù)k來設(shè)置n_clusters,保證好的聚類效果(彭子軒,王怡然,2020)??梢杂纱丝闯霾捎脙?yōu)化過的k-means++方法設(shè)置初始值,對(duì)其進(jìn)行聚類。計(jì)算出8個(gè)主成分中最近的簇和預(yù)測(cè)標(biāo)簽。(4)如上所示d用于聚類的屬性數(shù)量,n表示數(shù)據(jù)數(shù),K表示集群總數(shù)。具有2維的數(shù)據(jù)對(duì)象:對(duì)象xi,xj之間的距離可以通過以下方式來計(jì)算:(5)在訓(xùn)練集中有1640個(gè)數(shù)據(jù),先選取少量樣本數(shù)據(jù)進(jìn)行處理,利用上邊公式計(jì)算出計(jì)算簇間距離,查看聚類效果。從這些表現(xiàn)可以推測(cè)出將前兩個(gè)主成分分成五簇,根據(jù)預(yù)測(cè)標(biāo)簽和汽車ID繪制出聚類結(jié)果散點(diǎn)圖如圖4(劉一鳴,許婷婷,2022)。圖4主成分簇間距離效果圖由圖4可以看出來,聚類結(jié)果的整體效果還好,大部分簇的聚類點(diǎn)相對(duì)來說比較集中,但是藍(lán)色這簇的聚類點(diǎn)比較分散,依此背景而定對(duì)象之間的距離比較遠(yuǎn),不太符合要求(李宇航,王雪兒,2023)。這一結(jié)果與已有文獻(xiàn)的相似性,不僅驗(yàn)證了前期研究的正確性,還進(jìn)一步突出了該領(lǐng)域研究的連續(xù)性和累積性。它提醒本文,科學(xué)研究是一個(gè)不斷迭代、逐步深化的過程?;谶@一發(fā)現(xiàn),本文可以更有信心地推進(jìn)后續(xù)研究,探索新的假設(shè)、設(shè)計(jì)更精細(xì)的實(shí)驗(yàn),以期在該領(lǐng)域取得更加突破性的進(jìn)展??紤]到只是選取了前兩個(gè)主成分樣本進(jìn)行測(cè)試,而數(shù)據(jù)集中有八個(gè)主成分,所以損失的信息比較多。用主成分分析法對(duì)數(shù)據(jù)集進(jìn)行分析計(jì)算,選取三個(gè)主成分進(jìn)行觀察。結(jié)合數(shù)據(jù),畫3d效果圖再進(jìn)行查看聚類的效果如圖5(任思明,王若婷,2021)。圖5主成分分析后3d效果圖可以看出,選擇三個(gè)主成分時(shí),考慮到這種背景各個(gè)簇的聚類點(diǎn)都比較集中,效果比較好。4汽車產(chǎn)品聚類分析模型結(jié)果評(píng)價(jià)與分析4.1車型競(jìng)品聚類結(jié)果統(tǒng)計(jì)將汽車產(chǎn)品聚類分析模型計(jì)算之后的結(jié)果進(jìn)行統(tǒng)計(jì)和分析,利用python中的groupby()函數(shù),統(tǒng)計(jì)各個(gè)汽車品牌都在哪個(gè)簇中,并計(jì)算出該簇中的車型數(shù)如表3(沈志輝,黃文君,2022)。表3汽車品牌在各個(gè)簇中車型數(shù)品牌名字總數(shù)alfa-romeroAudibmwBuick...volkwagen414340...012361534...462表3中第二列是汽車品牌屬于的簇?cái)?shù),第三列是該簇中品牌的車型數(shù)。由表3可以得知大眾汽車在0、1、2簇中,在此類條件中同類型的車型并且在同一個(gè)簇中的即為該汽車產(chǎn)品的競(jìng)品(楊凱豪,趙麗莎,2021)。選取0簇中的車號(hào)為183的大眾汽車進(jìn)行分析,對(duì)大眾品牌分類匯總,查看大眾品0集群內(nèi)的競(jìng)品車型,如表4所示(劉明澤,李馨瑤,2023)。表4大眾品牌集群0內(nèi)的競(jìng)品車型car_IDCarNameCarBrandKm_result636667686970...187192203646768697071...188193204MazdaglcdeluxeMazdarx-7gsBuickelectra225customBuickcenturyluxus(sw)BuickcenturyBuickskyhawk...VolksuperbeetleVolkswagenrabbitcustomVolvo246MazdaMazdaBuickBuickBuickBuick...VolkswagenVolkswagenVolvo000000...000在此特定狀態(tài)下由表4可知,集群0中大眾品牌的競(jìng)品有19個(gè),其中mazda馬自達(dá)品牌車有兩輛,buick別克品牌車有四輛,nissa東風(fēng)日產(chǎn)品牌車有一輛,peugeot東風(fēng)標(biāo)志品牌車有五輛,toyato日本豐田品牌車有三輛,vokswagen大眾同品牌車有三輛,volvo沃爾沃品牌車有一輛(李志強(qiáng),胡可欣,2020)。4.2對(duì)大眾車型的競(jìng)品分析目前已經(jīng)有了大眾品牌所在的集群0中的競(jìng)品,為了進(jìn)行深入分析大眾品牌與其他競(jìng)品之間的區(qū)別,按照這種設(shè)定行事需要對(duì)集群0中所有車型的數(shù)據(jù)進(jìn)行特征提取,特征包括(周晨風(fēng),吳潔文,2022):車號(hào),車名,保險(xiǎn)風(fēng)險(xiǎn)評(píng)級(jí),燃料類型,發(fā)動(dòng)機(jī)吸氣形式,車門數(shù),車身型式,驅(qū)動(dòng)輪,發(fā)動(dòng)機(jī)位置,發(fā)動(dòng)機(jī)型號(hào),氣缸數(shù),燃油系統(tǒng),軸距,車長(zhǎng),車寬,車高,汽車凈重,發(fā)動(dòng)機(jī)尺寸,氣缸橫截面面積與沖程比,發(fā)動(dòng)機(jī)沖程,壓縮比,馬力,在此情勢(shì)的作用下最大功率轉(zhuǎn)速,城市里程,高速公路里程,價(jià)格。并查看所有車型的特征分布如圖6。在后續(xù)的研究中會(huì)對(duì)已有的研究成果進(jìn)一步從不同的角度進(jìn)行優(yōu)化,會(huì)綜合考慮理論框架、方法學(xué)改進(jìn)、實(shí)證研究的深化以及跨學(xué)科的合作。首先,在理論框架方面,將致力于整合最新的學(xué)術(shù)觀點(diǎn)和理論進(jìn)展,以提供更為全面和深入的理解。其次,針對(duì)方法學(xué)上的不足,研究人員計(jì)劃引入或開發(fā)更先進(jìn)的技術(shù)與工具,以提高數(shù)據(jù)收集、處理及分析的精確性和效率。如果要分析別的車型,也可以同理對(duì)別的車型所在的各個(gè)簇進(jìn)行分析(郭澤宇,趙子瑤,2021)。圖6競(jìng)品車型特征分布圖可以由此看出由圖6可知,有的特征的取值只有一種:燃料類型,燃油系統(tǒng),發(fā)動(dòng)機(jī)位置??梢园堰@些特征數(shù)據(jù)進(jìn)行刪除,不做考慮(張宇杰,劉欣怡,2020)。大部分客戶進(jìn)行選車的時(shí)候,會(huì)優(yōu)先考慮汽車的車型大小。對(duì)集群0中的所有的汽車品牌進(jìn)行數(shù)據(jù)透視。從這些表現(xiàn)可以推測(cè)出查看所有汽車品牌的車型大小、價(jià)格、城市里程,高速公路里程等特征信息如表5(黃逸凡,張雅婷,2023)。表5集群0汽車品牌數(shù)據(jù)透視表carSizecarbodyCarNameCarBrand...symbolingwheelbaseA0ABCDHatchbackSedanSedanHardtopSedanwagonWagonsedanT曹云飛,方文潔tacorollaNissangt-rT曹云飛,方文潔tacoronaMazdaglcdeluxeMazdarx-7gsT曹云飛,方文潔tacelicagtVolkswagenrabbitVolkswagenmodel111VolkswagenrabbitcustomVolkswagensuperbeetleBuickcenturyBuickelectra225customPeugeot304Peugeot504Peugeot604slVolvo245Buickcenturyluxus(sw)Peugeot504Peugeot505sturbodieselBuickskyhawkT曹云飛,方文潔taNissanT曹云飛,方文潔taMazdaMazdaT曹云飛,方文潔taVolkswagenVolkswagenVolkswagenVolkswagenBuickBuickPeugeotPeugeotPeugeotVolvoBuickPeugeotPeugeotbuick01000-122020-1000-1-100-195.794.595.798.8104.9102.497.397.3100.497.3106.7110.0107.9107.9107.9109.1110.0114.2114.2115.6對(duì)集群0中大眾汽車的競(jìng)品的車型大小進(jìn)行劃分,與大眾汽車車型大小相同的競(jìng)品在進(jìn)行比較(王宇翔,孫婧瑤,2019)。由表5可知,依此背景而定車號(hào)為183的大眾汽車屬于A類車型,A類車型中由七輛汽車,其中mazda馬自達(dá)品牌車兩輛、t曹云飛,方文潔ta日本豐田品牌車一輛、volkswagen大眾品牌車三輛,并且都是廂式轎車。這七款車的部分特征是相同的比如:燃油系統(tǒng)、氣缸數(shù)、發(fā)動(dòng)機(jī)型號(hào)、燃料類型,可以進(jìn)行刪除,不進(jìn)行考慮。根據(jù)這一背景這七款車中大部分的主動(dòng)輪都為前置驅(qū)動(dòng)和四開門的廂式轎車。只有馬自達(dá)RX7GS車型的主動(dòng)輪為前置后驅(qū)動(dòng),車號(hào)為183的大眾汽車為雙開門的廂式轎車(陳云哲,陸小雪,2021)。在此類條件中除了選車時(shí)要考慮車型大小之外,汽車的品牌、價(jià)格、安全性、百公里油耗、售后服務(wù)、性價(jià)比、功率、空間體驗(yàn)等也是客戶選車時(shí)所考慮的重要因素。對(duì)A類車型的七輛汽車的百公里油耗,城市里程、高速公路里程進(jìn)行對(duì)比分析如圖7(楊志遠(yuǎn),張婷婷,2022)。圖7大眾汽車油耗比較圖根據(jù)圖7油耗比較圖中,橫軸表示每加侖英里數(shù),縱軸表示七輛汽車的名稱。由此可知,在此特定狀態(tài)下車號(hào)為183的大眾汽車的每加侖跑的英里數(shù)最高,相對(duì)于來說油耗最低(徐晟文,李涵瑤,2023)。每加侖油citymap城市里程達(dá)到37英里,highwaymap高速公路里程46英里。對(duì)這七輛車的軸距(空間體驗(yàn))、價(jià)格、汽車重量、保險(xiǎn)風(fēng)險(xiǎn)評(píng)級(jí)、馬力、發(fā)動(dòng)機(jī)大小這六個(gè)特征進(jìn)行全方面的分析如圖8(鄭子豪,王麗娜,2021)。圖8競(jìng)品比較圖由圖8可知,車內(nèi)空間體驗(yàn)也是相對(duì)于較差的,空間較小,汽車重量最小。價(jià)格格是所有同類型品牌中最優(yōu)惠的。按照這種設(shè)定行事大眾汽車的保險(xiǎn)風(fēng)險(xiǎn)評(píng)級(jí)為2,相較于同款車型中別的品牌來說風(fēng)險(xiǎn)性較大,動(dòng)力性能方面相對(duì)較弱(朱俊凱,許欣瑤,2020)。綜上所述,大眾汽車產(chǎn)品的優(yōu)勢(shì)在價(jià)格優(yōu)惠、同里程數(shù)耗油量少,并且維修網(wǎng)點(diǎn)多,售后服務(wù)比較好。在此情勢(shì)的作用下建議主打性價(jià)比、油耗小和售后方便等特征進(jìn)行宣傳,將其定位成“城市里的代步工具,別樣的速度,不一般的體驗(yàn),經(jīng)濟(jì)實(shí)惠,物超所值”(李軒陽(yáng),王子萱,2022)。5總結(jié)科技的迅速發(fā)展,各個(gè)行業(yè)都呈現(xiàn)出潮氣蓬勃的狀態(tài)?,F(xiàn)在是處于人工智能的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論