基于社區(qū)發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則分析的供應(yīng)商圍串標(biāo)審計(jì)方法探索_第1頁(yè)
基于社區(qū)發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則分析的供應(yīng)商圍串標(biāo)審計(jì)方法探索_第2頁(yè)
基于社區(qū)發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則分析的供應(yīng)商圍串標(biāo)審計(jì)方法探索_第3頁(yè)
基于社區(qū)發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則分析的供應(yīng)商圍串標(biāo)審計(jì)方法探索_第4頁(yè)
基于社區(qū)發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則分析的供應(yīng)商圍串標(biāo)審計(jì)方法探索_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    基于社區(qū)發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則分析的供應(yīng)商圍串標(biāo)審計(jì)方法探索    程向華 李漢秋 章崎峰 尤震 羅天摘要供應(yīng)商間圍串標(biāo)行為是困擾企業(yè)招標(biāo)采購(gòu)工作的難點(diǎn)問(wèn)題之一,而找到供應(yīng)商間的緊密關(guān)系,則是破解這一難題的關(guān)鍵所在。本文通過(guò)社區(qū)發(fā)現(xiàn)算法和關(guān)聯(lián)規(guī)則分析算法,對(duì)企業(yè)的招標(biāo)采購(gòu)數(shù)據(jù)進(jìn)行分析,識(shí)別其團(tuán)組社區(qū)并獲得內(nèi)部關(guān)系結(jié)構(gòu),從中發(fā)現(xiàn)供應(yīng)商間隱藏的關(guān)聯(lián)關(guān)系,為審計(jì)人員進(jìn)行分析提供有效線索。關(guān)鍵詞招投標(biāo)審計(jì)    圍串標(biāo)    數(shù)據(jù)分析一、導(dǎo)言自招標(biāo)投標(biāo)采購(gòu)要求實(shí)施及推廣以來(lái),供應(yīng)商圍串標(biāo)在企業(yè)采購(gòu)招標(biāo)過(guò)程中屢見(jiàn)不鮮。對(duì)企業(yè)

2、采購(gòu)來(lái)說(shuō),該行為可能對(duì)招標(biāo)項(xiàng)目質(zhì)量產(chǎn)生不利影響。對(duì)此,常見(jiàn)的內(nèi)部審計(jì)策略是對(duì)每個(gè)項(xiàng)目進(jìn)行檢查,判斷是否存在國(guó)家招標(biāo)投標(biāo)法實(shí)施條例中所列投標(biāo)文件由同一單位編制、投標(biāo)文件異常一致、投標(biāo)保證金從相同賬戶轉(zhuǎn)出等串通投標(biāo)情形,或者通過(guò)分析供應(yīng)商之間是否存在股權(quán)相關(guān)投資、高管交叉任職等直接關(guān)系。但傳統(tǒng)方式核實(shí)工作量大、效率低,且難以發(fā)現(xiàn)供應(yīng)商之間更為隱蔽的私下掛靠或協(xié)商組團(tuán)投標(biāo)行為。隨著電子招采平臺(tái)的普及與企業(yè)信息化程度的提高,更有效率的一種策略是根據(jù)供應(yīng)商投標(biāo)行為特征,在審計(jì)模型中對(duì)供應(yīng)商緊密關(guān)系進(jìn)行識(shí)別,找出疑似圍串標(biāo)企業(yè)組,進(jìn)一步分析相關(guān)投標(biāo)項(xiàng)目?,F(xiàn)有關(guān)聯(lián)組團(tuán)研究中,王俊芳、游松慶等采用頻繁集項(xiàng)等關(guān)

3、聯(lián)算法對(duì)供應(yīng)商投標(biāo)數(shù)據(jù)進(jìn)行分析,挖掘供應(yīng)商之間的內(nèi)部關(guān)系。但實(shí)際應(yīng)用中,上述方法仍難以滿足圍串標(biāo)行為識(shí)別分析的需要:一是簡(jiǎn)單的關(guān)聯(lián)規(guī)則識(shí)別疑似圍串標(biāo)團(tuán)組精準(zhǔn)度較低;二是未經(jīng)分類(lèi)的供應(yīng)商投標(biāo)數(shù)據(jù)在頻繁項(xiàng)集計(jì)算中會(huì)產(chǎn)生較多冗余數(shù)據(jù)。本文整合社區(qū)發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則分析算法進(jìn)行數(shù)據(jù)挖掘應(yīng)用,能夠有效識(shí)別供應(yīng)團(tuán)組社區(qū)并獲得其內(nèi)部關(guān)系結(jié)構(gòu),對(duì)于在合同招投標(biāo)審計(jì)過(guò)程中辨識(shí)圍串標(biāo)行為具有顯著作用。二、主要審計(jì)思路及相關(guān)算法(一)審計(jì)思路首先,利用社區(qū)發(fā)現(xiàn)算法對(duì)招采數(shù)據(jù)中涉及的供應(yīng)商進(jìn)行初步分組。其次,在供應(yīng)商初步分組中逐個(gè)應(yīng)用關(guān)聯(lián)規(guī)則分析尋找組內(nèi)頻繁項(xiàng)集,即經(jīng)常同時(shí)參與某些項(xiàng)目投標(biāo)的供應(yīng)商團(tuán)組,在結(jié)果中設(shè)置提取規(guī)

4、則,進(jìn)一步提升社區(qū)名單的準(zhǔn)確性與覆蓋面,并獲得團(tuán)組內(nèi)部的關(guān)系結(jié)構(gòu)。最后,應(yīng)用數(shù)據(jù)分析提取的供應(yīng)商團(tuán)組,反查相關(guān)合同標(biāo)的,確認(rèn)有關(guān)行為及事實(shí)。(二)涉及算法介紹1.louvain社區(qū)發(fā)現(xiàn)算法。louvain算法是一種基于模塊度的社區(qū)發(fā)現(xiàn)算法,通過(guò)模塊度來(lái)衡量一個(gè)社區(qū)的緊密程度。本例中,供應(yīng)商視為節(jié)點(diǎn),一起投標(biāo)的同類(lèi)供應(yīng)商視為社區(qū),供應(yīng)商在尋源單中共同出現(xiàn)次數(shù)為權(quán)重,次數(shù)越多,邊權(quán)越大。模塊度定義函數(shù)q如下:其中,aij代表節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的邊權(quán);ki和kj分別代表所有與節(jié)點(diǎn)i和節(jié)點(diǎn)j相連的邊的權(quán)重之和;m代表所有的邊權(quán)之和;ci和cj分別代表節(jié)點(diǎn)i和節(jié)點(diǎn)j所屬的社區(qū);表示克羅內(nèi)克函數(shù)。若一個(gè)供

5、應(yīng)商(節(jié)點(diǎn))加入到某個(gè)社區(qū)(類(lèi)別)中會(huì)使該社區(qū)的模塊度有最大程度的增加,則認(rèn)為該節(jié)點(diǎn)屬于該社區(qū);若未能使其模塊度增加,則該供應(yīng)商留在原社區(qū)中,從而實(shí)現(xiàn)對(duì)供應(yīng)商分類(lèi)的目的。2.apriori關(guān)聯(lián)規(guī)則分析算法。apriori算法是通過(guò)連接產(chǎn)生候選項(xiàng)及其支持度然后通過(guò)剪枝生成頻繁項(xiàng)集(疑似供應(yīng)商團(tuán)組),并分析頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。相關(guān)指標(biāo)如下:(1)支持度(support)。支持度代表供應(yīng)商尋源單中當(dāng)前供應(yīng)商組合的頻繁程度,如果該組合的支持度大于預(yù)設(shè)的閾值,則認(rèn)為該組合為疑似團(tuán)組(頻繁項(xiàng)集)。apriori算法采用反向減枝計(jì)算,即“若一個(gè)項(xiàng)目集是非頻繁項(xiàng)集,則它的所有超集也是非頻繁項(xiàng)集”,可以減少

6、遍歷運(yùn)算量。(2)置信度(confidence)。置信度代表在供應(yīng)商a投標(biāo)的情況下,供應(yīng)商c同時(shí)出現(xiàn)的概率。(3)提升度(lift)。提升度用于衡量供應(yīng)商a與c投標(biāo)的相關(guān)性關(guān)系:當(dāng)提升度大于3時(shí),一般認(rèn)為關(guān)聯(lián)規(guī)則有價(jià)值;若供應(yīng)商a與c相互獨(dú)立,則提升度恰好為1;若提升度小于1,則表示供應(yīng)商a與c互斥。但實(shí)際應(yīng)用中,該指標(biāo)易受零事務(wù)影響,零事務(wù)即與團(tuán)組無(wú)關(guān)的供應(yīng)商投標(biāo)次數(shù)。如總投標(biāo)次數(shù)1000次中,供應(yīng)商a、c分別參與500次、600次,供應(yīng)商a、c共同投標(biāo)次數(shù)300次,則lift(ac)為1;若總投標(biāo)次數(shù)為10000次,則lift(ac)變?yōu)?0。3.kulc度量與不平衡比(ir)。引入不受零

7、事務(wù)和事務(wù)總數(shù)影響的kulc度量與不平衡比(ir),減小因置信度和支持度失效產(chǎn)生的影響。kulc度量值在0-1之間,值越大,供應(yīng)商之間聯(lián)系越緊密。但當(dāng)kulc度量值在0.5左右時(shí),單從kulc度量無(wú)法判斷當(dāng)前團(tuán)組是否有價(jià)值。因此,引入不平衡ir比進(jìn)行參考。當(dāng)不平衡比接近0時(shí),認(rèn)為關(guān)聯(lián)關(guān)系是平衡的;不平衡比越大,則關(guān)聯(lián)關(guān)系越不平衡。若kulc度量值接近0.5并且不平衡比接近0,則認(rèn)為該關(guān)聯(lián)關(guān)系是沒(méi)有價(jià)值的。三、具體審計(jì)流程根據(jù)上述louvain與apriori算法,內(nèi)部審計(jì)需結(jié)合統(tǒng)計(jì)學(xué)相關(guān)知識(shí)并根據(jù)圍標(biāo)具有尋源單中全部或大部分供應(yīng)商同屬一個(gè)團(tuán)體這一顯著特征,通過(guò)全局統(tǒng)計(jì)和分析各個(gè)尋源單內(nèi)部的關(guān)系

8、這兩個(gè)角度,評(píng)估各種團(tuán)體的出現(xiàn)形式,篩選出可能性較大的目標(biāo)組合,具體流程見(jiàn)圖1。流程的關(guān)鍵步驟如下:一是獲取招采數(shù)據(jù)。從招采系統(tǒng)中獲取采購(gòu)尋源單,主要包括采購(gòu)單位、項(xiàng)目名稱(chēng)、投標(biāo)供應(yīng)商名單、中標(biāo)人名稱(chēng)、中標(biāo)金額等字段信息。二是數(shù)據(jù)清洗、轉(zhuǎn)換。根據(jù)實(shí)際需要,剔除無(wú)效數(shù)據(jù),如同一尋源單中重復(fù)出現(xiàn)的供應(yīng)商,并對(duì)源數(shù)據(jù)進(jìn)行轉(zhuǎn)換,提取出關(guān)鍵數(shù)據(jù)。三是供應(yīng)商初步分組。按照同類(lèi)尋源單各供應(yīng)商之間邊權(quán)增加1原則,對(duì)全局?jǐn)?shù)據(jù)進(jìn)行統(tǒng)計(jì),遍歷全部尋源單條目,形成涵蓋全部供應(yīng)商關(guān)系的網(wǎng)絡(luò)。然后,利用louvain對(duì)樣本數(shù)據(jù)進(jìn)行分類(lèi),將關(guān)系密切的供應(yīng)商劃分到同一個(gè)社區(qū),減少后續(xù)apriori的運(yùn)算時(shí)間,提升效率與準(zhǔn)確度

9、。四是形成高關(guān)聯(lián)度供應(yīng)商團(tuán)組。對(duì)分類(lèi)之后的每一個(gè)初步分組,單獨(dú)運(yùn)行apriori算法,利用二分法尋找每個(gè)社群適用的最小支持度,獲得盡可能全面的頻繁項(xiàng)集結(jié)果,計(jì)算出對(duì)應(yīng)的關(guān)聯(lián)關(guān)系、kulc度量和不平衡比,并篩選出有價(jià)值的頻繁項(xiàng)集。五是輔助審計(jì)。根據(jù)上述頻繁項(xiàng)集,反查相關(guān)合同標(biāo)的,通過(guò)具體合同分析,排查有關(guān)圍串標(biāo)行為。四、方法運(yùn)用示例(一)社區(qū)發(fā)現(xiàn)結(jié)果通過(guò)louvain社區(qū)分類(lèi)算法,將采購(gòu)尋源單中560家供應(yīng)商按互相之間同時(shí)出現(xiàn)的頻繁程度及業(yè)務(wù)范圍劃分為9個(gè)組別,如建筑建設(shè)、通信、工程設(shè)計(jì)、保險(xiǎn)、電器設(shè)備等。從結(jié)果上看,劃分到同一個(gè)社區(qū)中的供應(yīng)商業(yè)務(wù)方向大多一致,劃分結(jié)果較為精準(zhǔn),見(jiàn)圖2、圖3。此

10、舉可以減少大量零事務(wù),為后續(xù)使用apriori時(shí)設(shè)置最小置信度提供便利。若不對(duì)采購(gòu)尋源單數(shù)據(jù)進(jìn)行預(yù)先劃分,在后續(xù)使用apriori時(shí),在設(shè)置最小置信度時(shí)會(huì)遇到困難。因?yàn)楣?yīng)商種類(lèi)繁雜,導(dǎo)致零事務(wù)數(shù)量巨大:若設(shè)置的最小置信度偏大,則會(huì)遺漏大量頻繁項(xiàng)集,導(dǎo)致輸出的結(jié)果覆蓋面大幅下降;若設(shè)置的最小置信度偏小,則會(huì)導(dǎo)致無(wú)法及時(shí)刪去非頻繁項(xiàng)集,失去apriori算法的優(yōu)勢(shì),導(dǎo)致計(jì)算時(shí)間指數(shù)性增長(zhǎng)。(二)關(guān)聯(lián)規(guī)則分析結(jié)果一部分提升度大于3的頻繁項(xiàng)集的kulc度量在0.5左右,不平衡比接近0。在對(duì)該部分結(jié)果進(jìn)行排查之后發(fā)現(xiàn),該部分結(jié)果雖然提升度大于3,但并非有價(jià)值的供應(yīng)商團(tuán)組,見(jiàn)圖4。由此可見(jiàn),單獨(dú)考慮提升

11、度情況下的結(jié)果輸出形式并不準(zhǔn)確。在引入kulc度量與不平衡比之后,篩選出的供應(yīng)商團(tuán)組占比從原來(lái)只考慮提升度情況下的73.5%下降到39.7%,大幅減少了輸出的數(shù)據(jù)量,提升了精準(zhǔn)度,減少了后續(xù)審計(jì)疑點(diǎn)排查時(shí)間,見(jiàn)圖5。以第2組社區(qū)團(tuán)體中的供應(yīng)商組合abc進(jìn)行說(shuō)明。對(duì)于供應(yīng)商abc,其對(duì)應(yīng)的置信度為0.4,提升度為57.4,kulc度量值為0.7,不平衡比為0.6,見(jiàn)圖6。該供應(yīng)商團(tuán)組提升度極高,kulc度量值偏高,不在紅色標(biāo)注的0.40.6的范圍之內(nèi),并且不平衡比較大,遠(yuǎn)超紅色標(biāo)注的0.2的閾值。具備作為疑點(diǎn)的顯著特征,并且供應(yīng)商a有可能是該團(tuán)組的主導(dǎo)人。將該疑點(diǎn)事務(wù)提出,結(jié)合該組合中供應(yīng)商a的

12、中標(biāo)率與全局情況下供應(yīng)商a的中標(biāo)率進(jìn)行分析,發(fā)現(xiàn)該組合中供應(yīng)商a的中標(biāo)率明顯偏高。該組合極有可能是高度關(guān)聯(lián)團(tuán)組,并且供應(yīng)商a有可能是主導(dǎo)人。根據(jù)上述分析結(jié)果,審計(jì)人員進(jìn)一步查找該團(tuán)組相關(guān)合同,分析確認(rèn)是否存在招標(biāo)投標(biāo)法實(shí)施條例所列述的串通投標(biāo)情形。從結(jié)果來(lái)看,該方法數(shù)據(jù)篩選精準(zhǔn)度較高、覆蓋范圍較廣,極大地縮短了排查時(shí)間,輔助審計(jì)的作用較為明顯。面對(duì)大量的尋源單數(shù)據(jù),通過(guò)采用louvain分類(lèi)結(jié)合apriori挖掘的方式,能較好地克服尋源單數(shù)量龐大、種類(lèi)繁多等難點(diǎn);能對(duì)大量標(biāo)的進(jìn)行快速分類(lèi),較為精準(zhǔn)地劃分項(xiàng)目類(lèi)別。在對(duì)各個(gè)組別分別進(jìn)行apriori挖掘時(shí),采用最小二分法快速尋找出適用于對(duì)應(yīng)情況下

13、的最小支持度,能免除對(duì)每一個(gè)組別設(shè)置特定最小支持度的流程,可使審計(jì)人員將精力主要集中在篩選出的疑似圍標(biāo)團(tuán)伙名單,擴(kuò)大審計(jì)覆蓋面,提高圍標(biāo)團(tuán)伙發(fā)現(xiàn)率,降低審計(jì)風(fēng)險(xiǎn)。需要指出的是,在最終結(jié)果篩選的過(guò)程中,如何設(shè)置置信度、提升度、kulc度量及不平衡比,以更為精準(zhǔn)地篩選出有價(jià)值的疑點(diǎn)事務(wù),仍需進(jìn)一步與招標(biāo)實(shí)際核實(shí)、分析。由于標(biāo)的數(shù)量龐大,某些項(xiàng)目類(lèi)型本身參與者不多,按照本算法,此類(lèi)參與者可能會(huì)在結(jié)果中被誤認(rèn)為是疑點(diǎn)團(tuán)組輸出。如何在結(jié)果中進(jìn)一步篩選出高精準(zhǔn)度的疑點(diǎn)團(tuán)組,仍需根據(jù)各企業(yè)招標(biāo)實(shí)際,通過(guò)大量數(shù)據(jù)反復(fù)驗(yàn)證調(diào)試各指標(biāo)的參數(shù)。(作者單位:浙江省能源集團(tuán)有限公司,郵政編碼:310007,電子郵箱:513972995)主要參考文獻(xiàn)遲殿委.淺析大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論