大數(shù)據(jù)稅務(wù)風險防控 課件 項目四 涉稅大數(shù)據(jù)采集、加工與可視化_第1頁
大數(shù)據(jù)稅務(wù)風險防控 課件 項目四 涉稅大數(shù)據(jù)采集、加工與可視化_第2頁
大數(shù)據(jù)稅務(wù)風險防控 課件 項目四 涉稅大數(shù)據(jù)采集、加工與可視化_第3頁
大數(shù)據(jù)稅務(wù)風險防控 課件 項目四 涉稅大數(shù)據(jù)采集、加工與可視化_第4頁
大數(shù)據(jù)稅務(wù)風險防控 課件 項目四 涉稅大數(shù)據(jù)采集、加工與可視化_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)涉稅風險防控目錄項目一大數(shù)據(jù)入門項目二金稅四期與大數(shù)據(jù)稅務(wù)風險項目三構(gòu)建大數(shù)據(jù)稅務(wù)風險防控指標模型體系項目四涉稅大數(shù)據(jù)采集、加工與可視化項目五大數(shù)據(jù)稅務(wù)風險防控案例實戰(zhàn)與解析項目四涉稅大數(shù)據(jù)采集、加工與可視化知識目標能力目標素養(yǎng)目標培養(yǎng)思考和分析能力,鍛煉多角度獨立觀察和思考問題的能力;培養(yǎng)正確看待和準確運用技術(shù)的科學價值觀;激發(fā)學習興趣和愛好,培養(yǎng)良好的學習習慣和科學素養(yǎng)。能夠根據(jù)稅務(wù)風險分析的需要提取和采集需要的數(shù)據(jù);能夠?qū)Υ笈繑?shù)據(jù)進行集中清洗和整理;能夠使用Pandas對稅務(wù)風險防控模型進行數(shù)據(jù)分析;能夠使用Matplotlib進行稅務(wù)風險的可視化表達。了解涉稅大數(shù)據(jù)的分類;熟悉涉稅大數(shù)據(jù)的采集渠道、采集方法;掌握使用Python進行涉稅數(shù)據(jù)采集的方法;掌握對采集的涉稅數(shù)據(jù)進行清洗和整理的方法;掌握運用Pandas進行數(shù)據(jù)分析的方法;掌握使用Matplotlib進行數(shù)據(jù)可視化的方法。

任務(wù)一

采集涉稅大數(shù)據(jù)PART0101任務(wù)描述俗話說,“巧婦難為無米之炊”,僅憑借構(gòu)建稅務(wù)風險防控的理論模型,而沒有涉稅數(shù)據(jù)的支撐,是無法進行稅務(wù)風險分析的,也無法實現(xiàn)對稅務(wù)風險的有效管理。涉稅數(shù)據(jù)是稅務(wù)風險管理的主要載體。在大數(shù)據(jù)時代背景下,運用科學的技術(shù)與方法,有效獲取涉稅大數(shù)據(jù)資源,已經(jīng)成為深入開展稅務(wù)風險管理的基礎(chǔ)環(huán)節(jié)和必要條件。本任務(wù)將從涉稅數(shù)據(jù)的采集渠道、網(wǎng)絡(luò)爬蟲的工作方法等方面對涉稅數(shù)據(jù)的獲取過程進行全面介紹,旨在為本項目中涉稅數(shù)據(jù)加工、涉稅數(shù)據(jù)模型分析及可視化部分內(nèi)容的學習奠定堅實的基礎(chǔ)。任務(wù)情境某日,浙江省杭州市稅務(wù)局第一稽查局接到一封舉報信,信中舉報杭州A跨境貿(mào)易公司設(shè)立內(nèi)外兩套賬,存在隱匿收入、少繳稅款的問題,并附了該公司的內(nèi)部電子郵件截圖,圖中顯示公司人員通過郵件收發(fā)兩套賬目。杭州市稅務(wù)局第一稽查局立即著手組織檢查。檢查組通過分析舉報內(nèi)容,初步掌握了涉案公司幾名負責人的姓名以及公司旗下網(wǎng)店的名稱、收支概況。為避免打草驚蛇,檢查組通過互聯(lián)網(wǎng)平臺廣泛搜索涉案公司信息,發(fā)現(xiàn)該公司作為深交所上市公司,有披露歷年財務(wù)報告信息,且在幾份與融資有關(guān)的財經(jīng)新聞中也披露過公司相關(guān)年度的銷售情況。將收集到的有關(guān)信息與稅收征管系統(tǒng)中該公司的申報數(shù)據(jù)進行比對分析后,檢查組判斷該公司存在隱匿收入的重大嫌疑。然而,面對收入嚴重不一致的證據(jù),被查公司財務(wù)人員既不承認兩套賬的存在,也不說明報表的數(shù)據(jù)來源。通過反復分析已有的證據(jù)材料,檢查組決定根據(jù)跨境電商行業(yè)的特點,在跨境電商平臺開展調(diào)查,直接針對相關(guān)店鋪進行取證。很快,檢查組在速賣通、亞馬遜等6個電商平臺上查到與涉案公司相關(guān)的店鋪14個,發(fā)現(xiàn)這些店鋪反映的經(jīng)營情況與上市公司公告中披露的經(jīng)營情況較為接近,但大量收入因未開具發(fā)票而在稅務(wù)系統(tǒng)中沒有留痕,公司通過財務(wù)人員個人賬號和私設(shè)其他賬號等方式進行收款,隱匿收入進行避稅。至此,在內(nèi)外部信息相互印證下,基本形成了一條完整的證據(jù)鏈。最終,公司相關(guān)人員在證據(jù)面前無話可說,按照要求補繳了稅款并接受了相應(yīng)的處罰。任務(wù)清單浙江省杭州市稅務(wù)局第一稽查局在對杭州凱A跨境貿(mào)易公司進行納稅檢查評估時使用了哪些涉稅數(shù)據(jù)?浙江省杭州市稅務(wù)局第一稽查局是通過哪些途徑獲取涉稅數(shù)據(jù)的?浙江省杭州市稅務(wù)局第一稽查局在獲取涉稅數(shù)據(jù)時使用了哪些方法?嘗試使用網(wǎng)絡(luò)爬蟲進行涉稅數(shù)據(jù)爬取的練習。任務(wù)準備一、涉稅數(shù)據(jù)采集渠道(一)財務(wù)數(shù)據(jù)的采集渠道

1.內(nèi)部采集渠道

財務(wù)數(shù)據(jù)的內(nèi)部采集渠道主要是企業(yè)的財務(wù)管理系統(tǒng)、線下保存數(shù)據(jù)的辦公軟件、納稅申報系統(tǒng)中企業(yè)報送的財務(wù)報表信息等。

2.外部采集渠道

財務(wù)數(shù)據(jù)的外部采集渠道主要包括交易所網(wǎng)站、財經(jīng)金融圖書館、財經(jīng)類數(shù)據(jù)庫、公司官網(wǎng)等。采集涉稅大數(shù)據(jù)任務(wù)準備(二)生產(chǎn)經(jīng)營數(shù)據(jù)的采集渠道1.查閱稅收統(tǒng)計報表稅收統(tǒng)計報表是按照國家稅務(wù)總局統(tǒng)一規(guī)定的格式、項目、口徑,自上而下布置、自下而上逐級收集涉稅統(tǒng)計資料的一種調(diào)查方法。

2.實地調(diào)研實地調(diào)研又稱為直接觀察調(diào)查,是指稅務(wù)機關(guān)到納稅人生產(chǎn)經(jīng)營的現(xiàn)場實地觀察、詢問、調(diào)查納稅人生產(chǎn)經(jīng)營狀況,以獲取第一手生產(chǎn)經(jīng)營數(shù)據(jù)的調(diào)查方法。

3.問卷調(diào)查問卷調(diào)查是稅務(wù)機關(guān)通過制定詳細周密的問卷,要求納稅人據(jù)實回答問題以獲取生產(chǎn)經(jīng)營數(shù)據(jù)的一種調(diào)查方法。

4.構(gòu)建涉稅信息共享平臺稅務(wù)機關(guān)可以通過構(gòu)建與企業(yè)商業(yè)管理模式相匹配的企業(yè)ERP涉稅信息共享平臺,深入掌握納稅人生產(chǎn)經(jīng)營實際情況,并獲取生產(chǎn)經(jīng)營涉稅數(shù)據(jù)。采集涉稅大數(shù)據(jù)任務(wù)準備(三)稅收征管數(shù)據(jù)的采集渠道稅收征管數(shù)據(jù)主要來源于金稅、非金稅等稅務(wù)軟件系統(tǒng),因此,稅務(wù)機關(guān)一般通過提取金稅系統(tǒng)、增值稅防偽稅控稽核系統(tǒng)、發(fā)票電子底賬系統(tǒng)、稅收征收系統(tǒng)、收入規(guī)劃核算系統(tǒng)等稅務(wù)系統(tǒng)中存儲的納稅申報信息、財務(wù)報表信息、稅務(wù)登記信息、認定信息、發(fā)票管理信息、稅收評定信息以及稅務(wù)檢查信息來獲取所需的稅收征管數(shù)據(jù)。(四)第三方數(shù)據(jù)的采集渠道隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)成為稅務(wù)機關(guān)提升稅收風險管理能力的重要抓手。一般情況下,稅務(wù)機關(guān)主要通過手機App、網(wǎng)絡(luò)爬蟲技術(shù)兩種渠道,以手動單戶采集或自動批量抓取模式獲取互聯(lián)網(wǎng)涉稅數(shù)據(jù)。

采集涉稅大數(shù)據(jù)任務(wù)準備二、網(wǎng)絡(luò)爬蟲基本知識與工作流程(一)網(wǎng)絡(luò)爬蟲概述

1.網(wǎng)絡(luò)爬蟲的定義

網(wǎng)絡(luò)爬蟲作為現(xiàn)代搜索引擎技術(shù)的重要組成部分,具體是指一種按照一定的規(guī)則,自動從互聯(lián)網(wǎng)上抓取信息的程序。

2.網(wǎng)絡(luò)爬蟲的分類

通用網(wǎng)絡(luò)爬蟲:又稱全網(wǎng)爬蟲,爬取對象從一些種子URL擴展到整

個Web,主要為門戶站點搜索引擎和大型Web服

務(wù)提供商采集數(shù)據(jù)。聚焦網(wǎng)絡(luò)爬蟲:又稱主題網(wǎng)絡(luò)爬蟲,是指有目標、有選擇地爬取那

些與預先設(shè)定主題相關(guān)的網(wǎng)頁的網(wǎng)絡(luò)爬蟲。增量網(wǎng)絡(luò)爬蟲:對已下載網(wǎng)頁采取增量式更新和只爬取新產(chǎn)生的或

者已經(jīng)發(fā)生變化的網(wǎng)頁的網(wǎng)絡(luò)爬蟲。深層網(wǎng)絡(luò)爬蟲:爬取深層網(wǎng)頁的網(wǎng)絡(luò)爬蟲。Web頁面按照存在方式,

可以分為表層網(wǎng)頁和深層網(wǎng)頁。采集涉稅大數(shù)據(jù)任務(wù)準備3.網(wǎng)絡(luò)爬蟲協(xié)議

網(wǎng)絡(luò)爬蟲協(xié)議,全稱是“網(wǎng)絡(luò)爬蟲排除標準”(RobotsExclusionProtocol)。在創(chuàng)建和維護網(wǎng)站的過程中,通過建立一個robots.txt文件創(chuàng)建Robots協(xié)議,告訴爬蟲哪些內(nèi)容是可以爬取的,哪些不可以,如果違反規(guī)則惡意爬取或高頻次請求,就會被警告或拒絕。

4.網(wǎng)絡(luò)爬蟲的工作流程采集涉稅大數(shù)據(jù)任務(wù)準備(二)網(wǎng)絡(luò)爬蟲的工作流程

1.認知網(wǎng)頁(1)查看網(wǎng)頁的HTML代碼

在網(wǎng)頁任意地方單擊鼠標右鍵,單擊“顯示網(wǎng)頁源代碼“;

在網(wǎng)頁的空白處單擊右鍵,選擇“檢查”;

使用快捷鍵方式,打開瀏覽器開發(fā)者工具。(2)認識HTML代碼的元素

一個完整的HTML元素由開始標簽、元素內(nèi)容、結(jié)束標簽、屬性(可選)構(gòu)成。

網(wǎng)頁上只能呈現(xiàn)HTML元素內(nèi)容,不呈現(xiàn)HTML元素標簽

元素內(nèi)容不一定是普通文本,也可以嵌套其他HTML元素。

一個元素可以包含多個屬性,屬性的內(nèi)容不會在網(wǎng)頁中顯示。采集涉稅大數(shù)據(jù)任務(wù)準備(3)認識HTML代碼的結(jié)構(gòu)<!DOCTYPEhtml>元素是空元素,用于告知瀏覽器需要處理的是一個文本類型的HTML文檔。

<html>元素用于定義一個HTML文檔,<html>為開始標簽,</html>為結(jié)束標簽,開始標簽與結(jié)束標簽之間包含了諸多其他的元素。<html>元素的開始標簽包含了lang屬性。lang屬性用于指定頁面的語言類型。<head>元素表示頁面的頭部信息,用于描述頁面的標題、字符集、語言等概要信息。通常情況下,<head>元素會嵌套其他元素。采集涉稅大數(shù)據(jù)任務(wù)準備(3)認識HTML代碼的結(jié)構(gòu)<meta>元素表示頁面的元信息,一般嵌套在<head>元素中,可以實現(xiàn)對頁面的特定操作。<title>元素用于設(shè)置頁面的標題。<body>元素表示頁面的主體內(nèi)容,用于定義HTML文檔的主體。一般而言,網(wǎng)頁開發(fā)者會把想讓用戶在訪問頁面時看到的內(nèi)容寫進<body>元素。采集涉稅大數(shù)據(jù)任務(wù)準備(4)掌握HTML元素的定位方法首先,單擊瀏覽器開發(fā)者工具左上角的指針工具,單擊后指針工具會變?yōu)樗{色。然后,將鼠標移到左側(cè)頁面的目標區(qū)域所在位置,就能夠迅速在瀏覽器開發(fā)者工具的元素欄看到目標區(qū)域?qū)?yīng)的HTML元素。采集涉稅大數(shù)據(jù)任務(wù)準備

2.獲取網(wǎng)頁第一步,導入已安裝的Requests庫。

導入Requests庫的語句為:importrequests。第二步,查找并聲明瀏覽器用戶代理和需要爬取網(wǎng)頁的網(wǎng)址。第三步,發(fā)起請求,獲取靜態(tài)網(wǎng)頁源代碼。第四步,轉(zhuǎn)換獲取網(wǎng)頁源代碼的字符編碼。第五步,輸出獲取的網(wǎng)頁源代碼。采集涉稅大數(shù)據(jù)任務(wù)準備

3.解析網(wǎng)頁第一步,導入bs4庫中的BeautifulSoup類。第二步,解析網(wǎng)頁源代碼。第三步,從BeautifulSoup對象中提取數(shù)據(jù)。采集涉稅大數(shù)據(jù)任務(wù)準備

4.存儲數(shù)據(jù)第一步,導入csv模塊。第二步,創(chuàng)建要寫入內(nèi)容的csv文件。使用withopen()as語法,新建csv文件并存儲提取的網(wǎng)頁數(shù)據(jù)。第三步,調(diào)用csv模塊中的DictWriter類。使用csv.DictWriter()語法,將csv文件轉(zhuǎn)換為DictWriter對象。第四步,寫入表頭與數(shù)據(jù)。使用writeheader()語法,將DictWriter對象中的fieldnames寫入csv文件的第一行。使用writerows()語法,將多個字典寫入csv文件。采集涉稅大數(shù)據(jù)任務(wù)實施一、杭州A跨境貿(mào)易公司涉稅檢查總結(jié)浙江省杭州市稅務(wù)局第一稽查局在對杭州A跨境貿(mào)易公司進行納稅檢查評估時使用了哪些涉稅數(shù)據(jù)?2.浙江省杭州市稅務(wù)局第一稽查局是通過哪些途徑獲取涉稅數(shù)據(jù)的?3.浙江省杭州市稅務(wù)局第一稽查局在獲取涉稅數(shù)據(jù)時使用了哪些方法?4.跟隨下面的任務(wù)實施環(huán)節(jié)使用網(wǎng)絡(luò)爬蟲完成涉稅數(shù)據(jù)爬取的練習。二、爬取數(shù)據(jù)的簡單嘗試

以百度網(wǎng)站為例,完成部分數(shù)據(jù)的爬取獲取網(wǎng)頁:完成導入Requests庫、聲明用戶代理、獲取網(wǎng)頁源代碼、

轉(zhuǎn)碼、打印等工作,獲取服務(wù)器響應(yīng)的網(wǎng)頁源代碼。解析網(wǎng)頁:完成百度首頁左上角文本的解析和爬取。存儲數(shù)據(jù):將提取出來的網(wǎng)頁左上角的“新聞、hao123、地圖、貼

吧、視頻、圖片、網(wǎng)盤、更多”等文本,存儲在指定位置。采集涉稅大數(shù)據(jù)任務(wù)實施三、爬取企業(yè)工商信息數(shù)據(jù)

以爬取企查查中華為技術(shù)有限公司頁面的工商信息為例,完成涉稅數(shù)據(jù)采集的實操任務(wù)。第一步,進入需要爬取的網(wǎng)頁。第二步,找到所需爬取信息對應(yīng)的網(wǎng)頁源代碼。第三步,獲取網(wǎng)頁,并解析和提取網(wǎng)頁源代碼中的工商信息。第四步,將提取的工商信息儲存在csv文件中。四、爬取企業(yè)財務(wù)報表信息(一)爬取企業(yè)資產(chǎn)負債表

將代碼粘貼至PyCharm代碼編輯區(qū),單擊“運行”就可以完成從上海證券交易所官方網(wǎng)站報表專欄(網(wǎng)址:/)下載貴州茅臺資產(chǎn)負債表的操作,下載的資產(chǎn)負債表從PyCharm存放文件的文件夾中就可以找到并打開使用。采集涉稅大數(shù)據(jù)任務(wù)實施(二)爬取不同企業(yè)資產(chǎn)負債表將教材提供的代碼用綠色方框標注出來的部分對應(yīng)的股票代碼和企業(yè)名稱做一下簡單修改,單擊運行,就可以獲取到需要的上市公司對應(yīng)年份的報表信息。(三)爬取企業(yè)其他財務(wù)報表將教材提高的代碼中用黑色方框標注出來的部分做一下替換,替換成我們需要的報表類型的信息,就可以獲取到對應(yīng)的報表。第一步,Headers的替換第二步,name的替換第三步,利潤表爬取保存采集涉稅大數(shù)據(jù)任務(wù)實訓1.完成爬取企查查中福建鴻星爾克體育用品有限公司頁面工商信息的練習,進一步熟悉獲取網(wǎng)頁、解析網(wǎng)頁、存儲數(shù)據(jù)的操作方法。2.完成爬取上海證券交易所網(wǎng)站中貴州茅臺現(xiàn)金流量表的練習,進一步熟悉財務(wù)報表數(shù)據(jù)的爬取操作。3.小組任務(wù):以小組為單位,選擇任意主題,分工協(xié)作爬取涉稅數(shù)據(jù),制作PPT展示任務(wù)完成情況及成果,并分享心得體會。

任務(wù)二

加工涉稅大數(shù)據(jù)PART0202任務(wù)描述能否高效開展稅務(wù)風險分析,進而實現(xiàn)稅收風險的有效監(jiān)管,不僅取決于能否獲取涉稅數(shù)據(jù)資源,還取決于所獲取的涉稅數(shù)據(jù)質(zhì)量是否達標。正所謂“磨刀不誤砍柴工”,在進行稅務(wù)風險分析之前,通過運用科學的方法對采集到的涉稅數(shù)據(jù)進行加工處理,提升涉稅數(shù)據(jù)的質(zhì)量,使其更好地適應(yīng)特定的分析工具尤為重要。本任務(wù)將從數(shù)據(jù)加工的含義、數(shù)據(jù)加工的工作內(nèi)容、數(shù)據(jù)加工的方法等方面對涉稅數(shù)據(jù)的加工進行介紹,旨在為本項目中涉稅數(shù)據(jù)模型分析及可視化部分內(nèi)容的學習提供有力的支撐。任務(wù)情境

某稅務(wù)機關(guān)工作人員在對轄區(qū)企業(yè)涉稅風險進行評估篩查時,通過網(wǎng)絡(luò)爬蟲的方式爬取了部分上市公司資產(chǎn)負債表和利潤表信息(如下表所示),但由于沒有設(shè)置數(shù)據(jù)有效性檢查,數(shù)據(jù)匯總后,發(fā)現(xiàn)了各種各樣的問題,比如數(shù)據(jù)整行缺失、某個數(shù)據(jù)缺失、個別數(shù)據(jù)行重復等。為了對收集的數(shù)據(jù)進行有效的統(tǒng)計分析,需要先完成數(shù)據(jù)的清洗整理工作。任務(wù)清單完成資產(chǎn)負債表的數(shù)據(jù)清洗整理工作。處理利潤表的數(shù)據(jù),使之能與合并資產(chǎn)負債表數(shù)據(jù)進行一一對應(yīng)歸集。完成資產(chǎn)負債表和利潤表的數(shù)據(jù)歸集工作。統(tǒng)計各行業(yè)的凈利潤之和。篩選出資產(chǎn)總額在1000萬元以上的企業(yè)任務(wù)準備一、數(shù)據(jù)加工的含義及工作內(nèi)容(一)數(shù)據(jù)加工的含義

數(shù)據(jù)加工是數(shù)據(jù)分析的重要前提之一,具體是指運用抽取、清洗、轉(zhuǎn)換、匹配、匯總等手段,對從各種渠道獲取的內(nèi)外部數(shù)據(jù)資源進行標準化、格式化處理,使其滿足數(shù)據(jù)分析需求的過程。(二)數(shù)據(jù)加工的工作內(nèi)容數(shù)據(jù)清洗:按照一定的清洗規(guī)則,對原始數(shù)據(jù)的完整性、一致性和準確性進行審查和校驗,以發(fā)現(xiàn)并糾正原始數(shù)據(jù)中的可識別錯誤的過程。數(shù)據(jù)轉(zhuǎn)換:對原始數(shù)據(jù)進行結(jié)構(gòu)轉(zhuǎn)換、代碼統(tǒng)一、度量統(tǒng)一等處理,以滿足數(shù)據(jù)分析需要的過程。數(shù)據(jù)匹配:對原始數(shù)據(jù)進行歸集,使在邏輯上有參照關(guān)系的數(shù)據(jù)之間建立起明確且符合要求的映射關(guān)系的過程。加工涉稅大數(shù)據(jù)任務(wù)準備(二)數(shù)據(jù)加工的工作內(nèi)容數(shù)據(jù)匯總:根據(jù)不同字段、不同維度,對原始數(shù)據(jù)進行多層次匯總,形成滿足不同分析要求的數(shù)據(jù)集的過程。數(shù)據(jù)歸集:把不同系統(tǒng)、不同庫表結(jié)構(gòu)的數(shù)據(jù)項,按照業(yè)務(wù)分析的方向存放在一起的過程。數(shù)據(jù)字典:將數(shù)據(jù)加工的結(jié)果按照規(guī)范化的數(shù)據(jù)字典模板,進行統(tǒng)一代碼設(shè)置,編制成數(shù)據(jù)字典的過程。日常維護:對數(shù)據(jù)加工情況進行日常巡檢,解決各渠道提出的數(shù)據(jù)加工方面問題的過程。加工涉稅大數(shù)據(jù)任務(wù)準備二、認識Pandas數(shù)據(jù)處理工具(一)Pandas概述Pandas是Python的第三方庫,是基于NumPy庫開發(fā)的用于數(shù)據(jù)分析的工具。不僅提供了大量便捷地處理數(shù)據(jù)的函數(shù)和方法,而且包含大量的庫和一些標準的數(shù)據(jù)模型,具有高效分析數(shù)據(jù)的功能。在Python中引入Pandas的代碼為:importpandasaspf。Pandas的主要數(shù)據(jù)結(jié)構(gòu)包括Series(一維數(shù)據(jù))與DataFrame(二維數(shù)據(jù))Series是一種類似于一維數(shù)組的對象,它由一組數(shù)據(jù)以及一組與之相關(guān)的數(shù)據(jù)標簽(索引)組成。DataFrame是一種二維數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)以表格的形式存儲,分成若干行和列。加工涉稅大數(shù)據(jù)任務(wù)準備(二)DataFrame的創(chuàng)建

使用DataFrame()可以將多種格式的數(shù)據(jù)轉(zhuǎn)換為DataFrame對象,它的三個參數(shù)data、index和columns分別為數(shù)據(jù)、行索引和列索引。第一步,創(chuàng)建二維列表存儲數(shù)據(jù)內(nèi)容。第二步,創(chuàng)建DataFrame。加工涉稅大數(shù)據(jù)任務(wù)準備(三)DataFrame的寫入和讀取

Pandas可以將創(chuàng)建的DataFrame表格數(shù)據(jù)寫入文件中進行永久性保存,支持的文件格式有HTML、CSV、JSON、Excel等。對應(yīng)的代碼分別為df.to_html()、df.to_csv()、df.to_json()、df.to_excel()。將創(chuàng)建的DataFrame表格寫入Excel文件中,存儲路徑為'D:/software/PyCharm/anzhuang/venv/財務(wù)數(shù)據(jù).xlsx‘。使用df.to_excel('D:/software/PyCharm/anzhuang/venv/財務(wù)數(shù)據(jù).xlsx','財務(wù)數(shù)據(jù)')就可以把表格數(shù)據(jù)存儲在指定路徑下的Excel中,文件名為“財務(wù)數(shù)據(jù)”,sheet名為“財務(wù)數(shù)據(jù)”。將寫入的Excel表格讀取出來,并存入新變量df1中。加工涉稅大數(shù)據(jù)任務(wù)準備三、數(shù)據(jù)加工的處理流程(一)數(shù)據(jù)查看(二)數(shù)據(jù)截取截取DataFrame中的某一行。下方代碼截取的是第一行,需要注意的是,DataFrame中行的計數(shù)是從0開始的,且使用方括號切片截取數(shù)據(jù)時包含左邊的數(shù)字行但不包含右邊的數(shù)字行,所以,print(df[0:1])

只能截取到第一行,不能截取到第二行。截取DataFrame中的多行。print(df[1:3])

能夠截取到第二行到第三行的數(shù)據(jù)。加工涉稅大數(shù)據(jù)任務(wù)準備(二)數(shù)據(jù)截取截取DataFrame多行里面的某幾列。

print(df[1:3][[‘name’,‘a(chǎn)ge’]])能夠截取到第二行到第三行中的name列和age列。截取DataFrame中的某一列。print(df[‘name’])能夠截取到name列的數(shù)據(jù)。截取DataFrame中的多個列。print(df[[‘name’,‘a(chǎn)ge’]])能夠截取到name列和age列。(三)數(shù)據(jù)篩選讀取并篩選出,前面創(chuàng)建的財務(wù)信息DataFrame表格中資產(chǎn)額大于10的所有數(shù)據(jù)。加工涉稅大數(shù)據(jù)任務(wù)準備(三)數(shù)據(jù)篩選如果是需要同時滿足兩個條件的篩選,需要用到符號“&”。讀取并篩選出,前面創(chuàng)建的財務(wù)信息DataFrame表格中資產(chǎn)額大于10且小于12的所有數(shù)據(jù)。(四)數(shù)據(jù)排序?qū)?shù)據(jù)進行排序可以使用sort_index()、sort_values()兩種方法。sort_index()方法是按照行索引進行排序,sort_values()可以指定具體列進行排序。sort_values()中的by參數(shù)指定按哪一列進行排序;inplace參數(shù)用來控制是否直接在原始數(shù)據(jù)上進行操作,True代表直接替換原始數(shù)據(jù);ascending參數(shù)默認或設(shè)置為True時按升序排列,設(shè)置為False時按降序排列。加工涉稅大數(shù)據(jù)任務(wù)準備(五)數(shù)據(jù)清洗1.缺失數(shù)據(jù)的處理通過調(diào)用isnull()函數(shù),可以迅速識別缺失數(shù)據(jù),結(jié)果為True意為有缺失數(shù)據(jù),結(jié)果為False意為無缺失數(shù)據(jù)。查找到缺失數(shù)據(jù)后,我們主要運用刪除對應(yīng)行、補齊缺失數(shù)據(jù)兩種方法來進行缺失數(shù)據(jù)的處理。通過調(diào)用dropna()函數(shù),可刪除缺失數(shù)據(jù)所在的行。通過調(diào)用fillna()函數(shù),可以默認值、前一個數(shù)值、后一個數(shù)值、均值等來填補缺失數(shù)據(jù)。加工涉稅大數(shù)據(jù)任務(wù)準備2.重復數(shù)據(jù)的處理通過調(diào)用duplicated()函數(shù)確認數(shù)據(jù)中是否存在重復數(shù)據(jù),并在此基礎(chǔ)上通過調(diào)用drop_duplicates()函數(shù)刪除重復數(shù)據(jù)。刪除重復數(shù)據(jù)后,還要調(diào)用sort_values()函數(shù),通過參數(shù)by、ascending指定排序的列和排序方式,對清洗的數(shù)據(jù)進行排序。無論是刪除重復數(shù)據(jù)還是數(shù)據(jù)排序,如果要在原數(shù)據(jù)上處理并保持處理結(jié)果,均需要在參數(shù)中設(shè)置inplace=True。加工涉稅大數(shù)據(jù)任務(wù)準備(六)數(shù)據(jù)轉(zhuǎn)換1.數(shù)據(jù)轉(zhuǎn)置的處理數(shù)據(jù)轉(zhuǎn)置是指將數(shù)據(jù)的行數(shù)據(jù)轉(zhuǎn)換到列方向上,將列數(shù)據(jù)轉(zhuǎn)換到行方向上。通過直接調(diào)用DataFrame

對象的T屬性即可轉(zhuǎn)置數(shù)據(jù)的行和列。

2.行或列交換的處理行或列交換是指將數(shù)據(jù)行或列的順序進行調(diào)整,以實現(xiàn)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一。通過調(diào)用reindex()函數(shù)即可實現(xiàn)行或列順序的交換。加工涉稅大數(shù)據(jù)任務(wù)準備(七)數(shù)據(jù)歸集通過調(diào)用merge(),將一個或多個相同列的不同數(shù)據(jù)表連接起來。(八)數(shù)據(jù)匯總在分類匯總時,要先根據(jù)數(shù)據(jù)的具體情況,調(diào)用groupby()函數(shù)對數(shù)據(jù)進行分組,然后再調(diào)用sum()函數(shù)進行匯總運算。創(chuàng)建某集團公司各分公司各票種用量情況DataFrame表格加工涉稅大數(shù)據(jù)任務(wù)準備(八)數(shù)據(jù)匯總使用groupby()和sum()函數(shù)分別進行分組和求和。加工涉稅大數(shù)據(jù)任務(wù)實施加工涉稅大數(shù)據(jù)一、查看數(shù)據(jù)結(jié)構(gòu)實操

將要處理的上市公司資產(chǎn)負債表數(shù)據(jù)導入Python中并查看數(shù)據(jù)結(jié)構(gòu),以便對后面的數(shù)據(jù)處理工作進行整體規(guī)劃,做到心中有數(shù)。加載pandas庫使用pandas庫導入數(shù)據(jù) 二、數(shù)據(jù)清洗實操(一)缺失數(shù)據(jù)的處理查找缺失值并打印結(jié)果采用刪除記錄和填充數(shù)據(jù)兩種方法,對缺失值進行處理。

使用dropna()函數(shù)刪除整行數(shù)據(jù)為空的行:任務(wù)實施加工涉稅大數(shù)據(jù)二、數(shù)據(jù)清洗實操(一)缺失數(shù)據(jù)的處理使用fillna()函數(shù)填充缺失值:(二)重復數(shù)據(jù)的處理調(diào)用duplicated()函數(shù),查找重復值,并打印結(jié)果。調(diào)用drop_duplicates()函數(shù)刪除重復值的基礎(chǔ)上,通過調(diào)用sort_values()函數(shù)對數(shù)據(jù)進行排序,并調(diào)用to_excel()函數(shù)導出清洗后的Excel數(shù)據(jù)表到指定的位置。任務(wù)實施加工涉稅大數(shù)據(jù)三、數(shù)據(jù)轉(zhuǎn)換實操(一)數(shù)據(jù)轉(zhuǎn)置的處理將上市公司利潤表數(shù)據(jù)導入Python中并觀察數(shù)據(jù)結(jié)構(gòu)。調(diào)用DataFrame對象的T屬性完成數(shù)據(jù)的轉(zhuǎn)置。(二)行或列交換的處理根據(jù)列索引編號,設(shè)置列索引順序通過調(diào)用reindex()函數(shù)轉(zhuǎn)換列的位置調(diào)用to_excel()函數(shù)導出經(jīng)轉(zhuǎn)置、列交換后的Excel數(shù)據(jù)表到指定的位置任務(wù)實施加工涉稅大數(shù)據(jù)四、數(shù)據(jù)歸集實操第一步,將完成數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換的上市公司資產(chǎn)負債表數(shù)據(jù)、利潤表數(shù)據(jù)。第二步,通過調(diào)用merge()函數(shù)將上市公司資產(chǎn)負債表和利潤表合并為上市公司財務(wù)數(shù)據(jù)表。第三步,調(diào)用to_excel()函數(shù)將合并后的上市公司財務(wù)數(shù)據(jù)表導出到指定的位置。任務(wù)實施加工涉稅大數(shù)據(jù)五、數(shù)據(jù)匯總實操第一步,將歸集后的財務(wù)數(shù)據(jù)導入Python中第二步,調(diào)用groupby()函數(shù)按照行業(yè)名稱對數(shù)據(jù)進行分組第三步,使用sum()函數(shù)分別對各行業(yè)凈利潤數(shù)據(jù)進行匯總運算六、數(shù)據(jù)篩選實操篩選出資產(chǎn)總額在1000萬元以上的企業(yè)任務(wù)實訓1.完成酒、飲料和精制茶制造業(yè)中有代表性的上市公司財務(wù)數(shù)據(jù)轉(zhuǎn)換的練習,熟練掌握數(shù)據(jù)轉(zhuǎn)置、數(shù)據(jù)行或列交換的操作方法。2.完成上市公司財務(wù)數(shù)據(jù)行業(yè)口徑、地區(qū)口徑的分組匯總練習,熟練掌握數(shù)據(jù)匯總的操作方法。3.完成批發(fā)業(yè)、零售業(yè)上市公司財務(wù)數(shù)據(jù)歸集的練習,熟練掌握數(shù)據(jù)歸集的操作方法。4.小組任務(wù):以小組為單位,選擇任意主題,分工協(xié)作完成數(shù)據(jù)查找、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸集、數(shù)據(jù)匯總,制作PPT現(xiàn)場展示任務(wù)完成情況,并分享心得體會。

任務(wù)三

涉稅數(shù)據(jù)模型分析及可視化PART0303任務(wù)描述所謂知己知彼,百戰(zhàn)不殆。企業(yè)也需要充分了解和掌握利用大數(shù)據(jù)技術(shù)對數(shù)據(jù)進行采集和處理并進而應(yīng)用到稅收風控模型中,實現(xiàn)風險分析的方法和技巧,才能夠及時有效地進行自我預警和完善,更好地規(guī)避稅收風險,實現(xiàn)納稅遵從,創(chuàng)造一個和諧、安全的經(jīng)營和發(fā)展環(huán)境。本部分任務(wù)的主要目的就是使用Python大數(shù)據(jù)技術(shù)對項目三中所涉及的稅務(wù)風控指標進行數(shù)據(jù)帶入和整理分析,并將分析結(jié)果進行可視化表達,直觀展示和分析稅務(wù)風險。任務(wù)情境某同學在學習完稅務(wù)風險防控模型構(gòu)建方法后一直躍躍欲試,想找機會親自帶入數(shù)據(jù)實踐一把,體驗一下“福爾摩斯”抽絲剝繭的探案過程。尤其是在了解到Python能夠?qū)Ψ治鼋Y(jié)果進行可視化呈現(xiàn),繪制出漂亮的圖表后更是迫切地想將這一技能也盡快掌握,在大數(shù)據(jù)稅務(wù)風險分析領(lǐng)域能夠大展一番拳腳。我們一起來幫他完成心愿吧。為突出本任務(wù)數(shù)據(jù)分析和可視化的主體,本部分不再展示數(shù)據(jù)抓取和清洗處理的過程,直接使用處理過的干凈數(shù)據(jù)進行分析和可視化。任務(wù)清單完成財務(wù)數(shù)據(jù)稅務(wù)風控模型分析并進行可視化展現(xiàn)。完成生產(chǎn)經(jīng)營數(shù)據(jù)稅務(wù)風控模型分析并進行可視化展現(xiàn)。完成稅收征管數(shù)據(jù)稅務(wù)風控模型分析并進行可視化展現(xiàn)。完成第三方數(shù)據(jù)稅務(wù)風控模型分析并進行可視化展現(xiàn)。任務(wù)準備一、Python數(shù)據(jù)分析流程Python數(shù)據(jù)分析的流程可以分為設(shè)定問題-獲取數(shù)據(jù)-清洗及整理數(shù)據(jù)-數(shù)據(jù)分析及可視化-撰寫分析報告五個基本的部分。運用在稅務(wù)風險控制領(lǐng)域,設(shè)定問題就是我們需要根據(jù)稅務(wù)數(shù)據(jù)的特點和風險控制的需要,總結(jié)概括出需要使用Python進行分析的領(lǐng)域,也就是項目三涉及到的涉稅分析模型構(gòu)建;獲取數(shù)據(jù)和整理數(shù)據(jù)就是使用爬蟲工具獲取設(shè)定問題所需要的數(shù)據(jù),然后通過Pandas工具對數(shù)據(jù)進行清洗、加工處理,也就是本項目前兩個任務(wù)涉及到的數(shù)據(jù)采集和處理;數(shù)據(jù)分析和可視化是最后一個環(huán)節(jié),也是深入挖掘數(shù)據(jù)價值并通過Matplotlib工具進行結(jié)果呈現(xiàn),最終形成有價值的分析報告的過程。涉稅數(shù)據(jù)模型分析及可視化任務(wù)準備二、認識Matplotlib可視化工具(一)matplotlib基本介紹matplotlib是一個Python2D繪圖庫,它是Python中最常用的可視化工具之一,它的功能非常強大,可以通過調(diào)用函數(shù)輕松方便地繪制數(shù)據(jù)分析中常見的各種圖像,比如折線圖、條形圖、柱狀圖、散點圖、餅圖等,與普通圖表軟件相比,使用matplotlib生成的圖形質(zhì)量較高,甚至可以達到出版級別。Matplotlib最核心的模塊是pyplot模塊,幾乎所有的2D圖形都是通過該模塊進行繪制的,pyplot模塊約定別名為plt。涉稅數(shù)據(jù)模型分析及可視化任務(wù)準備二、認識Matplotlib可視化工具(一)matplotlib基本介紹通常情況下,我們可以將一張matplotlib圖像分成三層結(jié)構(gòu):第一層是底層容器層,第二層是輔助顯示層,第三層是圖像層。容器層主要由Canvas、Figure、Axes組成。Canvas是位于最底層的系統(tǒng)層,在繪圖的過程中充當畫板的角色,也就是放置畫布(Figure)的工具,用戶一般接觸不到。Figure是Canvas上方的第一層,也是需要用戶操作的第一層,在繪圖的過程中充當畫布的角色,可以設(shè)置畫布的大小和分辨率等。Axes是應(yīng)用層的第二層,在繪圖的過程中相當于畫布上的繪圖區(qū),一個Figure對象可以包含多個Axes對象,每個Axes都是一個獨立的坐標系,所有圖像都是基于坐標系繪制的。涉稅數(shù)據(jù)模型分析及可視化任務(wù)準備二、認識Matplotlib可視化工具(一)matplotlib基本介紹輔助顯示層是Axes(繪圖區(qū))內(nèi)的除了根據(jù)數(shù)據(jù)繪制出的圖像以外的內(nèi)容,主要包括Axes外觀(facecolor)、邊框線(spines)、坐標軸(axis)、坐標軸名稱(axislabel)、坐標軸刻度(tick)、坐標軸刻度標簽(ticklabel)、網(wǎng)格線(grid)、圖例(legend)、標題(title)等內(nèi)容。該層的設(shè)置可使圖像顯示更加直觀更加容易被用戶理解,但又不會對圖像產(chǎn)生實質(zhì)的影響。圖像層指Axes內(nèi)通過plot、scatter、bar、histogram、pie等函數(shù)根據(jù)數(shù)據(jù)繪制出的圖像,也是用戶操作最多的地方。涉稅數(shù)據(jù)模型分析及可視化任務(wù)準備二、認識Matplotlib可視化工具(二)可視化圖形種類及其特點Python可視化圖表的常用基本類型有折線圖、柱狀圖、餅狀圖、散點圖等。1.折線圖:以折線的上升或下降來表示統(tǒng)計數(shù)量增減變化,它最大的特點能夠顯示數(shù)據(jù)的變化趨勢;2.柱狀圖:以橫向或縱向并列分布的若干柱形表示統(tǒng)計數(shù)量的變化規(guī)律,它最大的特點是能夠進行數(shù)據(jù)之間的比較;3.餅狀圖:以位于同一個圓形上的不同扇形面積大小表示數(shù)據(jù)變化規(guī)律,用于表示不同分類在整體中的占比情況;4.散點圖:用散點形式分布在坐標系內(nèi)的坐標點判斷X、Y變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標點的分布模式的圖形,它最主要的用途是判斷變量是否存在數(shù)量關(guān)聯(lián)趨勢或展示數(shù)據(jù)分布規(guī)律。涉稅數(shù)據(jù)模型分析及可視化任務(wù)準備二、認識Matplotlib可視化工具(三)matplotlib繪圖基本語句1.從matplotlib包中導入pyplot模塊并將其改名為plt,接下來編寫代碼的時候,就可以直接使用plt方法了。具體語句如下:frommatplotlibimportpyplotasplt涉稅數(shù)據(jù)模型分析及可視化任務(wù)準備二、認識Matplotlib可視化工具(三)matplotlib繪圖基本語句2.根據(jù)數(shù)據(jù)表中的x,y值進行圖形繪制。不同圖形對應(yīng)的函數(shù)表達式如下表4-3所示:涉稅數(shù)據(jù)模型分析及可視化表4-3不同圖形對應(yīng)的函數(shù)表達式圖形函數(shù)表達折線圖plt.plot()柱狀圖plt.bar()餅狀圖plt.pie()直方圖plt.hist()散點圖plt.scatter()面積圖plt.area()堆疊圖plt.stackplot()箱線圖plt.boxplot()任務(wù)準備二、認識Matplotlib可視化工具(三)matplotlib繪圖基本語句3.設(shè)置輔助顯示層圖形參數(shù),具體如下表表4-4所示。涉稅數(shù)據(jù)模型分析及可視化表4-4輔助顯示層圖形參數(shù)繪圖項目函數(shù)表達設(shè)置圖像標題plt.title()設(shè)置X軸名稱plt.xlabel()設(shè)置Y軸名稱plt.ylabel()設(shè)置X軸范圍plt.xlim()設(shè)置Y軸范圍plt.ylim()設(shè)置X軸刻度plt.xticks()設(shè)置Y軸刻度plt.yticks()設(shè)置圖例plt.legend()任務(wù)準備二、認識Matplotlib可視化工具(三)matplotlib繪圖基本語句4.設(shè)置圖像層圖形參數(shù)(1)設(shè)置圖形顏色,顏色參數(shù)如下表表4-5所示。涉稅數(shù)據(jù)模型分析及可視化表4-5顏色參數(shù)表顏色參數(shù)代表色color='b'藍色(blue)color='g'綠色(green)color='r'紅色(red)color='w'白色(white)color='m'洋紅(magenta)color='y'黃(yellow)color='k'黑(black)color='c'青(cyan)任務(wù)準備二、認識Matplotlib可視化工具(三)matplotlib繪圖基本語句4.設(shè)置圖像層圖形參數(shù)(1)設(shè)置字體。由于Matplotlib默認字體中沒有中文,所以當我們想給圖形添加標簽時,需要通過下面的語句將字體設(shè)置為黑體:涉稅數(shù)據(jù)模型分析及可視化任務(wù)準備二、認識Matplotlib可視化工具(三)matplotlib繪圖基本語句5.數(shù)據(jù)可視化的完整語句示例(折線圖):涉稅數(shù)據(jù)模型分析及可視化任務(wù)實施案例實戰(zhàn)與解析一、財務(wù)報表數(shù)據(jù)稅務(wù)風控模型分析及可視化(一)財務(wù)報表主要項目稅務(wù)風控模型分析及可視化以項目三任務(wù)一中的應(yīng)付款項指標異常模型中的部分指標為例,使用項目四前兩個任務(wù)中講解的方法進行行業(yè)企業(yè)財務(wù)數(shù)據(jù)提取,并詳細介紹使用Python進行大數(shù)據(jù)稅收風險分析和可視化的過程。(二)財務(wù)指標稅務(wù)風控模型分析及可視化以項目三任務(wù)一中的盈利性指標異常模型中的部分指標為例,使用項目四前兩個任務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論