scikit learn機器學習（常用算法原理及編程實戰(zhàn)）上部

上傳人：M*** IP屬地：廣東上傳時間：2023-08-15 格式：DOCX 頁數：107 大小：412.14KB 積分：4.8 舉報 版權申訴

scikit learn機器學習（常用算法原理及編程實戰(zhàn)）上部_第2頁

scikit learn機器學習（常用算法原理及編程實戰(zhàn)）上部_第3頁

scikit learn機器學習（常用算法原理及編程實戰(zhàn)）上部_第4頁

scikit learn機器學習（常用算法原理及編程實戰(zhàn)）上部_第5頁

已閱讀5頁，還剩102頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

scikitlearn機器學習（常用算法原理及編程實戰(zhàn)）上部1-5章目錄TOC\h\h第1章機器學習介紹\h1.1什么是機器學習\h1.2機器學習有什么用\h1.3機器學習的分類\h1.4機器學習應用開發(fā)的典型步驟\h1.4.1數據采集和標記\h1.4.2數據清洗\h1.4.3特征選擇\h1.4.4模型選擇\h1.4.5模型訓練和測試\h1.4.6模型性能評估和優(yōu)化\h1.4.7模型使用\h1.5復習題\h第2章Python機器學習軟件包\h2.1開發(fā)環(huán)境搭建\h2.2IPython簡介\h2.2.1IPython基礎\h2.2.2IPython圖形界面\h2.3Numpy簡介\h2.3.1Numpy數組\h2.3.2Numpy運算\h2.4Pandas簡介\h2.4.1基本數據結構\h2.4.2數據排序\h2.4.3數據訪問\h2.4.4時間序列\(zhòng)h2.4.5數據可視化\h2.4.6文件讀寫\h2.5Matplotlib簡介\h2.5.1圖形樣式\h2.5.2圖形對象\h2.5.3畫圖操作\h2.6scikit-learn簡介\h2.6.1scikit-learn示例\h2.6.2scikit-learn一般性原理和通用規(guī)則\h2.7復習題\h2.8拓展學習資源\h第3章機器學習理論基礎\h3.1過擬合和欠擬合\h3.2成本函數\h3.3模型準確性\h3.3.1模型性能的不同表述方式\h3.3.2交叉驗證數據集\h3.4學習曲線\h3.4.1實例：畫出學習曲線\h3.4.2過擬合和欠擬合的特征\h3.5算法模型性能優(yōu)化\h3.6查準率和召回率\h3.7F1Score\h3.8復習題\h第4章k-近鄰算法\h4.1算法原理\h4.1.1算法優(yōu)缺點\h4.1.2算法參數\h4.1.3算法的變種\h4.2示例：使用k-近鄰算法進行分類\h4.3示例：使用k-近鄰算法進行回歸擬合\h4.4實例：糖尿病預測\h4.4.1加載數據\h4.4.2模型比較\h4.4.3模型訓練及分析\h4.4.4特征選擇及數據可視化\h4.5拓展閱讀\h4.5.1如何提高k-近鄰算法的運算效率\h4.5.2相關性測試\h4.6復習題\h第5章線性回歸算法\h5.1算法原理\h5.1.1預測函數\h5.1.2成本函數\h5.1.3梯度下降算法\h5.2多變量線性回歸算法\h5.2.1預測函數\h5.2.2成本函數\h5.2.3梯度下降算法\h5.3模型優(yōu)化\h5.3.1多項式與線性回歸\h5.3.2數據歸一化\h5.4示例：使用線性回歸算法擬合正弦函數\h5.5示例：測算房價\h5.5.1輸入特征\h5.5.2模型訓練\h5.5.3模型優(yōu)化\h5.5.4學習曲線\h5.6拓展閱讀\h5.6.1梯度下降迭代公式推導\h5.6.2隨機梯度下降算法\h5.6.3標準方程\h5.7復習題第1章

機器學習介紹本章簡要介紹了機器學習的定義、應用場景及機器學習的分類，并通過一個簡單的示例介紹了機器學習的典型步驟，以及機器學習領域的一些專業(yè)術語。本章涵蓋的內容如下：·機器學習的概念；·機器學習要解決的問題分類；·使用機器學習解決問題的一般性步驟。1.1什么是機器學習機器學習是近年來的一大熱門話題，然而其歷史要倒推到半個多世紀之前。1959年ArthurSamuel給機器學習的定義是：Fieldofstudythatgivescomputerstheabilitytolearnwithoutbeingexplicitlyprogrammed即讓計算機在沒有被顯式編程的情況下，具備自我學習的能力。TomM.Mitchell在操作層面給出了更直觀的定義：AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP，ifitsperformanceattasksinT，asmeasuredbyP，improveswithexperienceE.翻譯過來用大白話來說就是：針對某件事情，計算機會從經驗中學習，并且越做越好。從機器學習領域的先驅和“大?！眰兊亩x來看，我們可以自己總結出對機器學習的理解：機器學習是一個計算機程序，針對某個特定的任務，從經驗中學習，并且越做越好。從這個理解上，我們可以得出以下針對機器學習最重要的內容。數據：經驗最終要轉換為計算機能理解的數據，這樣計算機才能從經驗中學習。誰掌握的數據量大、質量高，誰就占據了機器學習和人工智能領域最有利的資本。用人類來類比，數據就像我們的教育環(huán)境，一個人要變得聰明，一個很重要的方面是能享受到優(yōu)質的教育。所以，從這個意義來講，就能理解類似Google這種互聯(lián)網公司開發(fā)出來的機器學習程序性能為什么那么好了，因為他們能獲取到海量的數據。模型：即算法，是本書要介紹的主要內容。有了數據之后，可以設計一個模型，讓數據作為輸入來訓練這個模型。經過訓練的模型，最終就成了機器學習的核心，使得模型成為了能產生決策的中樞。一個經過良好訓練的模型，當輸入一個新事件時，會做出適當的反應，產生優(yōu)質的輸出。1.2機器學習有什么用受益于摩爾定律，隨著計算機性能的提高，以及計算資源變得越來越便宜，機器學習在誕生半個世紀后的今天，得到了越來越廣泛的應用。你可能感受不到，但是你的日常生活已經與人工智能密不可分了。早晨起床，用iPhone打開Siri，問：“今天天氣怎么樣？”。Siri會自動定位到當前你所在的城市，并且把天氣信息展現(xiàn)出來。這個功能用起來很簡單，但其背后的系統(tǒng)是異常復雜的。其一是語音識別，這是機器學習最早的應用研究領域，Siri需要先把你說的話轉換為文字。大家知道，語音從本質上是一系列幅度不同的波，要轉換為文字，就需要設計一個模型，先通過大量的語音輸入來訓練這個模型，等模型訓練好了，把語音作為輸入，就可以輸出文字了。語音識別在20世紀50年代就開始研究了，其模型是不斷演變的。一個比較大的演變，就是由基于模式識別的算法演變?yōu)榛诮y(tǒng)計模型的算法，這一轉變大大提高了語音識別的準確率。其二是自然語言處理，這是機器學習和人工智能又一個非常重要的研究方向。Siri把語音轉成文字后，軟件需要理解文字的意思才能給出準確的回答。要讓計算機理解文字可不是簡單的事情。首先要有大規(guī)模的語料庫，其次要有相應的語言模型，然后通過語料庫來訓練語言模型，最終才能理解文字的部分語義。關于自然語言處理以及搜索引擎的相關技術，可以參閱吳軍老師的《數學之美》，這是一本把高深的數學講得通俗易懂、妙趣橫生的科普讀物。我們接著講前面起床的故事。在洗漱期間，你抽空瀏覽手機上的新聞，發(fā)現(xiàn)新聞下方有感興趣的行車記錄儀的廣告，點進去后打開了某知名電商網站，你看了一下產品的價格和評價，順手就買了。接著瀏覽新聞，發(fā)現(xiàn)這個新聞客戶端越來越人性化，自動把你感興趣的IT新聞及體育新聞排在了首頁。好不容易收拾完畢可以出門了，你坐在地鐵上，打開音樂播放器，瀏覽了一遍曲庫，沒有找到特別想聽的歌，于是就讓系統(tǒng)給你推薦一些歌。系統(tǒng)推薦的歌還挺“靠譜”的，雖然很多都沒聽過，但都很對你的“胃口”。在這段體驗描述里，背后的功臣就是推薦系統(tǒng)，這也是機器學習的一個重要應用方向。推薦系統(tǒng)的核心，是不斷地學習用戶的使用習慣，從而刻畫出用戶的畫像，根據用戶的畫像去推薦用戶感興趣的商品和文章。公司新上線了人臉識別系統(tǒng)，在這個“刷臉”的時代，已經沒有“忘帶工牌”這個簽卡的借口了。你走到公司大門口，人臉識別系統(tǒng)自動把你識別出來，然后開門，并準確地通過語音播報的方式和你打招呼。目前最先進的人臉識別系統(tǒng)基本上都是基于深度學習模型的算法實現(xiàn)的。這一領域也由早期的傳統(tǒng)方法慢慢地被深度學習模型所替代。當然，機器學習不止這些應用場景。我們在介紹具體算法的時候，會再詳細列舉出每個算法的應用場景。延伸閱讀：強人工智能未來學家RayKurzweil預言，人類將在2045年實現(xiàn)強人工智能，就是說到時人工智能將遠遠強于人類。那個時候人類與強人工智能的差距，要比螞蟻與人類的差距大幾個數量級。這是個讓人“腦洞”大開的想象。網上有一篇很火的翻譯過來的文章“為什么最近有很多名人，比如比爾蓋茨，馬斯克、霍金等，讓人們警惕人工智能？”，推薦讀者閱讀一下，其比普通的科幻小說要好看得多。喜歡閱讀英文原文的讀者，可以在\h上搜索“TheAIRevolution”。1.3機器學習的分類機器學習可以分成以下兩類。有監(jiān)督學習（Supervisedlearning）通過大量已知的輸入和輸出相配對的數據，讓計算機從中學習出規(guī)律，從而能針對一個新的輸入做出合理的輸出預測。比如，我們有大量不同特征（面積、地理位置、朝向、開發(fā)商等）的房子的價格數據，通過學習這些數據，預測一個已知特征的房子價格，這種稱為回歸學習（Regressionlearning），即輸出結果是一個具體的數值，它的預測模型是一個連續(xù)的函數。再比如我們有大量的郵件，每個郵件都已經標記是否是垃圾郵件。通過學習這些已標記的郵件數據，最后得出一個模型，這個模型對新的郵件，能準確地判斷出該郵件是否是垃圾郵件，這種稱為分類學習（Classficationlearning），即輸出結果是離散的，即要么輸出1表示是垃圾郵件，要么輸出0表示不是垃圾郵件。無監(jiān)督學習（Unsupervisedlearning）通過學習大量的無標記的數據，去分析出數據本身的內在特點和結構。比如，我們有大量的用戶購物的歷史記錄信息，從數據中去分析用戶的不同類別。針對這個問題，我們最終能劃分幾個類別？每個類別有哪些特點？我們事先是不知道的。這個稱為聚類（Clustering）。這里需要特別注意和有監(jiān)督學習里的分類的區(qū)別，分類問題是我們已經知道了有哪幾種類別；而聚類問題，是我們在分析數據之前其實是不知道有哪些類別的。即分類問題是在已知答案里選擇一個，而聚類問題的答案是未知的，需要利用算法從數據里挖掘出數據的特點和結構。網絡上流傳一個陰謀論：如果你是一個很好說話的人，網購時收到有瑕疵的商品的概率會比較高。為什么呢？理由是電商庫存里會有一部分有小瑕疵但不影響使用的商品，為了保證這些商品順利地賣出去并且不影響用戶體驗，不被用戶投訴，他們會把有瑕疵的商品賣給那些很好說話的人?？蓡栴}是，哪些人是好說話的人呢？一個最簡單的方法是直接把有小瑕疵的商品寄給一個用戶，如果這個用戶沒有投訴或退貨，并且還給出了好評，就說明他是個好說話的人。還可以通過機器學習來優(yōu)化這一過程。電商網站有你的大量交易記錄和行為記錄，如果你從來沒有投訴過，買之前也不會和賣家溝通太久，買之后也沒有上網評價，或者全部給好評，那么機器學習算法從你的行為特征中會判定你為“好對付”的人。這樣你就成了電商們的瑕疵商品的傾銷對象了。在這個案例中，電商通過用戶的行為和交易數據，分析出不同的用戶特點，如哪些人是“老實”人、哪些人是有車一族、哪些人是“土豪”、哪些人家里有小孩等。這就屬于無監(jiān)督學習的聚類問題。這兩種機器學習類別的最大區(qū)別是，有監(jiān)督學習的訓練數據里有已知的結果來“監(jiān)督”；而無監(jiān)督學習的訓練數據里沒有結果“監(jiān)督”，不知道到底能分析出什么樣的結果。1.4機器學習應用開發(fā)的典型步驟本節(jié)通過一個例子來介紹一下機器學習應用開發(fā)的典型步驟，以及機器學習領域的一些常用概念。假設，我們要開發(fā)一個房價評估系統(tǒng)，系統(tǒng)的目標是對一個已知特征的房子價格進行評估預測。建立這樣一個系統(tǒng)需要包含以下幾個步驟。1.4.1數據采集和標記我們需要大量不同特征的房子和所對應的價格信息，可以直接從房產評估中心獲取房子的相關信息，如房子的面積、地理位置、朝向、價格等。另外還有一些信息房產評估中心不一定有，比如房子所在地的學校情況，這一特征往往會影響房子的價格，這個時候就需要通過其他途徑收集這些數據，這些數據叫做訓練樣本，或數據集。房子的面積、地理位置等稱為特征。在數據采集階段，需要收集盡量多的特征。特征越全，數據越多，訓練出來的模型才會越準確。通過這個過程也可以感受到數據采集的成本可能是很高的。人們常說石油是黑色的“黃金”，在人工智能時代，數據成了透明的“石油”，這也說明為什么螞蟻金服估值這么高了。螞蟻金服有海量的用戶交易數據，據此他們可以計算出用戶的信用指標，稱為芝麻信用，根據芝麻信用給你一定的預支額，這就是一家新的信用卡公司了。而這還只是單單一個點的價值，真正的價值在于互聯(lián)網金融。在房價評估系統(tǒng)這個例子里，我們的房子價格信息是從房產評估中心獲得的，這一數據可能不準確。有時為了避稅，房子的評估價格會比房子的真實交易價格低很多。這時，就需要采集房子的實際成交價格，這一過程稱為數據標記。標記可以是人工標記，比如逐個從房產中介那打聽房子的實際成交價格；也可以是自動標記，比如通過分析數據，找出房產評估中心給的房子評估價格和真實成交價格的匹配關系，然后直接算出來。數據標記對有監(jiān)督的學習方法是必須的。比如，針對垃圾郵件過濾系統(tǒng)，我們的訓練樣例必須包含這個郵件是否為垃圾郵件的標記數據。1.4.2數據清洗假設我們采集到的數據里，關于房子面積，有按平方米計算的，也有按平方英尺計算的，這時需要對面積單位進行統(tǒng)一。這個過程稱為數據清洗。數據清洗還包括去掉重復的數據及噪聲數據，讓數據具備結構化特征，以方便作為機器學習算法的輸入。1.4.3特征選擇假設我們采集到了100個房子的特征，通過逐個分析這些特征，最終選擇了30個特征作為輸入。這個過程稱為特征選擇。特征選擇的方法之一是人工選擇方法，即對逐個特征進行人員分析，然后選擇合適的特征集合。另外一個方法是通過模型來自動完成，如本書即將介紹的PCA算法。1.4.4模型選擇房價評估系統(tǒng)是屬于有監(jiān)督學習的回歸學習類型，我們可以選擇最簡單的線性方程來模擬。選擇哪個模型，和問題領域、數據量大小、訓練時長、模型的準確度等多方面有關。這方面的內容將在第3章介紹。1.4.5模型訓練和測試把數據集分成訓練數據集和測試數據集，一般按照8：2或7：3來劃分，然后用訓練數據集來訓練模型。訓練出參數后再使用測試數據集來測試模型的準確度。為什么要單獨分出一個測試數據集來做測試呢？答案是必須確保測試的準確性，即模型的準確性是要用它“沒見過”的數據來測試，而不能用那些用來訓練這個模型的數據來測試。理論上更合理的數據集劃分方案是分成3個，此外還要再加一個交叉驗證數據集。相關內容將在第3章介紹。1.4.6模型性能評估和優(yōu)化模型出來后，我們需要對機器學習的算法模型進行性能評估。性能評估包括很多方面，具體如下。訓練時長是指需要花多長時間來訓練這個模型。對一些海量數據的機器學習應用，可能需要1個月甚至更長的時間來訓練一個模型，這個時候算法的訓練性能就變得很重要了。另外，還需要判斷數據集是否足夠多，一般而言，對于復雜特征的系統(tǒng)，訓練數據集越大越好。然后還需要判斷模型的準確性，即對一個新的數據能否準確地進行預測。最后需要判斷模型是否能滿足應用場景的性能要求，如果不能滿足要求，就需要優(yōu)化，然后繼續(xù)對模型進行訓練和評估，或者更換為其他模型。1.4.7模型使用訓練出來的模型可以把參數保存起來，下次使用時直接加載即可。一般來講，模型訓練需要的計算量是很大的，也需要較長的時間來訓練，這是因為一個好的模型參數，需要對大型數據集進行訓練后才能得到。而真正使用模型時，其計算量是比較少的，一般是直接把新樣本作為輸入，然后調用模型即可得出預測結果。本書的重點放在機器學習的算法介紹以及scikit-learn工具包的使用上。對數據采集、數據清洗、特征選擇等內容沒有深入介紹，但并不代表這些內容不重要。在實際工程應用領域，由于機器學習算法模型只有固定的幾種，而數據采集、標記、清洗、特征選擇等往往和具體的應用場景相關，機器學習工程應用領域的工程師打交道更多的反而是這些內容。1.5復習題1.機器學習分哪兩類？它們之間有什么區(qū)別？2.無監(jiān)督機器學習的優(yōu)勢有哪些？3.機器學習應用開發(fā)的典型步驟有哪些？4.為什么要把數據集分成訓練數據集和測試數據集？第2章

Python機器學習軟件包本章介紹了scikit-learn相關開發(fā)環(huán)境的搭建步驟，以及IPython、Numpy和Pandas、Matplotlib等軟件包的基礎知識，最后通過一個scikit-learn機器學習實例，介紹了scikit-learn的一般性原理和通用規(guī)則。本章涵蓋的主要內容如下：·搭建Python機器學習編程環(huán)境；·熟悉IPython交互式編程環(huán)境；·熟悉Numpy包的基礎操作；·熟悉Pandas包的基礎操作；·熟悉Matplotlib及常用的畫圖操作；·熟悉scikit-learn軟件包，并完成一個手寫識別機器學習程序。2.1開發(fā)環(huán)境搭建若讀者沒有安裝過Python，一個最簡單的方式是直接安裝Python針對科學計算而發(fā)布的開發(fā)環(huán)境Anaconda。訪問\hwww.continuum.io/downloads網站，根據你所使用的操作系統(tǒng)下載合適的版本直接安裝即可。Anaconda里包含了本書要求的所有工具包，包括IPython、Numpy、scipy、Matplotlib和scikit-learn等，針對主流的操作系統(tǒng)Windows/Linux/Mac都提供了相應的安裝包。若讀者已經安裝了Python或者覺得Anaconda安裝包太大了，只想安裝需要的工具包，則可以逐個安裝這些工具包。這里假設已經安裝了Python和pip。那么可以通過pip命令來安裝所需要的工具包：pipinstalljupyternumpymatplotlibscipyscikit-learnseaborn

若讀者沒有安裝pip，可以參閱pip官方網站pip.pypa.io/en/stable/installing，具體步驟是下載get-pip.py文件，然后用python命令執(zhí)行這個文件即可完成pip的安裝。安裝完成后，可以在終端輸入ipython命令啟動IPython，并在IPython環(huán)境檢查我們所需要的工具包的版本號。這里安裝的工具包及其版本號如下：$ipython

Python2.7.10(default,Jul302016,19:40:32)

Type"copyright","credits"or"license"formoreinformation.

IPython5.3.0--AnenhancedInteractivePython.

?->IntroductionandoverviewofIPython'sfeatures.

%quickref->Quickreference.

help->Python'sownhelpsystem.

object?->Detailsabout'object',use'object??'forextradetails.

In[1]:importnumpy

In[2]:importmatplotlib

In[3]:importsklearn

In[4]:numpy.__version__

Out[4]:'1.12.0'

In[5]:matplotlib.__version__

Out[5]:'2.0.0'

In[6]:sklearn.__version__

Out[6]:'0.18.1'

·Python：2.7.10；·Ipython：5.3.0；·Numpy：1.12.0；·Matplotlib：2.0.0；·Sklearn：0.18.1。本書所有的示例程序均在上面的環(huán)境中測試通過。如果讀者要安裝和本書編寫時一樣的編程環(huán)境，可以下載隨書代碼，找到代碼主目錄，并在主目錄下執(zhí)行pipinstall-rrequirements.txt命令即可。2.2IPython簡介IPython是公認的現(xiàn)代科學計算中最重要的Python工具之一。它是一個加強版的Python交互式命令行工具，與系統(tǒng)自帶的Python交互環(huán)境相比，IPython具有以下明顯的幾個特點：·與Shell緊密關聯(lián)，可以在IPython環(huán)境下直接執(zhí)行Shell指令；·可以直接繪圖操作的WebGUI環(huán)境，在機器學習領域、探索數據模式、可視化數據、繪制學習曲線時，這一功能特別有用；·更強大的交互功能，包括內省、Tab鍵自動完成、魔術命令等。2.2.1IPython基礎如果你之前沒有接觸過IPython，那么現(xiàn)在是打開計算機體驗IPython的絕好時機，這種提高工作效率類的軟件，單單看書是完全無法體驗它的威力和便利性的。正確安裝IPython后，在命令行輸入ipython即可啟動IPython交互環(huán)境。$ipython

Python2.7.10(default,Jul302016,19:40:32)

Type"copyright","credits"or"license"formoreinformation.

IPython5.3.0--AnenhancedInteractivePython.

?->IntroductionandoverviewofIPython'sfeatures.

%quickref->Quickreference.

help->Python'sownhelpsystem.

object?->Detailsabout'object',use'object??'forextradetails.

In[1]:

基本上，可以像使用Python交互環(huán)境一樣使用IPython交互環(huán)境：In[1]:a=5

In[2]:a+3

Out[2]:8

跟Python交互環(huán)境相比，IPython的輸出排版更簡潔、優(yōu)美：In[3]:importnumpyasnp

In[4]:data={i:np.random.randn()foriinrange(8)}

In[5]:data

Out[5]:

{0:-0.12696712293771154,

1:-0.9291628055121173,

2:0.8248356377337012,

3:-0.5381098900612056,

4:2.0246437691867816,

5:-2.089016766007329,

6:1.234086243284236,

7:0.39953080301369065}

對比一下標準的Python交互環(huán)境下的輸出：>>>importnumpyasnp

>>>data={i:np.random.randn()foriinrange(8)}

>>>data

{0:-0.7989884322559587,1:0.2275777042011071,2:0.012864065192735426,

3:-1.3183480226587958,4:-0.9149466170543599,5:-0.683377363404726,6:

-0.8964451905483575,7:-0.37082447512220285}

>>>

很多時候，并不是我們不懂審美，而是沒有機會發(fā)現(xiàn)美。此外，IPython的Tab鍵自動補全功能是提高效率的秘籍。例如，輸入np.random.rand命令后，按Tab鍵，會自動顯示np.random命名空間下以rand開頭的所有函數。這一功能的便利性趕上了主流IDE。In[6]:np.random.rand<TAB>

np.random.randnp.random.random

np.random.randintnp.random.random_integers

np.random.randnnp.random.random_sample

記住一些快捷鍵，可以讓你在IPython環(huán)境下體驗健步如飛的感覺。對于熟悉Shell命令的讀者，這些命令會有似曾相識的感覺?！trl+A：移動光標到本行的開頭；·Ctrl+E：移動光標到本行的結尾；·Ctrl+U：刪除光標所在位置之前的所有字符；·Ctrl+K：刪除光標所在位置之后的所有字符，包含當前光標所在的字符；·Ctrl+L：清除當前屏幕上顯示的內容；·Ctrl+P：以當前輸入的字符作為命令的起始字符，在歷史記錄里向后搜索匹配的命令；·Ctrl+N：以當前輸入的字符作為命令的起始字符，在歷史記錄里向前搜索匹配的命令；·Ctrl+C：中斷當前腳本的執(zhí)行。另外，IPython提供了強大的內省功能。在Python交互環(huán)境里，只能使用help（）函數來查閱內置文檔，在IPython環(huán)境里可以直接在類或變量后面加上一個問號“？”來查閱文檔：In[7]:np.random.randn?

Docstring:

randn(d0,d1,...,dn)

Returnasample(orsamples)fromthe"standardnormal"distribution.

......

在類或變量或函數后面加兩個問號“？？”還可以直接查看源代碼。結合星號“*”和問號“？”，還可以查詢命名空間里的所有函數和對象。例如，查詢np.random下面以rand開頭的所有函數和對象：In[12]:np.random.rand*?

np.random.rand

np.random.randint

np.random.randn

np.random.random

np.random.random_integers

np.random.random_sample

從這些特性可以看出來，IPython鼓勵探索性編程。即當你對環(huán)境還不熟悉的時候，允許通過簡便快捷的方式來找到你想找的信息。除此之外，IPython還提供了強大的魔術命令。例如，我們在當前工作目錄下有一個叫hello.py的文件，其內容為：msg='helloipython'

print(msg)

然后在IPython里輸入%runhello.py命令即可直接運行這個python文件。這個文件是在一個空的命名空間里運行的，并且運行之后，該文件里定義的全局變量和函數就會自動引用到當前IPython空間中。In[13]:%runhello.py

helloipython

In[14]:msg

Out[14]:'helloipython'

還有一個常用的魔術命令是%timeit，可以用來快速評估代碼的執(zhí)行效率。例如，下面的代碼用來評估一個100100的矩陣點乘所需要運行的時間。In[15]:a=np.random.randn(100,100)

In[16]:%timeitnp.dot(a,a)

1loops,bestof3:261usperloop

還可以使用%who或%whos命令來查看當前環(huán)境下的變量列表。In[17]:%who

amsgnp

In[18]:%whos

VariableTypeData/Info

-------------------------------

andarray100x100:10000elems,type`float64`,80000bytes

msgstrhelloipython

npmodule<module'numpy'from'C:\<...>ages\numpy\__init__.pyc'>

還有一些比較常用的魔術命令如下。·%quickref：顯示IPython的快速參考文檔；·%magic：顯示所有的魔術命令及其詳細文檔；·%reset：刪除當前環(huán)境下的所有變量和導入的模塊；·%logstart：開始記錄IPython里的所有輸入的命令，默認保存在當前工作目錄的ipython_log.py中；·%logstop：停止記錄，并關閉log文件。需要說明的是，在魔術命令后面加上問號“？”可以直接顯示魔術命令的文檔。我們來查看%reset魔術命令的文檔。In[28]:%reset?

Docstring:

Resetsthenamespacebyremovingallnamesdefinedbytheuser,if

calledwithoutarguments,orbyremovingsometypesofobjects,such

aseverythingcurrentlyinIPython'sIn[]andOut[]containers(see

theparametersfordetails).

IPython與shell交互的能力，可以讓我們不離開IPython環(huán)境即可完成很多與操作系統(tǒng)相關的功能，特別是在Linux/MacOSX系統(tǒng)下工作時。最簡單的方式，就是在命令前加上感嘆號“！”即可直接運行shell命令（Windows系統(tǒng)下運行cmd命令）。比如下面的命令可以很方便地在IPython交互環(huán)境下打印出網絡地址：In[36]:!ifconfig|grep"inet"

inetnetmask0xff000000

inet03netmask0xffffff00broadcast55

以感嘆號為前綴的shell命令是和操作系統(tǒng)相關的，Windows系統(tǒng)和Linux/MacOSX系統(tǒng)相差很大。當使用%automagicon啟用自動魔術命令功能后，可以省略百分號“%”的輸入即可直接運行魔術命令：In[68]:%automagicon

AutomagicisON,%prefixISNOTneededforlinemagics.

In[69]:pwd

Out[69]:u'/Users/kamidox'

In[70]:ls

Applications/Pictures/lab/

Desktop/Public/osx/

Documents/android/scikit_learn_data/

Downloads/bin/tools/

In[71]:cdlab

/Users/kamidox/lab

In[72]:pwd

Out[72]:u'/Users/kamidox/lab'

我們經常會用import命令導入自己寫的python模塊，在調試過程中，修改了這個模塊后，如果想讓當前的修改馬上起作用，必須使用reload（）函數重新載入該模塊。假設當前工作目錄下有一個名字為hello.py的文件，其內容為：defsay_hello():

print('helloipython')

導入模塊，并運行say_hello（）函數：In[84]:importhello

In[85]:hello.say_hello()

helloipython

把hello.py文件內容改為下面的內容并保存：defsay_hello():

print('ipythonisagreattool')

此時，如果直接調用say_hello（）函數，得到的依然是舊的輸出，只有調用reload（）函數重新載入模塊，才能得到最新的輸出：In[86]:hello.say_hello()

helloipython

In[87]:reload(hello)

Out[87]:<module'hello'from'hello.py'>

In[88]:hello.say_hello()

ipythonisagreattool

2.2.2IPython圖形界面除了控制臺環(huán)境外，IPython另外一個強大的功能是圖形環(huán)境。與控制臺環(huán)境相比，它有兩個顯著的特點：·方便編寫多行代碼；·可以直接把數據可視化，顯示在當前頁面下。安裝完Jupyter后，直接在命令行輸入ipythonnotebook，啟動網頁版的圖形編程界面。它會在命令行啟動一個輕量級的Web服務器，同時用默認瀏覽器打開當前目錄所在的頁面，在這個頁面下可以直接打開某個notebook或者創(chuàng)建一個新的notebook。一個notebook是以.ipynb作為后綴名的、基于json格式的文本文件。$ipythonnotebook

[I01:10:56.511NotebookApp]Servingnotebooksfromlocaldirectory:

/Users/kamidox/books

[I01:10:56.511NotebookApp]0activekernels

[I01:10:56.511NotebookApp]TheIPythonNotebookisrunningat:

http://localhost:8888/

[I01:10:56.511NotebookApp]UseControl-Ctostopthisserverandshutdown

allkernels(twicetoskipconfirmation).

我們新建一個notebook并且畫一個正弦曲線。#設置inline方式，直接把圖片畫在網頁上

%matplotlibinline

#導入必要的庫

importnumpyasnp

importmatplotlib.pyplotasplt

#在[0,2*PI]之間取100個點

x=np.linspace(0,2*np.pi,num=100)

#計算這100個點的正弦值，并保存到變量y中

y=np.sin(x)

#畫出x,y,即正弦曲線

plt.plot(x,y)

代碼的注釋已經把意圖說明得很清楚了，讀者可以自己動手嘗試一下，也可以參考隨書代碼ch02.01.ipynb。運行效果如圖2-1所示。幾乎所有的IPython控制臺的技巧都可以在IPythonnotebok里使用。一個比較大的區(qū)別是，IPythonnotebook使用cell作為一個代碼單元。在控制臺里，寫完代碼直接按Enter鍵即可運行，而在IPythonnotebook里需要單擊“運行”按鈕或用快捷鍵Ctrl+Enter才能運行當前cell中的代碼。另外一個區(qū)別是IPythonnotebook有兩個模式，一個是編輯模式，可以直接在這個cell上編寫代碼。另外一個是命令模式，即輸入的按鍵作為命令，而不是作為文本處理。這一機制和vim很類似。這一描述很抽象，讀者可以直接打開IPythonnotebook后，按Ctrl+M快捷鍵在命令模式和編輯模式之間切換，直觀地體驗兩者的不同。圖2-1正弦曲線由于這個原因，掌握一些IPythonnotebook特有的快捷鍵對效率提高不無裨益。通過選擇“菜單”｜Help｜KeyboardShortcuts命令，可以查看系統(tǒng)快捷鍵列表。不同操作系統(tǒng)的快捷鍵前導鍵略有不同，比如下面是幾個Windows系統(tǒng)下常用的快捷鍵，分為命令模式和編輯模式。命令模式如下?！：焦點上移一個cell；·K：焦點下移一個cell，熟悉vim的讀者對這一模式應該很習慣；·A：在當前cell的上面插入一個新的cell；·B：在當前cell的下面插入一個新的cell；·DD：連續(xù)按兩次D鍵，刪除當前cell。這是另一個vimer“喜歡”的功能。編輯模式如下?！trl+Enter：執(zhí)行當前的cell代碼。相信大部分人對這個快捷鍵都不陌生，很多即時聊天工具就是用這個快捷鍵來發(fā)送消息的?！hift+Enter：執(zhí)行當前的cell代碼，并把焦點移到下一個cell處。如果沒有下一個cell則會自動創(chuàng)建一個新的cell。掌握這些基本夠用了，這些工具類的軟件描述起來總是略顯蒼白，只有實際使用起來才能深切體驗其便利性。值得一提的是，通過選擇“菜單”｜Help｜UserInterfaceTour命令，可以快速地熟悉IPythonnotebook一些基本的界面元素及其操作要領。2.3Numpy簡介Numpy是Python科學計算的基礎庫，主要提供了高性能的N維數組實現(xiàn)以及計算能力，還提供了和其他語言如C/C++集成的能力，此外還實現(xiàn)了一些基礎的數學算法，如線性代數相關、傅里葉變換及隨機數生成等。2.3.1Numpy數組可以直接用Python列表來創(chuàng)建數組。In[1]:importnumpyasnp

In[2]:a=np.array([1,2,3,4])

In[3]:a

Out[3]:array([1,2,3,4])

In[4]:b=np.array([[1,2],[3,4],[5,6]])

In[5]:b

Out[5]:

array([[1,2],

[3,4],

[5,6]])

可以查看array的屬性，包括數據的維度和類型。In[6]:b.ndim

Out[6]:2

In[7]:b.shape

Out[7]:(3,2)

In[8]:b.dtype#查看數組里元素的數據類型

Out[8]:dtype('int32')

也可以使用Numpy提供的函數來創(chuàng)建數組。In[6]:c=np.arange(10)#創(chuàng)建連續(xù)數組

In[9]:c

Out[9]:array([0,1,2,3,4,5,6,7,8,9])

In[10]:d=np.linspace(0,2,11)#[0,2]分成11等分后的數組

In[11]:d

Out[11]:array([0.,0.2,0.4,0.6,0.8,1.,1.2,1.4,1.6,1.8,2.])

In[12]:np.ones((3,3))#注意參數兩邊的括號，參數是個元組

Out[12]:

array([[1.,1.,1.],

[1.,1.,1.],

[1.,1.,1.]])

In[13]:np.zeros((3,6))

Out[13]:

array([[0.,0.,0.,0.,0.,0.],

[0.,0.,0.,0.,0.,0.],

[0.,0.,0.,0.,0.,0.]])

In[14]:np.eye(4)

Out[14]:

array([[1.,0.,0.,0.],

[0.,1.,0.,0.],

[0.,0.,1.,0.],

[0.,0.,0.,1.]])

In[17]:np.random.randn(6,4)#創(chuàng)建6×4的隨機數組

Out[17]:

array([[-0.49815866,-0.34571599,-0.44144955,0.28833876],

[1.48639293,-0.56259401,-0.32584788,0.39799156],

[1.35458161,-1.21808153,-0.17011994,0.95870198],

[-1.36688808,0.75892299,-1.25336314,-1.12267624],

[-2.24057506,-0.25099611,1.6995657,-0.14504619],

[0.52316692,-1.55100505,0.65085791,-1.45710045]])

Numpy提供了靈活的索引機制來訪問數組內的元素。In[23]:a=np.arange(10)

In[24]:a

Out[24]:array([0,1,2,3,4,5,6,7,8,9])

In[25]:a[0],a[3],a[-1]

Out[25]:(0,3,9)

In[26]:a[:4]#半開閉區(qū)間，不包含最后一個元素

Out[26]:array([0,1,2,3])

In[27]:a[3:7]

Out[27]:array([3,4,5,6])

In[28]:a[6:]

Out[28]:array([6,7,8,9])

In[29]:a[2:8:2]#3個參數表示起始、結束和步長，不包含結束位置

Out[29]:array([2,4,6])

In[30]:a[2::2]#結束位置可以省略

Out[30]:array([2,4,6,8])

In[31]:a[::3]#開始和結束都省略

Out[31]:array([0,3,6,9])

二維數據的索引分成行和列兩個維度，會更靈活一些。#創(chuàng)建一個6行6列的二維數據，使用了廣播機制，后文介紹

In[32]:a=np.arange(0,51,10).reshape(6,1)+np.arange(6)

In[33]:a

Out[33]:

array([[0,1,2,3,4,5],

[10,11,12,13,14,15],

[20,21,22,23,24,25],

[30,31,32,33,34,35],

[40,41,42,43,44,45],

[50,51,52,53,54,55]])

In[34]:a[0,0],a[2,-1]

Out[34]:(0,25)

In[35]:a[0,2:5]

Out[35]:array([2,3,4])

In[36]:a[:3,3:]

Out[36]:

array([[3,4,5],

[13,14,15],

[23,24,25]])

In[37]:a[2,:]

Out[37]:array([20,21,22,23,24,25])

In[38]:a[:,3]#結果應該是列向量，但Numpy自動轉換行向量形式

Out[38]:array([3,13,23,33,43,53])

In[39]:a[:,::2]

Out[39]:

array([[0,2,4],

[10,12,14],

[20,22,24],

[30,32,34],

[40,42,44],

[50,52,54]])

In[40]:a[::2,::3]

Out[40]:

array([[0,3],

[20,23],

[40,43]])

另外一個索引的方法是通過布爾數組。In[45]:a=np.random.randint(10,20,6)#在[10,20]之間產生6個隨機數

In[46]:a

Out[46]:array([12,11,14,11,18,19])

In[47]:a%2==0

Out[47]:array([True,False,True,False,True,False],dtype=bool)

In[48]:a[a%2==0]

Out[48]:array([12,14,18])

需要特別注意的是，Numpy總是試圖自動地把結果轉換為行向量，這一機制對熟悉MATLAB的讀者來講會覺得很別扭。比如下面的例子，對二維數組進行布爾索引時，結果變成了一個行向量：In[49]:a=np.arange(0,51,10).reshape(6,1)+np.arange(6)

In[50]:a

Out[50]:

array([[0,1,2,3,4,5],

[10,11,12,13,14,15],

[20,21,22,23,24,25],

[30,31,32,33,34,35],

[40,41,42,43,44,45],

[50,51,52,53,54,55]])

In[51]:a[a%2==0]

Out[51]:

array([0,2,4,10,12,14,20,22,24,30,32,34,40,42,44,50,52,

54])

另外需要注意的是，在大部分情況下，Numpy數組是共享內存的，如果要獨立保存，需要顯式地備份?？梢允褂胣p.may_share_memory（）函數來判斷兩個數組是否共享內存。In[52]:a=np.arange(6)

In[53]:a

Out[53]:array([0,1,2,3,4,5])

In[54]:b=a[2:5]

In[55]:b

Out[55]:array([2,3,4])

In[56]:b[1]=100

In[57]:b

Out[57]:array([2,100,4])

In[58]:a#數組a的值也改變了

Out[58]:array([0,1,2,100,4,5])

In[59]:np.may_share_memory(a,b)

Out[59]:True

In[60]:b=a[2:6].copy()#顯式地備份

In[61]:b

Out[61]:array([2,100,4,5])

In[62]:b[1]=3

In[63]:b

Out[63]:array([2,3,4,5])

In[64]:a#a數組的值沒有改變

Out[64]:array([0,1,2,100,4,5])

In[65]:np.may_share_memory(a,b)

Out[65]:False

作為一個有趣的例子，我們使用埃拉托斯特尼篩法（SieveofEratosthenes）來打印出[0，100]之間的所有質數。維基百科頁面/wiki/Sieve_of_Eratosthenes上有個動畫圖片清楚地展示了算法原理。其主要思路是，從第一個質數2開始，數據里所有能被2整除的數字都不是質數，即從2開始、以2為步長，每跳經過的數字都能被2整除，把其標識為非質數。接著，從下一個質數3開始，重復上述過程。最終即可算出[1，100]之間的所有質數。importnumpyasnp

a=np.arange(1,101)

n_max=int(np.sqrt(len(a)))

is_prime=np.ones(len(a),dtype=bool)#創(chuàng)建100個元素的數組，用來標記是否為質數

is_prime[0]=False

foriinrange(2,n_max):

ifiina[is_prime]:#跳過非質數

is_prime[(i**2-1)::i]=False#減1是為了修復從0開始索引的問題

printa[is_prime]

最終輸出的結果是：[2357111317192329313741434753596167717379838997]

2.3.2Numpy運算最簡單的數值計算是數組和標量進行計算，計算過程是直接把數組里的元素和標量逐個進行計算：In[2]:a=np.arange(6)

In[3]:a

Out[3]:array([0,1,2,3,4,5])

In[4]:a+5#數組和標量加法

Out[4]:array([5,6,7,8,9,10])

In[7]:b=np.random.randint(1,5,20).reshape(4,5)

In[8]:b

Out[8]:

array([[3,3,2,3,4],

[3,2,2,4,3],

[2,4,2,1,2],

[2,4,4,4,2]])

In[9]:b*3#數組和標量乘法

Out[9]:

array([[9,9,6,9,12],

[9,6,6,12,9],

[6,12,6,3,6],

[6,12,12,12,6]])

使用Numpy的優(yōu)點是運行速度會比較快，我們可以對比一下使用Python的循環(huán)與使用Numpy運算在效率上的差別，從Log里看到運行效率相差近100倍。In[10]:c=np.arange(10000)

In[11]:%timeitc+1

10000loops,bestof3:23.7usperloop

In[12]:%timeit[i+1foriinc]

100loops,bestof3:2.61msperloop

另外一種是數組和數組的運算，如果數組的維度相同，那么在組里對應位置進行逐個元素的數學運算。In[16]:a=np.random.random_integers(1,5,(5,4))

In[17]:a

Out[17]:

array([[3,1,3,2],

[1,1,4,2],

[1,3,5,4],

[3,3,3,4],

[5,1,5,1]])

In[23]:b=np.ones((5,4),dtype=int)

In[24]:b

Out[24]:

array([[1,1,1,1],

[1,1,1,1],

[1,1,1,1]])

In[25]:a+b#數組加法

Out[25]:

array([[4,2,4,3],

[2,2,5,3],

[2,4,6,5],

[4,4,4,5],

[6,2,6,2]])

In[26]:c=np.random.random_integers(1,5,(3,4))

In[27]:c

Out[27]:

array([[5,5,4,5],

[2,2,1,3],

[5,1,1,5]])

In[28]:d=np.random.random_integers(1,5,(3,4))

In[29]:d

Out[29]:

array([[3,4,5,4],

[4,3,4,2],

[1,4,5,4]])

In[30]:c*d#數組相乘，逐元素相乘，不是矩陣內積運算

Out[30]:

array([[15,20,20,20],

[8,6,4,6],

[5,4,5,20]])

需要注意的是，乘法是對應元素相乘，不是矩陣內積，矩陣內積使用的是np.dot（）函數。In[2]:a=np.random.random_integers(1,5,(3,2))

In[4]:b=np.random.random_integers(1,5,(2,3))

In[5]:a

Out[5]:

array([[3,1],

[2,3],

[5,1]])

In[6]:b

Out[6]:

array([[5,1,2],

[3,1,4]])

In[7]:np.dot(a,b)#矩陣內積

Out[7]:

array([[18,4,10],

[19,5,16],

[28,6,14]])

如果數組的維度不同，則Numpy會試圖使用廣播機制來匹配，如果能匹配得上，就進行運算；如果不滿足廣播條件，則報錯。In[30]:a=np.random.random_integers(1,5,(5,4))

In[31]:a

Out[31]:

array([[3,1,3,2],

[1,1,4,2],

[1,3,5,4],

[3,3,3,4],

[5,1,5,1]])

In[32]:b=np.arange(4)

In[33]:b

Out[33]:array([0,1,2,3])

In[34]:a+b#5′4數組與1′4數組的加法，滿足廣播條件

Out[34]:

array([[3,2,5,5],

[1,

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

scikit learn機器學習（常用算法原理及編程實戰(zhàn)）上部

文檔簡介

溫馨提示

最新文檔

評論

scikit learn機器學習（常用算法原理及編程實戰(zhàn)）上部

文檔簡介

溫馨提示

最新文檔

評論

相關文檔