AI:人工智能概念之Google發(fā)布機器學習術語表中英對照-持續(xù)更新ML、DL相關概念2018年4月_第1頁
AI:人工智能概念之Google發(fā)布機器學習術語表中英對照-持續(xù)更新ML、DL相關概念2018年4月_第2頁
AI:人工智能概念之Google發(fā)布機器學習術語表中英對照-持續(xù)更新ML、DL相關概念2018年4月_第3頁
AI:人工智能概念之Google發(fā)布機器學習術語表中英對照-持續(xù)更新ML、DL相關概念2018年4月_第4頁
AI:人工智能概念之Google發(fā)布機器學習術語表中英對照-持續(xù)更新ML、DL相關概念2018年4月_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Al:人工智能概念之《Google發(fā)布機器學習術語表(中英對

照)》一一持續(xù)更新ML、DL相關概念2018年4月!

AI:人工智能概念之《Google發(fā)布機器學習術語表(中英對照)》一一持續(xù)更新

ML、DL相關概念2018年4月!

相關文章

A1:人工智能概念之《Google發(fā)布機器學習術語表(中英對照)》一一持續(xù)更新

ML、DL相關概念2018年4月!

A1:人工智能概念之機器學習、深度學習中常見關鍵詞、參數等中英文對照(絕對

干貨)

目錄

機器學習術語表

A

A/B測試(A/Btesting)

準確率(accuracy)

激活函數(activationfunction)

AdaGrad

ROC曲線下面積(AUC,AreaundertheROCCurve)

B

反向傳播算法(backpropagation)

基準(baseline)

批次(batch)

批次規(guī)模(batchsize)

偏差(bias)

二元分類(binaryclassification)

分箱(binning)

分桶(bucketing)

C

校準層(calibrationlayer)

候選采樣(candidatesampling)

分類數據(categoricaldata)

檢查點(checkpoint)

類別(class)

分類不平衡的數據集(class?imbalanceddataset)

分類模型(classificationmodel)

分類閾值(classificationthreshold)

協同過濾(collaborativefiltering)

混淆矩陣(confusionmatrix)

連續(xù)特征(continuousfeature)

收斂(convergence)

凸函數(convexfunction]

凸優(yōu)化(convexoptimization)

凸集(convexset)

成本(cost)

交叉燧(cross-entropy)

自定義Estimator(customEstimator)

D

數據集(dataset)

DatasetAPI(tf.data)

決策邊界(decisionboundary)

密集層(denselayer)

深度模型(deepmodel)

密集特征(densefeature)

衍生特征(derivedfeature)

離散特征(discretefeature)

丟棄正則化(dropoutregularization)

動態(tài)模型(dynamicmodel)

E

早停法(earlystopping)

嵌套(embeddings)

經驗風險最小化(ERM,empiricalriskminimization)

集成學習(ensemble)

周期(epoch)

Estimator

樣本(example)

F

假負例(FN,falsenegative)

假正例(FP,falsepositive)

假正例率(falsepositiverate,簡稱FP率)

特征(feature)

特征列(FeatureColumns)

特征組合(featurecross)

特征工程(featureengineering)

特征集(featureset)

特征規(guī)范(featurespec)

完整softmax(fullsoftmax)

全連接層(fullyconnectedlayer)

G

泛化(generalization)

廣義線性模型(generalizedlinearmodel)

梯度(gradient)

梯度裁剪(gradientclipping)

梯度下降法(gradientdescent)

圖(graph)

H

啟發(fā)法(heuristic)

隱藏層(hiddenlayer)

合頁損失函數(hingeloss)

維持數據(holdoutdata)

超參數(hyperparameter)

超平面(hyperplane)

I

獨立同分布(i.i.d,independentlyandidenticallydistributed)

推斷(inference)

輸入函數(inputfunction)

輸入層(inputlayer)

實例(instance)

可解釋性(interpretability)

評分者間一致性信度(inter-rateragreement)

迭代(iteration)

K

Keras

核支持向量機(KSVM,KernelSupportVectorMachines)

L

LI損失函數(Liloss)

L1正則化(Liregularization)

L2損失函數(L2loss)

L2正則化.2regularization)

標簽(label)

有標簽樣本(labeledexample)

lambda

層(layer)

LayersAPI(tf.layers)

學習速率(learningrate)

最小二乘回歸(leastsquaresregression]

線性回歸(linearregression)

邏輯回歸(logisticregression)

對數損失函數(LogLoss)

損失(Loss)

M

機器學習(machinelearning)

均方誤差(MSE,MeanSquaredError)

指標(metric)

MetricsAPI(tf.metrics)

小批次(mini-batch)

小批次隨機梯度下降法(SGD,mini-batchstochasticgradientdescent)

ML

模型(model)

模型訓練(modeltraining)

動量(Momentum)

多類別分類(multi-classclassification)

多項分類(multinomialclassification)

N

NaN陷阱(NaNtrap)

負類別(negativeclass)

神經網絡(neuralnetwork)

神經元(neuron)

節(jié)點(node)

標準化(normalization)

數值數據(numericaldata)

Numpy

0

目標(objective)

離線推斷(offlineinference)

one-hot編石馬(one?hotencoding)

一對多(one-vs.-all]

在線推斷(onlineinference)

操作(op,Operation]

優(yōu)化器(optimizer)

離群值(outlier)

輸出層(outputlayer)

過擬合(overfitting)

P

Pandas

參數(parameter)

參數月艮務器(PS,ParameterServer)

參數更新(parameterupdate)

偏導數(partialderivative)

分區(qū)策略(partitioningstrategy)

性能(performance)

困惑度(perplexity)

流水線(pipeline)

正類別(positiveclass)

精確率(precision)

預測(prediction)

預測偏差(predictionbias)

預創(chuàng)建的Estimator(pre-madeEstimator)

預訓練模型(pre-trainedmodel)

先驗信念(priorbelief)

Q

隊列(queue)

R

等級(rank)

評分者(rater)

召回率(recall)

修正線性單元(ReLU,RectifiedLinearUnit)

回歸模型(regressionmodel)

正則化(regularization)

正則化率(regularizationrate)

表示法(representation)

受試者工作特征曲線(receiveroperatingcharacteristic,簡稱ROC曲線)

根目錄(rootdirectory)

均方根誤差(RMSE,RootMeanSquaredError)

S

SavedModel

Saver

縮放(scaling)

scikit-learn

半監(jiān)督式學習(semLsupervisedlearning)

序列模型(sequencemodel)

會話(session)

S型函數(sigmoidfunction)

softmax

稀疏特征(sparsefeature)

平方合頁損失函數(squaredhingeloss)

平方損失函數(squaredloss]

靜態(tài)模型(staticmodel)

平穩(wěn)性(stationarity)

步(step)

步長(stepsize]

隨機梯度下降法(SGD,stochasticgradientdescent)

結構風險最小化(SRM,structuralriskminimization]

總結(summary)

監(jiān)督式機器學習(supervisedmachinelearning)

合成特征(syntheticfeature)

T

目標(target)

時態(tài)數據(temporaldata)

張量(Tensor)

張量處理單元(TPU,TensorProcessingUnit)

張量等級(Tensorrank)

張量形狀(Tensorshape)

張量大小(Tensorsize)

TensorBoard

TensorFlow

TensorFlowPlayground

TensorFlowServing

測試集(testset]

tf.Example

時間序列分析(timeseriesanalysis)

訓練(training)

訓練集(trainingset)

轉移學習(transferlearning)

真負例(TN,truenegative)

真正例(TP,truepositive)

真正例率(truepositiverate,簡稱TP率)

U

無標簽樣本(unlabeledexample)

非監(jiān)督式機器學習(unsupervisedmachinelearning)

V

驗證集(validationset)

W

權重(weight)

寬度模型(widemodel)

機器學習術語表

本術語表中列出了一般的機器學習術語和TensorFlow專用術語的定義。

A

A/B測試(A/Btesting)

一種統計方法,用于將兩種或多種技術進行比較,通常是將當前采用的技術與新技

術進行比較。A/B測試不僅旨在確定哪種技術的效果更好,而且還有助于了解相應

差異是否具有顯著的統計意義。A/B測試通常是采用一種衡量方式對兩種技術進行

比較,但也適用于任意有限數量的技術和衡量方式。

準確率(accuracy)

分類模型的正確預測所占的比例。在多類別分類中,準確率的定義如下:

準確率正確的預測數樣本總數準確率=正確的預測數樣本總數

在二元分類中,準確率的定義如下:

準確率真正例數真負例數樣本總數準確率=真正例數+真負例數樣本總數

請參閱真正例和真負例。

激活函數(activationfunction)

一種函數(例如ReLU或S型函數),用于對上一層的所有輸入求加權和,然后生

成一個輸出值(通常為非線性值),并將其傳遞給下一層。

AdaGrad

一種先進的梯度下降法,用于重新調整每個參數的梯度,以便有效地為每個參數指

定獨立的學習速率一如需查看完整的解釋,請參閱這篇論文。

ROC曲線下面積(AUC,AreaundertheROCCurve)

一種會考慮所有可能分類閾值的評估指標。

ROC曲線下面積是,對于隨機選擇的正類別樣本確實為正類別,以及隨機選擇的

負類別樣本為正類別,分類器更確信前者的概率。

B

反向傳播算法(backpropagation)

在神經網絡上執(zhí)行梯度下降法的主要算法。該算法會先按前向傳播方式計算(并緩

存)每個節(jié)點的輸出值,然后再按反向傳播遍歷圖的方式計算損失函數值相對于每

個參數的偏導數。

基準(baseline)

一種簡單的模型或啟發(fā)法,用作比較模型效果時的參考點?;鶞视兄谀P烷_發(fā)者

針對特定問題量化最低預期效果。

批次(batch)

模型訓練的一次迭代(即一次梯度更新)中使用的樣本集。

另請參閱批次規(guī)模。

批次規(guī)模(batchsize)

一個批次中的樣本數。例如,SGD的批次規(guī)模為1,而小批次的規(guī)模通常介于10

到1000之間。批次規(guī)模在訓練和推斷期間通常是固定的;不過,TensorFlow允

許使用動態(tài)批次規(guī)模。

偏差(bias)

距離原點的截距或偏移。偏差(也稱為偏差項)在機器學習模型中以b或w0表示。

例如,在下面的公式中,偏差為b:

y,=b+wlxl+w2x2+...wnxn

請勿與預測偏差混淆。

二元分類(binaryclassification)

一種分類任務,可輸出兩種互斥類別之一。例如,對電子郵件進行評估并輸出“垃

圾郵件”或“非垃圾郵件”的機器學習模型就是一個二元分類器。

分箱(binning)

請參閱分桶。

分桶(bucketing)

將一個特征(通常是連續(xù)特征)轉換成多個二元特征(稱為桶或箱),通常是根據

值區(qū)間進行轉換。例如,您可以將溫度區(qū)間分割為離散分箱,而不是將溫度表示成

單個連續(xù)的浮點特征。假設溫度數據可精確到小數點后一位,則可以將介于0。到

15.0度之間的所有溫度都歸入一個分箱,將介于15.1到30.0度之間的所有溫度歸

入第二個分箱,并將介于30.1到50.0度之間的所有溫度歸入第三個分箱。

C

校準層(calibrationlayer)

一種預測后調整,通常是為了降低預測偏差。調整后的預測和概率應與觀察到的標

簽集的分布一致。

候選采樣(candidatesampling)

一種訓練時進行的優(yōu)化,會使用某種函數(例如softmax)針對所有正類別標簽計

算概率,但對于負類別標簽,則僅針對其隨機樣本計算概率。例如,如果某個樣本

的標簽為“小獵犬"和"狗",則候選采樣將針對“小獵犬"和"狗"類別輸出以及其他類

別(貓、棒棒糖、柵欄)的隨機子集計算預測概率和相應的損失項。這種采樣基于

的想法是,只要正類別始終得到適當的正增強,負類別就可以從頻率較低的負增強

中進行學習,這確實是在實際中觀察到的情況。候選采樣的目的是,通過不針對所

有負類別計算預測結果來提高計算效率。

分類數據(categoricaldata)

一種特征,擁有一組離散的可能值。以某個名為housestyle的分類特征為例,該

特征擁有一組離散的可能值(共三個),即Tudor,ranch,colonial。通過

將housestyle表示成分類數據,相應模型可以學習Tudor、ranch和colonial分

別對房價的影響。

有時,離散集中的值是互斥的,只能將其中一個值應用于指定樣本。例如,car

maker分類特征可能只允許一個樣本有一個值(Toyota)。在其他情況下,則可以應

用多個值。一輛車可能會被噴涂多種不同的顏色,因此,carcolor分類特征可能

會允許單個樣本具有多個值(例如red和white)。

分類特征有時稱為離散特征。

與數值數據相對。

檢查點(checkpoint)

一種數據,用于捕獲模型變量在特定時間的狀態(tài)。借助檢查點,可以導出模型權重,

跨多個會話執(zhí)行訓練,以及使訓練在發(fā)生錯誤之后得以繼續(xù)(例如作業(yè)搶占)。請

注意,圖本身不包含在檢查點中。

類別(class)

為標簽枚舉的一組目標值中的一個。例如,在檢測垃圾郵件的:元分類模型中,兩

種類別分別是“垃圾郵件"和"非垃圾郵件”。在識別狗品種的多類別分類模型中,類

別可以是“貴賓犬"、"小獵犬"、"哈巴犬”等等。

分類不平衡的數據集(class-imbalanceddataset)

一種二元分類問題,在此類問題中,兩種類別的標簽在出現頻率方面具有很大的差

距。例如,在某個疾病數據集中,0.0001的樣本具有正類別標簽,0.9999的樣本

具有負類別標簽,這就屬于分類不平衡問題;但在某個足球比賽預測器中,0.51

的樣本的標簽為其中一個球隊贏,049的樣本的標簽為另一個球隊贏,這就不屬

于分類不平衡問題。

分類模型(classificationmodel)

一種機器學習模型,用于區(qū)分兩種或多種離散類別。例如,某個自然語言處理分類

模型可以確定輸入的句子是法語、西班牙語還是意大利語。請與回歸模型進行比較。

分類閾值(classificationthreshold)

一種標量值條件,應用于模型預測的得分,旨在將止類別與負類別區(qū)分開。將邏輯

回歸結果映射到二元分類時使用。以某個邏輯回歸模型為例,該模型用于確定指定

電子郵件是垃圾郵件的概率。如果分類閾值為0.9,那么邏輯回歸值高于0.9的電

子郵件將被歸類為“垃圾郵件",低于0.9的則被歸類為“非垃圾郵件”。

協同過濾(collaborativefiltering)

根據很多其他用戶的興趣來預測某位用戶的興趣。協同過濾通常用在推薦系統中。

混淆矩陣(confusionmatrix)

一種NxN表格,用于總結分類模型的預測成效;即標簽和模型預測的分類之間的

關聯。在混淆矩陣中,一個軸表示模型預測的標簽,另一個軸表示實際標簽。N表

示類別個數。在二元分類問題中,N=2。例如,下面顯示了一個二元分類問題的混

淆矩陣示例:

腫瘤(預測的標簽)非腫瘤(預測的標簽)

腫瘤(實際標簽)181

非腫瘤(實際標簽)6452

上面的混淆矩陣顯示,在19個實際有腫瘤的樣本中,該模型正確地將18個歸類

為有腫瘤(18個真正例),錯誤地將1個歸類為沒有腫瘤(1個假負例)。同樣,

在458個實際沒有腫瘤的樣本中,模型歸類正確的有452個(452個真負例),

歸類錯誤的有6個(6個假正例)。

多類別分類問題的混淆矩陣有助于確定出錯模式。例如,某個混淆矩陣可以揭示,

某個經過訓練以識別手寫數字的模型往往會將4錯誤地預測為9,將7錯誤地預測

為1?;煜仃嚢嬎愀鞣N效果指標(包括精確率和召回率)所需的充足信息、。

連續(xù)特征(continuousfeature)

一種浮點特征,可能值的區(qū)間不受限制。與離散特征相對。

收斂(convergence)

通俗來說,收斂通常是指在訓練期間達到的一種狀態(tài),即經過一定次數的迭代之后,

訓練損失和驗證損失在每次迭代中的變化都非常小或根本沒有變化。也就是說,如

果采用當前數據進行額外的訓練將無法改進模型,模型即達到收斂狀態(tài)。在深度學

習中,損失值有時會在最終下降之前的多次迭代中保持不變或幾乎保持不變,暫時

形成收斂的假象。

另請參閱『停法。

另請參閱Boyd和Vandenberghe合著的ConvexOptimization(《凸優(yōu)化》)。

凸函數(convexfunction)

一種函數,函數圖像以上的區(qū)域為凸集。典型凸函數的形狀類似于字母u。例如,

以下都是凸函數:

相反,以下函數則不是凸函數。請注意圖像上方的區(qū)域如何不是凸集:

嚴格凸函數只有一個局部最低點,該點也是全局最低點。經典的U形函數都是嚴

格凸函數。不過,有些凸函數(例如直線)則不是這樣。

很多常見的損失函數(包括下列函數)都是凸函數:

L2損失函數

對數損失函數

L1正則化

?L2正則化

梯度下降法的很多變體都一定能找到一個接近嚴格凸函數最小值的點。同樣,隨機

梯度下降法的很多變體都有很高的可能性能夠找到接近嚴格凸函數最小值的點(但

并非一定能找到)。

兩個凸函數的和(例如L2損失函數+L1正則化)也是凸函數。

深度模型絕不會是凸函數。值得注意的是,專門針對凸優(yōu)化設計的算法往往總能在

深度網絡上找到非常好的解決方案,雖然這些解決方案并不一定對應于全局最小值。

凸優(yōu)化(convexoptimization)

使用數學方法(例如梯度下降法)尋找凸函數最小值的過程。機器學習方面的大量

研究都是專注于如何通過公式將各種問題表示成凸優(yōu)化問題,以及如何更高效地解

決這些問題。

如需完整的詳細信息,請參閱Boyd和Vandenberghe合著的ConvexOptimization

(《凸優(yōu)化》)。

凸集(convexset)

歐幾里得空間的一個子集,其中任意兩點之間的連線仍完全落在該子集內。例如,

下面的兩個圖形都是凸集:

相反,下面的兩個圖形都不是凸集:

成本(cost)

是損失的同義詞。

交叉燧(cross-entropy)

對數損失函數向多類別分類問題進行的一種泛化。交叉燧可以量化兩種概率分布之

間的差異。另請參閱困惑度。

自定義Estimator(customEstimator)

您按照這些說明自行編寫的Estimatoro

與預創(chuàng)建的Estimator相對。

D

數據集(dataset)

一組樣本的集合。

DatasetAPI(tf.data)

一種高級別的TensorFlowAPI,用于讀取數據并將其轉換為機器學習算法所需的

格式。tf.data.Dataset對象表示一系列元素,其于每個元素都包含一個或多個張

量。tf.data.Iterator對象可獲取Dataset中的元素。

如需詳細了解DatasetAPI,請參閱《TensorFlow編程人員指南》中的導入數據。

決策邊界(decisionboundary)

在:元分類或多類別分類問題中,模型學到的類別之間的分界線。例如,在以下表

示某個二元分類問題的圖片中,決策邊界是橙色類別和藍色類別之間的分界線:

密集層(denselayer)

是全連接層的同義詞。

深度模型(deepmodel)

一種神經網絡,其中包含多個隱藏層。深度模型依賴于可訓練的非線性關系。

與寬度模型相對。

密集特征(densefeature)

一種大部分數值是非零值的特征,通常是一個浮點值張量。參照稀疏特征。

衍生特征(derivedfeature)

是介成特征的同義詞。

離散特征(discretefeature)

一種特征,包含有限個可能值。例如,某個值只能是"動物"、"蔬菜"或"礦物"的特

征便是一個離散特征(或分類特征)。與連續(xù)特征相對。

丟棄正則化(dropoutregularization)

一種形式的正則化,在訓練神經網絡方面非常有用。丟棄正則化的運作機制是,在

神經網絡層的一個梯度步長中移除隨機選擇的固定數量的單元。丟棄的單元越多,

正則化效果就越強。這類似于訓練神經網絡以模擬較小網絡的指數級規(guī)模集成學習。

如需完整的詳細信息,請參閱Dropout:ASimpleWaytoPreventNeuralNetworks

fromOverfitting(《丟棄:一種防止神經網絡過擬合的簡單方法》)。

動態(tài)模型(dynamicmodel)

一種模型,以持續(xù)更新的方式在線接受訓練。也就是說,數據會源源不斷地進入這

種模型。

E

早停法(earlystopping)

一種正則化方法,涉及在訓練損失仍可以繼續(xù)減少之前結束模型訓練。使用早停法

時.,您會在基于驗證數據集的損失開始增加(也就是泛化效果變差)時結束模型訓

練。

嵌套(embeddings)

一種分類特征,以連續(xù)值特征表示。通常,嵌套是指將高維度向量映射到低維度的

空間。例如,您可以采用以下兩種方式之一來表示英文句子中的單詞:

?表示成包含百萬個元素(高維度)的稀疏向量,其中所有元素都是整數。向量

中的每個單元格都表示一個單獨的英文單詞,單元格中的值表示相應單詞在句

子中出現的次數。由于單個英文句子包含的單詞不太可能超過50個,因此向

量中幾乎每個單元格都包含0o少數非0的單元格中將包含一個非常小的整數

(通常為1),該整數表示相應單詞在句子中出現的次數。

?表示成包含數百個元素(低維度)的密集向量,其中每個元素都包含一個介于

0到1之間的浮點值。這就是一種嵌套。

在TensorFlow中,會按反向傳播損失訓練嵌套,和訓練神經網絡中的任何其他參

數時一樣。

經驗風險最小化(ERM,empiricalriskminimization)

用于選擇可以將基于訓練集的損失降至最低的模型函數。與結構風險最小化相對。

集成學習(ensemble)

多個模型的預測結果的并集。您可以通過以下一項或多項來創(chuàng)建集成學習:

不同的初始化

不同的超參數

不同的整體結構

深度模型和寬度模型屬于一種集成學習。

周期(epoch)

在訓練時,整個數據集的一次完整遍歷,以便不漏掉任何一個樣本。因此,一個周

期表示(N/批次規(guī)模)次訓練迭代,其中N是樣本總數。

Estimator

tf.Estimator類的一個實例,用于封裝負責構建TensorFlow圖并運行

TensorFlow會話的邏輯。您可以創(chuàng)建自己的『I定義Estimator(如需相關介紹,請

點擊此處),也可以將其他人預創(chuàng)建的Estimator實例化。

樣本(example)

數據集的一行。一個樣本包含一個或多個特征,此外還可能包含一個標簽。另請參

閱有標簽樣本和無標簽樣本。

F

假負例(FN,falsenegative)

被模型錯誤地預測為負類別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件

(負類別),但該電子郵件其實是垃圾郵件。

假正例(FP,falsepositive)

被模型錯誤地預測為正類別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件

(正類別),但該電子郵件其實不是垃圾郵件。

假正例率(falsepositiverate,簡稱FP率)

ROC曲線中的x軸。FP率的定義如下:

假正例率假正例數假正例數真負例數假正例率=假正例數假正例數+真負例數

特征(feature)

在進行預測時使用的輸入變量。

特征歹U(Featurecolumns)

一組相關特征,例如用戶可能居住的所有國家/地區(qū)的集合。樣本的特征列中可能

包含一個或多個特征。

TensorFlow中的特征列內還封裝了元數據,例如:

?特征的數據類型

?特征是固定長度還是應轉換為嵌套

特征列可以包含單個特征。

“特征列”是Google專用的術語。特征列在Yahoo/Microsoft使用的VW系統中稱為

“命名空間”,也稱為場。

特征組合(featurecross)

通過將單獨的特征進行組合(相乘或求笛卡爾積)而形成的合成特征。特征組合有

助于表示非線性關系。

特征工程(featureengineering)

指以下過程:確定哪些特征可能在訓練模型方面非常有用,然后將日志文件及其他

來源的原始數據轉換為所需的特征。在TensorFlow中,特征工程通常是指將原始

日志文件條目轉換為tf.Exampleprotobuffer。另請參閱tf.Transformo

特征工程有時稱為特征提取。

特征集(featureset)

訓練機器學習模型時采用的一組特征。例如,對于某個用于預測房價的模型,郵政

編碼、房屋面積以及房屋狀況可以組成一個簡單的特征集。

特征規(guī)范(featurespec)

用于描述如何從tf.Exampleprotobuffer提取特征數據。由于tf.Exampleproto

buffer只是一個數據容器,因此您必須指定以下內容:

?要提取的數據(即特征的鍵)

?數據類型(例如float或int)

?長度(固定或可變)

EstimatorAPI提供了一些可用來根據給定FeatureColumns列表生成特征規(guī)范的工

具。

完整softmax(fullsoftmax)

請參閱softmax。與候選采樣相對。

全連接層(fullyconnectedlayer)

一種隱藏層,其中的每個節(jié)點均與下一個隱藏層中的每個節(jié)點相連。

全連接層又稱為密集層。

G

泛化(generalization)

指的是模型依據訓練時采用的數據,針對以前未見過的新數據做出正確預測的能力。

廣義線性模型(generalizedlinearmodel)

最小二乘回歸模型(基于高斯噪聲)向其他類型的模型(基于其他類型的噪聲,例

如泊松噪聲或分類噪聲)進行的一種泛化。廣義線性模型的示例包括:

?邏輯回歸

?多類別回歸

?最小二乘回歸

可以通過凸優(yōu)化找到廣義線性模型的參數。

廣義線性模型具有以下特性:

?最優(yōu)的最小二乘回歸模型的平均預測結果等于訓練數據的平均標簽。

?最優(yōu)的邏輯回歸模型預測的平均概率等于訓練數據的平均標簽。

廣義線性模型的功能受其特征的限制。與深度模型不同,廣義線性模型無法"學習

新特征”。

梯度(gradient)

偏導數相對于所有自變量的向量。在機器學習中,梯度是模型函數偏導數的向量。

梯度指向最速上升的方向。

梯度裁剪(gradientclipping)

在應用梯度值之前先設置其上限。梯度裁剪有助于確保數值穩(wěn)定性以及防止梯度爆

炸。

梯度下降法(gradientdescent)

一種通過計算并且減小梯度將損失降至最低的技術,它以訓練數據為條件,來計算

損失相對于模型參數的梯度。通俗來說,梯度下降法以迭代方式調整參數,逐漸找

到權重和偏差的最佳組合,從而將損失降至最低。

圖(graph)

TensorFlow中的一種計算規(guī)范。圖中的節(jié)點表示操作。邊緣具有方向,表示將某

項操作的結果(一個張量)作為一個操作數傳遞給另一項操作??梢允?/p>

用TensorBoard直觀呈現圖。

H

啟發(fā)法(heuristic)

一種非最優(yōu)但實用的問題解決方案,足以用于進行改進或從中學習。

隱藏層(hiddenlayer)

神經網絡中的合成層,介于輸入層(即特征)和輸出層(即預測)之間。神經網絡

包含一個或多個隱藏層。

合頁損失函數(hingeloss)

一系列用于分類的損失函數,旨在找到距離每個訓練樣本都盡可能遠的決策邊界,

從而使樣本和邊界之間的裕度最大化。KSVM使用合頁損失函數(或相關函數,例

如平方合頁損失函數)。對于二元分類,合頁損失函數的定義如下:

loss=max[0,l-[y,*y))

其中"y"'表示分類器模型的原始輸出:

y'=b+wlxl+w2x2+...wnxn

“y”表示真標簽,值為-1或+1。

因此,合頁損失與(y*y')的關系圖如下所示:

維持數據(holdoutdata)

訓練期間故意不使用("維持")的樣本。驗證數據集和測試數據集都屬于維持數據。

維持數據有助于評估模型向訓練時所用數據之外的數據進行泛化的能力。與基于訓

練數據集的損失相比,基于維持數據集的損失有助于更好地估算基于未見過的數據

集的損失。

超參數(hyperparameter)

在模型訓練的連續(xù)過程中,您調節(jié)的“旋鈕”。例如,學習速率就是一種超參數。

與參數相對。

超平面(hyperplane)

將一個空間劃分為兩個子空間的邊界。例如,在二維空間中,直線就是一個超平面,

在三維空間中,平面則是一個超平面。在機器學習中更典型的是:超平面是分隔高

維度空間的邊界。核支持向量機利用超平面將正類別和負類別區(qū)分開來(通常是在

極高維度空間中)。

獨立同分布(i.i.d,independentlyandidenticallydistributed)

從不會改變的分布中提取的數據,其中提取的每個值都不依賴于之前提取的值。

i.id是機器學習的理想氣體-一種實用的數學結構,但在現實世界中幾乎從未發(fā)現

過。例如,某個網頁的訪問者在短時間內的分布可能為i.id,即分布在該短時間內

沒有變化,且一位用戶的訪問行為通常與另一位用戶的訪問行為無關。不過,如果

將時間窗口擴大,網頁訪問者的分布可能呈現出季節(jié)性變化。

推斷(inference)

在機器學習中,推斷通常指以下過程:通過將訓練過的模型應用于無標簽樣本來做

出預測。在統計學中,推斷是指在某些觀測數據條件下擬合分布參數的過程。(請

參閱維基百科中有關統計學推斷的文章。)

輸入函數(inputfunction)

在TensorFIow中,用于將輸入數據返回到Estimator的訓練、評估或預測方法的

函數。例如,訓練輸入函數用于返回訓練集中的批次特征和標簽。

輸入層(inputlayer)

神經網絡中的第一層(接收輸入數據的層)。

實例(instance)

是樣本的同義詞。

可解釋性(interpretability)

模型的預測可解釋的難易程度。深度模型通常不可解釋,也就是說,很難對深度模

型的不同層進行解釋。相比之下,線性回歸模型和寬度模型的可解釋性通常要好得

多。

評分者間一致性信度(inter-rateragreement)

一種衡量指標,用于衡量在執(zhí)行某項任務時評分者達成一致的頻率。如果評分者未

達成一致,則可能需要改進任務說明。有時也稱為注釋者間一致性信度或評分者間

可靠性信度。另請參閱Cohen!kappa(最熱門的評分者間一致性信度衡量指標之

一)O

迭代(iteration)

模型的權重在訓練期間的一次更新。迭代包含計算參數在單個批量數據上的梯度損

失。

K

Keras

一種熱門的Python機器學習API。Keras能夠在多種深度學習框架上運行,其中包

括TensorFlow(在該框架上,Keras作為tf.keras提供)。

核支持向量機(KSVM,KernelSupportVectorMachines)

一種分類算法,旨在通過將輸入數據向量映射到更高維度的空間,來最大化止類別

和負類別之間的裕度。以某個輸入數據集包含一百個特征的分類問題為例。為了最

大化正類別和負類別之間的裕度,KSVM可以在內部將這些特征映射到百萬維度的

空間。KSVM使用合頁損失函數。

L1損失函數(Liloss)

一種損失函數,基于模型預測的值與標簽的實際值之差的絕對值。與L2損失函數

相比,L1損失函數對離群值的敏感性弱一些。

L1正則化(Liregularization)

一種正則化,根據權重的絕對值的總和來懲罰權重。在依賴稀疏特征的模型中,

L1正則化有助于使不相關或幾乎不相關的特征的權重正好為0,從而將這些特征

從模型中移除。與L2正則化相對。

損失函數

L2(L2loss)

請參閱平方損失函數。

正則化

L2(L2regularization)

一種正則化,根據權重的平方和來懲罰權重。L2正則化有助于使離群值(具有較

大正值或較小負值)權重接近于0,但又不正好為0。(與L1正則化相對。)在

線性模型中,L2正則化始終可以改進泛化。

標簽(label)

在監(jiān)督式學習中,標簽指樣本的“答案"或"結果”部分。有標簽數據集中的每個樣本

都包含一個或多個特征以及一個標簽。例如,在房屋數據集中,特征可以包括臥室

數、衛(wèi)生間數以及房齡,而標簽則可以是房價。在垃圾郵件檢測數據集中,特征可

以包括主題行、發(fā)件人以及電子郵件本身,而標簽則可以是“垃圾郵件"或"非垃圾

郵件"。

有標簽樣本(labeledexample)

包含特征和標簽的樣本。在監(jiān)督式訓練中,模型從有標簽樣本中進行學習。

lambda

是正則化率的同義詞。

(多含義術語,我們在此關注的是該術語在正則化中的定義。)

層(layer)

神經網絡中的一組神經元,處理一組輸入特征,或一組神經元的輸出。

此外還指TensorFlow中的抽象層。層是Python函數,以張量和配置選項作為輸

入,然后生成其他張量作為輸出。當必要的張量組合起來,用戶便可以通過模型函

數將結果轉換為Estimatoro

LayersAPI(tf.layers)

一種TensorFlowAPI,用于以層組合的方式構建深度神經網絡。通過LayersAPI,

您可以構建不同類型的層,例如:

?通過".layers.Dense構建全連接層。

?通過tf.layers.Conv2D構建卷積層。

在編寫H定義Estimator時,您可以編寫"層"對象來定義所有隱藏層的特征。

LayersAPI遵循[Keras](#Keras)layersAPI規(guī)范。也就是說,除了前綴不同以外,

LayersAPI中的所有函施均與KeraslayersAPI中的對應函數具有相同的名稱和簽

名。

學習速率(learningrate)

在訓練模型時用于梯度下降的一個變量。在每次迭代期間,梯度下降法都會將學習

速率與梯度相乘。得出的乘積稱為梯度步長。

學習速率是一個重要的超參數。

最小二乘回歸(leastsquaresregression)

一種通過最小化L2損失訓練出的線性回歸模型。

線性回歸(linearregression)

一種回歸模型,通過將輸入特征進行線性組合,以連續(xù)值作為輸出。

邏輯回歸(logisticregression)

一種模型,通過將S型函數應用于線性預測,生成分類問題中每個可能的離散標簽

值的概率。雖然邏輯回歸經常用于二元分類問題,但也可用于多類別分類問題(其

叫法變?yōu)槎囝悇e邏輯回歸或多項回歸)。

對數損失函數(LogLoss)

二元邏輯回歸中使用的損失函數。

損失(Loss)

一種衡量指標,用于衡量模型的預測偏離其標簽的程度。或者更悲觀地說是衡量模

型有多差。要確定此值,模型必須定義損失函數。例如,線性回歸模型通常將均方

誤差用于損失函數,而邏輯回歸模型則使用對數損失函數。

M

機器學習(machinelearning)

一種程序或系統,用于根據輸入數據構建(訓練)預測模型。這種系統會利用學到

的模型根據從分布(訓練該模型時使用的同一分布)中提取的新數據(以前從未見

過的數據)進行實用的預測。機器學習還指與這些程序或系統相關的研究領域。

均方誤差(MSE,MeanSquaredError)

每個樣本的平均平方損失。MSE的計算方法是平方損失除以樣本數。TensorFlow

Playground顯示的“訓練損失”值和"測試損失"值都是MSE。

指標(metric)

您關心的一個數值??赡芸梢砸部赡懿豢梢灾苯釉跈C器學習系統中得到優(yōu)化。您的

系統嘗試優(yōu)化的指標稱為目標。

MetricsAPI(tf.metrics)

一種用于評估模型的TensorFlowAPI。例如,tf.metrics.accuracy用于確定模型

的預測與標簽匹配的頻率。在編寫自定義Estimator時,,您可以調用MetricsAPI

函數來指定應如何評估您的模型。

小批次(mini-batch)

從訓練或推斷過程的一次迭代中一起運行的整批樣本內隨機選擇的一小部分。小批

次的規(guī)模通常介于10到1000之間。與基于完整的訓練數據計算損失相比,基于

小批次數據計算損失要高效得多。

小批次隨機梯度下降法(SGD,mini-batchstochasticgradient

descent)

一種采用小批次樣本的梯度下降法。也就是說,小批次SGD會根據一小部分訓練

數據來估算梯度。VanillaSGD使用的小批次的規(guī)模為1。

ML

機器學習的縮寫。

模型(model)

機器學習系統從訓練數據學到的內容的表示形式。多含義術語,可以理解為下列兩

種相關含義之一:

?一種TensorFlow圖,用于表示預測計算結構。

?該TensorFlow圖的特定權重和偏差,通過訓練決定。

模型訓練(modeltraining)

確定最佳模型的過程。

動量(Momentum)

一種先進的梯度下降法,其中學習步長不僅取決于當前步長的導數,還取決于之前

一步或多步的步長的導數。動量涉及計算梯度隨時間而變化的指數級加權移動平均

值,與物理學中的動量類似。動量有時可以防止學習過程被卡在局部最小的情況。

多類別分類(multi-classclassification)

區(qū)分兩種以上類別的分類問題。例如,楓樹大約有128種,因此,確定楓樹種類

的模型就屬于多類別模型。反之,僅將電子郵件分為兩類(“垃圾郵件”和“非垃圾

郵件”)的模型屬于二元分類模型。

多項分類(multinomialclassification)

是多類別分類的同義詞。

N

NaN陷阱(NaNtrap)

模型中的一個數字在訓練期間變成NaN,這會導致模型中的很多或所有其他數字

最終也會變成NaN。

NaN是“非數字”的縮寫。

負類別(negativeclass)

在二元分類中,一種類別稱為正類別,另一種類別稱為負類別。正類別是我們要尋

找的類別,負類別則是另一種可能性。例如,在醫(yī)學檢查中,負類別可以是“非腫

瘤”。在電子郵件分類器中,負類別可以是“非垃圾郵件”。另請參閱正類別。

神經網絡(neuralnetwork)

一種模型,靈感來源于腦部結構,由多個層構成(至少有一個是隱藏層),每個層

都包含簡單相連的單元或神經元(具有非線性關系)。

神經元(neuron)

神經網絡中的節(jié)點,通常是接收多個輸入值并生成一個輸出值。神經元通過將激活

函數(非線性轉換)應用于輸入值的加權和來計算輸出值。

節(jié)點(node)

多含義術語,可以理解為下列兩種含義之一:

?隱藏層中的神經元。

?TensorFlow國中的操作。

標準化(normalization)

將實際的值區(qū)間轉換為標準的值區(qū)間(通常為-1到+1或0到1)的過程。例如,

假設某個特征的自然區(qū)間是800到6000。通過減法和除法運算,您可以將這些值

標準化為位于-1到+1區(qū)間內。

另請參閱縮放。

數值數據(numericaldata)

用整數或實數表示的特征。例如,在房地產模型中,您可能會用數值數據表示房子

大?。ㄒ云椒接⒊呋蚱椒矫诪閱挝唬H绻脭抵禂祿硎咎卣?,則可以表明特征

的值相互之間具有數學關系,并且與標簽可能也有數學關系。例如,如果用數值數

據表示房子大小,則可以表明面積為200平方米的房子是面積為100平方米的房

子的兩倍。此外,房子面積的平方米數可能與房價存在一定的數學關系。

并非所有整數數據都應表示成數值數據。例如,世界上某些地區(qū)的郵政編碼是整數,

但在模型中,不應將整數郵政編碼表示成數值數據。這是因為郵政編碼2。。。。在效

力上并不是郵政編碼10000的兩倍(或一半)。此外,雖然不同的郵政編碼確實

與不同的房地產價值有關,但我們也不能假設郵政編碼為20000的房地產在價值

上是郵政編碼為10000的房地產的兩倍。郵政編碼應表示成分類數據。

數值特征有時稱為連續(xù)特征。

Numpy

一個開放源代碼數學庫,在Python中提供高效的數組操作。Pandas就建立在

Numpy之上。

O

目標(objective)

算法嘗試優(yōu)化的指標。

離線推斷(offlineinference)

生成一組預測,存儲這些預測,然后根據需求檢索這些預測。與住線推斷相對。

one-hot編碼(one-hotencoding)

一種稀疏向量,其中:

?一個元素設為1。

?所有其他元素均設為0。

one-hot編碼常用于表示擁有有限個可能值的字符串或標識符。例如,假設某個指

定的植物學數據集記錄了15000個不同的物種,其中每個物種都用獨一無二的字

符串標識符來表示。在特征工程過程中,您可能需要將這些字符串標識符編碼為

one-hot向量,向量的大小為15000。

一對多(one-vs.-all)

假設某個分類問題有N種可能的解決方案,一對多解決方案將包含N個單獨的

元分類器-一個二元分類器對應一種可能的結果。例如,假設某個模型用于區(qū)分樣

本屬于動物、蔬菜還是礦物,一對多解決方案將提供下列三個單獨的二元分類器:

動物和非動物

蔬菜和非蔬菜

礦物和非礦物

在線推斷(onlineinference)

根據需求生成預測。與離線推斷相對。

操作(op,Operation)

TensorFIow圖中的節(jié)點。在TensorFlow中,任何創(chuàng)建、操縱或銷毀張量的過程都

屬于操作。例如,矩陣相乘就是一種操作,該操作以兩個張量作為輸入,并生成一

個張量作為輸出。

優(yōu)化器(optimizer)

梯度下降法的一種具體實現。TensorFlow的優(yōu)化器基類是tf.train.Optimizer。不同

的優(yōu)化器(".train.Optimizer的子類)會考慮如下概念:

?動量(Momentum)

?更新頻率(AdaGrad=ADAptiveGRADientdescent;Adam=ADAptivewith

Momentum;RMSProp)

?稀疏性/正則化(Ftrl)

?更復雜的計算方法(Proximal,等等)

甚至還包括NN驅動的優(yōu)化器。

離群值(outlier)

與大多數其他值差別很大的值。在機器學習中,下列所有值都是離群值。

?絕對值很高的權重。

?與實際值相差很大的預測值。

?值比平均值高大約3個標準偏差的輸入數據。

離群值常常會導致模型訓練出現問題。

輸出層(outputlayer)

神經網絡的"最后,,一層,也是包含答案的層。

過擬合(overfitting)

創(chuàng)建的模型與訓練數據過于匹配,以致于模型無法根據新數據做出正確的預測。

P

Pandas

面向列的數據分析API。很多機器學習框架(包括TensorFlow)都支持將Pandas

數據結構作為輸入。請參閱Pandas文檔。

參數(parameter)

機器學習系統自行訓練的模型的變量。例如,權重就是一種參數,它們的值是機器

學習系統通過連續(xù)的訓練迭代逐漸學習到的。與超參數相對。

參數服務器(PS,ParameterServer)

一種作業(yè),負責在分布式設置中跟蹤模型參數。

參數更新(parameterupdate)

在訓練期間(通常是在梯度下降法的單次迭代中)調整模型參數的操作。

偏導數(partialderivative)

一種導數,除一個變量之外的所有變量都被視為常量。例如,f(x,y)對x的偏導數

就是f(x)的導數(即,使y保持恒定)。f對x的偏導數僅關注x如何變化,而忽

略公式中的所有其他變量。

分區(qū)策略(partitioningstrategy)

參數服務器中分割變量的算法。

性能(performance)

多含義術語,具有以下含義:

?在軟件工程中的傳統含義。即:相應軟件的運行速度有多快(或有多高效)?

?在機器學習中的含義。在機器學習領域,性能旨在回答以下問題:相應模型的

準確度有多高?即模型在預測方面的表現有多好?

困惑度(perplexity)

一種衡量指標,用于衡量模型能夠多好地完成任務。例如,假設任務是讀取用戶使

用智能手機鍵盤輸入字詞時輸入的前幾個字母,然后列出一組可能的完整字詞。此

任務的困惑度(P)是:為了使列出的字詞中包含用戶嘗試輸入的實際字詞,您需要

提供的猜測項的個數。

困惑度與交叉燧的關系如下:

P=2-crossentropy

流水線(pipeline)

機器學習算法的基礎架構。流水線包括收集數據、將數據放入訓練數據文件、訓練

一個或多個模型,以及將模型導出到生產環(huán)境。

正類別(positiveclass)

在二元分類中,兩種可能的類別分別被標記為正類別和負類別。正類別結果是我們

要測試的對象。(不可否認的是,我們會同時測試這兩種結果,但只關注正類別結

果。)例如,在醫(yī)學檢查中,正類別可以是“腫瘤”。在電子郵件分類器中,正類別

可以是“垃圾郵件”。

與負類別相對。

精確率(precision)

一種分類模型指標。精確率指模型正確預測正類別的頻率,即:

精確率真正例數真正例數假正例數精確率=真正例數真正例數+假正例數

預測(prediction)

模型在收到輸入的樣本后的輸出。

預測偏差(predictionbias)

一個值,用于表明預測平均值與數據集中標簽的平均值相差有多大。

預創(chuàng)建的Estimator(pre-madeEstimator)

其他人已建好的EstimatoroTensorFlow提供了一些預創(chuàng)建的Estimator,包

括DNNClassifier、DNNRegressor和LinearClassifiero您可以按照這些說明構

建自己預創(chuàng)建的Estimatoro

預訓練模型(pre-trainedmodel)

已經過訓練的模型或模型組件(例如嵌套)。有時,您需要將預訓練的嵌套饋送到

神經網絡。在其他時候,您的模型將自行訓練嵌套,而不依賴于預訓練的嵌套。

先驗信念(priorbelief)

在開始采用相應數據進行訓練之前,您對這些數據抱有的信念。例如,L2正則化

依賴的先驗信念是權重應該很小且應以0為中心呈正態(tài)分布。

Q

隊列(queue)

一種TensorFlow操作,用于實現隊列數據結構。通常用于I/O中。

R

等級(rank)

機器學習中的一個多含義術語,可以理解為下列含義之一:

?張量中的維度數量。例如,標量等級為0,向量等級為1,矩陣等級為2。

?在將類別從最高到最低進行排序的機器學習問題中,類別的順序位置。例如,

行為排序系統可以將狗狗的獎勵從最高(牛排)到最低(枯萎的羽衣甘藍)進

行排序。

評分者(rater)

為樣本提供標簽的人。有時稱為“注釋者”。

召回率(recall)

一種分類模型指標,用于回答以下問題:在所有可能的正類別標簽中,模型正確地

識別出了多少個?即:

召回率真正例數真正例數假負例數召回率=真正例數真正例數+假負例數

修正線性單元(ReLU,RectifiedLinearUnit)

一種激活函數,其規(guī)則如下:

?如果輸入為負數或o,則輸出0。

?如果輸入為正數,則輸出等于輸入。

回歸模型(regressionmodel)

一種模型,能夠輸出連續(xù)的值(通常為浮點值)。請與分類模型進行比較,分類模

型輸出離散值,例如“黃花菜”或"虎皮百合”。

正則化(regularization)

對模型復雜度的懲罰。正則化有助于防止出現過擬分,包含以下類型:

?L1正則化

?L2正則化

?丟棄正則化

?早停法(這不是正式的正則化方法,但可以有效限制過擬合)

正則化率(regularizationrate)

一種標量值,以lambda表示,用于指定正則化函數的相對重要性。從下面簡化的

損失公式中可以看出正則化率的影響:

minimizeflossfunction+Afregularizationfunction))

提高正則化率可以減少過擬合,但可能會使模型的準確率降低。

表示法(representation)

將數據映射到實用特征的過程。

受試者工作特征曲線(receiveroperatingcharacteristic,簡稱

ROC曲線)

不同分類閾值下的真正例率和假正例率構成的曲線。另請參閱曲線下面積。

根目錄(rootdirectory)

您指定的目錄,用于托管多個模型的TensorFlow檢查點和事件文件的子目錄。

均方根誤差(RMSE,RootMeanSquaredError)

均方誤差的平方根。

SavedModel

保存和恢復TensorFlow模型時建議使用的格式。SavedModel是一種獨立于語言且

可恢復的序列化格式,使較高級別的系統和工具可以創(chuàng)建、使用和轉換

TensorFlow模型。

如需完整的詳細信息,請參閱《TensorFlow編程人員指南》中的保存和恢復。

Saver

一種TensorFlow對象,負責保存模型檢查點。

縮放(scaling)

特征工程中的一種常用做法,是對某個特征的值區(qū)間進行調整,使之與數據集中其

他特征的值區(qū)間一致。例如,假設您希望數據集中所有浮點特征的值都位于o到1

區(qū)間內,如果某個特征的值位于0到500區(qū)間內,您就可以通過將每個值除以500

來縮放該特征。

另請參閱標準化。

scikit-learn

一個熱門的開放源代碼機器學習平臺。請訪問o

半監(jiān)督式學習(semi-supervisedlearning)

訓練模型時采用的數據中,某些訓練樣本有標簽,而其他樣本則沒有標簽。半監(jiān)督

式學習采用的一種技術是推斷無標簽樣本的標簽,然后使用推斷出的標簽進行訓練,

以創(chuàng)建新模型。如果獲得有標簽樣本需要高昂的成本,而無標簽樣本則有很多,那

么半監(jiān)督式學習將非常有用。

序列模型(sequencemodel)

一種模型,其輸入具有序列依賴性。例如,根據之前觀看過的一系列視頻對觀看的

下一個視頻進行預測。

會話(session)

維持TensorFlow程序中的狀態(tài)(例如變量)。

S型函數(sigmoidfunction)

一種函數,可將邏輯回歸輸出或多項回歸輸出(對數幾率)映射到概率,以返回介

于。到1之間的值。s型函數的公式如下:

y=ll+e-a

在邏輯網歸問題中,。非常簡單:

o=b+wlxl+w2x2+...wnxn

換句話說,S型函數可將。轉換為介于0到1之間的概率。

在某些神經網絡中,S型函數可作為激活函數使用。

softmax

一種函數,可提供多類別分類模型中每個可能類別的概

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論