版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
引 .....................................2.....................................2.....................................2 簡 Midas介 Quick MidasQuickStart- MidasQuickStart- 前期準(zhǔn) ................................................................................18寫 數(shù)據(jù)預(yù)處 分 回 聚 深度學(xué) 統(tǒng)計相 系 關(guān)聯(lián)規(guī) 驗證與評 實用工 自定 端口解 客戶服 免本說明書依據(jù)現(xiàn)有信息制作,其內(nèi)容更改,恕不另行通知。星環(huán)信息科技()有限公司在編寫該說明書的時候已盡最大努力保證期內(nèi)容準(zhǔn)確可靠,但星環(huán)信息科技(海)不對本說明遺漏、確或印刷錯誤導(dǎo)致的損失和損害承擔(dān)責(zé)任。具體產(chǎn)品使用請以實際使用為準(zhǔn)注釋:Hadoop?和SPARK?是ApacheTM在 商標(biāo)。Java?是Oracle公司在和其他國家的商標(biāo)或 的商標(biāo)。In 和Xeon?是英特爾公司在、中國和其他國家的商標(biāo) 的商標(biāo)?2013年-2016年星環(huán)信息科技()。保留所利。?星環(huán)信息科技() 修改權(quán)。本說明書的歸星環(huán)信息科技()所有。未得到星環(huán)信息科技()的,任何人不得以任何方式或形式對本說明書內(nèi)的任何部分進行、摘錄、備份、修改、、翻譯成其他語言、或?qū)⑵淙炕虿糠钟糜谏绦抻啔v史日版說作2016-08-2016-12-2017-1-
為MidasV2.0。1SupportVector2客戶端PCUbuntuApplejava環(huán)境要OracleJRE7Midas QuickMidasQuickStart-在算子視圖中本地文件夾中找到數(shù)據(jù)算子,雙擊該算子或者左鍵拖拽該算子,可將數(shù)據(jù)添加到流程視圖中,可以看到需要輸入一個repositoryentry ,這里選擇在添加了數(shù)據(jù)庫連接(添加數(shù)據(jù)庫連接可查看charp4Midas詳細(xì)使用說明)在簡介中對Midas有了初步了解,下面詳細(xì)說明Midas的具體操作(僅包含的算子操作)。在Midas→midas服務(wù)器進行設(shè)置;本地和的算子不能混本地立本地的,具體步驟如下:點 選擇創(chuàng)建子文件夾,在內(nèi)建立多個文件夾對本地數(shù)據(jù)以及建立的流程進行分門別類的存放。數(shù)據(jù)庫連 如何獲取inceptor-driver請參考《Midas安裝手冊》架構(gòu)分隔符(Schema/ 驅(qū)動類(Driver27(根據(jù)給定的IP可自行更改10000(根據(jù)給定的端口可自行更改default(根據(jù)給定的名稱可自行更改123456(根據(jù)給定的可自行更改配置完成后,可以點擊右下角的測試,查看連接狀態(tài),如果設(shè)置正確,連接狀態(tài)會顯示connectOK,最后點擊確認(rèn)。就可以在視圖中的DB項的下拉菜單中看到的數(shù)據(jù)庫227了,該數(shù)據(jù)庫能夠顯示放在數(shù)CSV數(shù)例如:UTF-Json數(shù)字前帶有0讀模 mod讀模型 mod寫入root(給定outres寫入HDFS文outres寫入CSV文默認(rèn)為默認(rèn)為outres寫入Jsonoutres寫模含),文件位置在server端的對應(yīng)中mod寫模型 mod重命就可以將名為user的屬性名稱替換為USER了若是要改變多個屬性的名稱,可以在renameadditionalattributes中繼續(xù)填寫新舊名替換重命id:idlabel:prediction:屬性,即一個學(xué)習(xí)方案的cluster:weight:batch:就可以將名為user的屬性的角色設(shè)置為label若是要改變多個屬性的角色,可以在EditList中繼續(xù)填寫屬性和角色One-Hot當(dāng)為all當(dāng)為single當(dāng)為subset需要的屬性;還有一個useexceptexpression,點選后填寫一個正則表達(dá)式,表示從匹配regularexpressionexceptregularexpression生成ID詞頻反文檔頻文檔中詞記為t,文檔記為dDTF(t,d)tdDF(t,D)t的文檔數(shù)。如果使用詞在文檔中出現(xiàn)的頻次表示詞的重要程度,那么很容易取,”a”“the”“of”庫中出現(xiàn)頻率高,說明它在特定文檔集中信息量很低。逆文檔頻次(inversefrequency)是詞所能提供的信息量的一種度量。對于TFIDFspark.mllibTFIDF使用特征hash的方式實現(xiàn)詞頻率統(tǒng)計,原始的特征通過hash函數(shù),到一個索引值。后面只需要統(tǒng)計這些索引值的頻率,就可以知道對應(yīng)詞的頻率。這種方式避免設(shè)計一個全局1對1的詞到索引的,這個在大量語料庫時需要花費更長的時間。*是NLP領(lǐng)域的重要算法,它的功能是將word用K維的densevector來表達(dá),訓(xùn)練集是語料庫,不含標(biāo)點,設(shè)置wordwindow,只有wordhierarchicalsoftmaxnegative輸出向量字符串索當(dāng)為all當(dāng)為single當(dāng)為subset需要的屬性;還有一個useexceptexpression,點選后填寫一個正則表達(dá)式,表示從匹配regularexpressionexceptregularexpression以權(quán)重選當(dāng)為greater當(dāng)為topk當(dāng)為toppdeselectuseabsoluteLiLiuser等于/不等于LiLeiLii如LiLei就包含i如LiLei就不能前匹配ei如LiLei就后匹配eiLicondition動選擇符合條件的樣本,不需要設(shè)置filter參數(shù),其中missing表示選擇有缺失值的樣本,missing_attributelabel的屬性有缺失值的樣本,missing_label此算子只將值為?的視為缺失值,空值不視作采withbalance不點選此參數(shù),那么有sampleratio一個子參數(shù),填寫一個0到1之間的值,表示采樣的概率,balancecolumnsampleratioperclassEditList,左邊classbalancecolumn中填寫的屬性的性result,,1,2alancecolmns為resul,且samleratioclass[0,0.]和[1,08],rsult的值為05進行隨esult1.8resul的值為2withsample過采欠采默認(rèn)為(例如SQL已知的SUM,COUNT之類的)的group-bySQLHAVING子句可以通過在此算子之后添加額外的過濾樣本算子來模擬.aggregationattributesum:groupbyattributescountallonlyignore按主鍵分鍵值groupindexaggregate根據(jù)groupattribute和index作為indexattribute,aggregateattributes輸入的屬性必須連前支持內(nèi)連接,左連接,右連接,外連接。如果勾選useidattributeaskey,則自動選擇兩表中rolejoinuseidattributeasOrderMultipleOrder在AttributeFilterTypeexa:oriDrop當(dāng)為求兩個數(shù)據(jù)集的并集。CABSet按id列來做差集。最終結(jié)果CAB。A為exa輸入端的輸入,B為subReplace=標(biāo)準(zhǔn)歸一Min-Max歸一Max_Abs歸一SQL轉(zhuǎn)SQLTransformer使用自定義的sql語句來對輸入數(shù)據(jù)進行轉(zhuǎn)換.當(dāng)前算子僅僅支持"SELECT…FROM …"這樣的語法.其中"THIS"表示輸入數(shù)據(jù)集所代表的底層表.select語法塊指定字段,常量和表達(dá)式.例如SELECTa,a+bASa_b SELECTa,SQRT(b)ASb_sqrtFROM wherea>5SELECTa,b,SUM(c)ASc_sumFROM GROUPBYa,b替換缺失當(dāng)為性二值當(dāng)為時,表示選擇全部屬性;當(dāng)為當(dāng)為lits定義為[-0.5,0.0,-0.3,0.0,1.0,1.0].它表示-0.5.如splits為[-0.5,0.0,實際的splits為[-inf0.0,0.5,分位數(shù)離當(dāng)為計算準(zhǔn)確的分位數(shù)(注意:離散余弦主成分分none當(dāng)為keepVariance當(dāng)為fixedNumberk,填寫一個不小于0的整數(shù),表示按順序輸出指定維度的主成分向量(最多為輸入數(shù)奇異值分當(dāng)為none時:當(dāng)為keepVariancepercent,填寫一個0到1之間的數(shù)字,若SVD的累計方差不大于該值個數(shù)有m個,那么輸當(dāng)為fixedNumberk,填寫一個不小于0的整數(shù),表示按順序輸出指定數(shù)目的奇異值(最多為輸入數(shù)據(jù)的數(shù)據(jù)類型當(dāng)為喬列斯基modexa異常檢測mod樸素貝葉 modexa決策樹分modexa隨機森林(假設(shè)有d個屬性)中選擇有information_gain和gini_indexmodexa梯度提升樹分梯度提升樹同樣也是一個組裝(ensemblemodel)模型,的模型使用決策樹。與隨機森林不同的modexaBoost分.默認(rèn)是范圍在[0,1大于0,大于0,大于0,大于0,(0,1](0,1](0,1]大于等于0,大于等于0,大于等于0,vecases)/sum(positivemodexa和,然后使用函數(shù)g(z)將最為假設(shè)函數(shù)來。g(z)可以將連續(xù)值到0和1上。它與線性回歸的不同點在于:為了將線性回歸輸出的很大范圍的數(shù),例如從負(fù)無窮到正無窮,壓縮到0和1modexa支持向量便是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。本算子只能處理二分類問題.stepnumregminibatchmodexak近鄰分k默認(rèn)為默認(rèn)為默認(rèn)為modexaLiu,Ting,CharlesRosenberg,andHenryRowley."Clusteringbillionsofimageswithlargescalenearestneighborsearch."ApplicationsofComputerVision,2007.WACV'07.IEEEWorkshopon.IEEE,2007.多層感知層uselocalrandommodexa決策樹回有information_gain和gini_indexmodexa隨機森林有information_gain和gini_indexmodexa梯度提升樹回有information_gain和gini_indexmodexamodexa保序回歸是一類回歸算法.保序回歸是這樣一個問題:給定有限實數(shù)集Y{y_1,y_2,y_n},Y表示已知觀察數(shù)據(jù),X={x_1,x_2,…,x_n}代表未知的值,的目的是找到函數(shù)f(x)=sum_{i=1}^nw_i(y_i-x_i)^2的極小值,并且保證x_1到x_n遞增.modexa默認(rèn)是modexa廣義線性kk"在k-cluclu隱式狄利克雷分kmodout二分K均kmodexak度modexa人工神經(jīng)擇Adam或者GradientDescentmodDensethr:接上一個神經(jīng)網(wǎng)絡(luò)層的端thr:接下一個神經(jīng)網(wǎng)絡(luò)層的端輸入Unresolveddirectiveinoperator_deeplearning.adoc-輸出thr:接上一個神經(jīng)網(wǎng)絡(luò)層的端thr:接下一個神經(jīng)網(wǎng)絡(luò)層的端基本RNN子應(yīng)當(dāng)被使用在一個深度絡(luò)算子的子流程中。作為一個單獨的RNN單元算子,該算子也可被使用thr:接上一個神經(jīng)網(wǎng)絡(luò)層的端thr:接下一個神經(jīng)網(wǎng)絡(luò)層的端GRU當(dāng)被使用在一個深度絡(luò)算子的子流程中。作為一個單獨的RNN單元算子,該算子也可被使用在一thr:接上一個神經(jīng)網(wǎng)絡(luò)層的端thrthr基本LSTM單基本LSTM單元算子,是一種RNNRNN算子應(yīng)當(dāng)被使用在一個深度絡(luò)算子的子流程中。作為一個單獨的RNN單元算子,該算子也可被使thr:接上一個神經(jīng)網(wǎng)絡(luò)層的端thr:接下一個神經(jīng)網(wǎng)絡(luò)層的端組合RNN深度學(xué)習(xí)組合RNNRNNRNN單元算子的子流成中加入單獨的RNN單RNNRNNthr:接上一個神經(jīng)網(wǎng)絡(luò)層的端thr:接下一個神經(jīng)網(wǎng)絡(luò)層的端多個RNN的多個RNNRNNthr:接上一個神經(jīng)網(wǎng)絡(luò)層的端應(yīng)用深度labmod單變量數(shù)值特征統(tǒng)column單變量類別特征統(tǒng)column二變量數(shù)值特征統(tǒng)columnPearson’scorrelation二變量類別特征統(tǒng)column度Cramér’s二變量類別與數(shù)值特征統(tǒng)columnEtaF通過卡方統(tǒng)計計算權(quán)weiexa通過相關(guān)系數(shù)計算權(quán)weiexa通過信息增益計算權(quán)熵減去已知屬性后的信息熵得到。Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_kGain(D,a)=Ent(D)-\sum_{v=1}^Vweiexa通過信息增益率計算權(quán)以IV\text{Gain_ratio}(D,a\frac{\text{Gain}(D,a)}{\text{IV}(atext{IV}(a)\-\sum_{v=1}^V\frac{|D^v|}{|D|}log_2weiexa通過基尼系數(shù)計算權(quán)量原有基尼系數(shù)減去已知屬性后的基尼系數(shù)得到。\text{Gini}(D)=\sum_{k=1}^{|y|}\sum_{k'\nek}p_kp_{k'}=\sum_{k=1}^K\hatp_k(1-\hatp_k)\text{Gini_index}(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}\text{Gini}(D^v)weiexa通過主成分分析計算權(quán)weiexa通過權(quán)重創(chuàng)建數(shù)exa交換最小秩列checkpointmodexa因子分解modexaFP-Growth該算子通過在交換數(shù)據(jù)庫上建立一個FPFP樹中導(dǎo)出所有頻繁項集.對比Apriori算法,FPGrowth的主要優(yōu)勢在于,它只使用兩個數(shù)據(jù)掃描并且經(jīng)常使用于大數(shù)據(jù)集.些字符型值.如果使用樣本源算子的屬性描述文件(.aml),這對應(yīng)于通過類的屬性或內(nèi)在價值定positive_value設(shè)定.只有屬性包min_support(默認(rèn)),查找具有minnumexafre創(chuàng)建關(guān)聯(lián)FPGrowth的算此算子只有minconfidencerulitePrefixSpan算customer顧客timeminmaxpatternmaxlocalprojdbpatpatternexa:輸入的樣本集Apriori算minmaxminmaxfreexa應(yīng)用關(guān)聯(lián)exa:ass轉(zhuǎn)換事務(wù)數(shù)據(jù)customer客戶time性能(分類測試樣本集,這個樣本集包含一個具有l(wèi)abel角色的屬性以及一個具有角色的屬性。并基于這兩個變。否則,輸出的值為新標(biāo)準(zhǔn)值和舊值之間的平均。maincriterionperexa性能(二分類此性能評估算子應(yīng)被用于分類任務(wù),即當(dāng)屬性具有二分變量值類型時.此算子希望輸入一個元素具有真實和的樣本集,并且根據(jù)一列性能標(biāo)準(zhǔn)計算并輸出一列性能值.如果已經(jīng)給定性能矢量,它可用來保持性能值不變.主標(biāo)準(zhǔn)是用來進行比較的,并且需要被指定只用于性能矢量進行比較的流程。maincriterionperexa性能(回歸此性能評估算子應(yīng)被用于分類任務(wù),即當(dāng)屬性具有數(shù)字型值類型時。此算子希望輸入一個元素實和的測試樣本集,并且根據(jù)一列性能標(biāo)準(zhǔn)計算并輸出一列性能值。如果已經(jīng)給定性能矢量,它可用來保持性能值不變.主標(biāo)準(zhǔn)是用來進行比較的,并且需要被指定只用于性能矢量進行比較的流程。maincriterionperexa性能(聚類per:model:(當(dāng)前僅支持K-maincriterionDavies–BouldinindexperexaX執(zhí)行了一個交叉驗證流程.輸入的樣本集S被分割成驗證次數(shù)子集S_i。子流程運行驗證次數(shù)S_i作為測試集(),S\S_i(訓(xùn)練子流程的輸入)。訓(xùn)練子流程必須返回一個模型,該模型通常對輸入樣本集做訓(xùn)練.測試子流程必須返回一個性能矢量。通常是通過應(yīng)用模型并測量模型的性能得到的。額外的對象可以通過使用通過端口從訓(xùn)練子流程傳遞確計算。正是那個建立在完整輸入數(shù)據(jù)的模型,將被傳遞到相應(yīng)的端口用來為該模型提供方便。點擊算子設(shè)置參數(shù),并添加算averageperformancesnumofmodtraave優(yōu)化參數(shù)(網(wǎng)格搜索點擊編輯參數(shù)設(shè)置,左側(cè)operators表示在此算子所包含的所有子算子,會根據(jù)流程的布局自動生成,點擊某個算子后,會在中間的Parameters內(nèi)出現(xiàn)此算子的所有參數(shù),右側(cè)SelectParameterserrorhandlingperthr點擊EditEnumeration,點擊添加條目,輸入0到1之間的實數(shù)(含邊界),點擊確定,有多少個條目表示用戶exa:thr:labmodinpout:out:inp隨機數(shù)生out:自定義算子管板,然后進行配置。CustomOp自定義算CustomOpEntry。在Midas客戶端安裝根 packageio.transwarp.midas.custom.sample .apache.spark.sql.types.{StructField,DataTypes,StructType} .apache.spark.sql.{DataFrame,Row}caseclass(name:String,age://繼承CustomOpEntry類,實現(xiàn)execute方法即classSimpleCustomOpextendsCustomOpEntryoverridedefexecute(inputs:Seq[DataFrame],params:Map[String,String]):Array[DataFrame]{vald1=valrdd=d1.rdd.map(_=>("name",30)).map(p=>Row(,p.age))valschema=StructType(Array(StructField("age",DataTypes.IntegerType)valoutput=d1.sqlContext.createDataFrame(rdd,schema)Array(output,d1)}}的依賴類,不要將custom 現(xiàn)在,可以使用這個類了。新建一個自定義算子類,選擇class參數(shù)剛才實現(xiàn)的類SimpleCustomOp,parameters參數(shù)根據(jù)需要填寫,因為的自定義類中沒有使用參數(shù),所有不用填執(zhí)行在普通的SparkPython中,會通過frompysparkimportSparkContext導(dǎo)在Session中生成了,不需要再初始化。Midas通過entry對象將已有的SparkContextsc=entry.sc#SparkContextspark=entry.spark#SparkSession而輸入端和輸出端的數(shù)據(jù)傳輸同樣通過entry來獲得。entry.get_df(index方法獲取第index個數(shù)entry.put_df(df則依次將數(shù)據(jù)集放入輸出端口。將獲取SparkSession、獲取數(shù)據(jù)、傳遞結(jié)果結(jié)合到一起,基本的Python流程大致如下:frompyspark.sqlimportdfentry.get_df(0獲得第一個端口的輸paramsentry.get_parameters獲得所有填寫的參col=params["p1"]#獲取參數(shù)p1out1df.select(col執(zhí)行邏輯sc=entry.sc#獲取SparkContextsparkentry.spark獲取SparkSessionrdd=sc.parallelize(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老服務(wù)課件教學(xué)課件
- 住宅培訓(xùn)課件教學(xué)課件
- 2024年度無人機研發(fā)與制造勞務(wù)分包合同
- 2024年度亞馬遜FBA服務(wù)費用結(jié)算合同
- 2024年勞動合同提前終止協(xié)議
- 2024年工程環(huán)境健康協(xié)議
- 2024年度大數(shù)據(jù)分析與服務(wù)合同標(biāo)的詳細(xì)描述
- 2024年建筑工程招標(biāo)文件編制與合同條款設(shè)定
- 2024年大型風(fēng)力發(fā)電機組生產(chǎn)與銷售合同
- 04年百花廣場物業(yè)服務(wù)監(jiān)督合同
- 憲法是根本法教案-2.憲法是根本法-六年級上冊道德與法治(新版)
- 商家入駐進場協(xié)議書范本
- 爭做“四有好老師”-當(dāng)好“四個引路人”
- 4.19北朝政治和北方民族大交融 課件-2024-2025學(xué)年統(tǒng)編版(2024)七年級歷史上冊
- 機動車商業(yè)保險條款(2020版)
- 2024年江西省“振興杯”職業(yè)技能品酒師競賽考試題庫(含答案)
- DL∕T 1764-2017 電力用戶有序用電價值評估技術(shù)導(dǎo)則
- 四年級上冊英語教案-UNIT FOUR REVISION lesson 14 北京版
- YDT 4565-2023物聯(lián)網(wǎng)安全態(tài)勢感知技術(shù)要求
- 幼兒園故事繪本《賣火柴的小女孩兒》課件
- 【工商企業(yè)管理專業(yè)實操實訓(xùn)報告2600字(論文)】
評論
0/150
提交評論