大數(shù)據(jù)算法研究之決策樹
決策樹是用于分類和預(yù)測(cè)的最強(qiáng)大,最流行的工具
決策樹:決策樹是用于分類和預(yù)測(cè)的最強(qiáng)大,最流行的工具。決策樹是類似于樹結(jié)構(gòu)的流程圖,其中每個(gè)內(nèi)部節(jié)點(diǎn)表示對(duì)屬性的測(cè)試,每個(gè)分支表示測(cè)試的結(jié)果,并且每個(gè)葉節(jié)點(diǎn)(終端節(jié)點(diǎn))都具有類標(biāo)簽。

PlayTennis概念的決策樹。
決策樹的構(gòu)建:
可以通過基于屬性值測(cè)試將源集劃分為子集來“學(xué)習(xí)”樹。以稱為遞歸分區(qū)的遞歸方式在每個(gè)派生子集上重復(fù)此過程。當(dāng)節(jié)點(diǎn)上的子集都具有相同的目標(biāo)變量值時(shí),或者拆分不再為預(yù)測(cè)增加值時(shí),遞歸完成。決策樹分類器的構(gòu)造不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置,因此適合于探索性知識(shí)發(fā)現(xiàn)。決策樹可以處理高維數(shù)據(jù)。一般而言,決策樹分類器具有良好的準(zhǔn)確性。決策樹歸納法是學(xué)習(xí)分類知識(shí)的典型歸納方法。決策樹方法的優(yōu)點(diǎn)和缺點(diǎn)決策樹方法的優(yōu)點(diǎn)是:
決策樹能夠生成可理解的規(guī)則。
決策樹無需太多計(jì)算即可執(zhí)行分類。
決策樹能夠處理連續(xù)變量和分類變量。
決策樹清楚地表明了哪些字段對(duì)于預(yù)測(cè)或分類最重要。
決策樹方法的缺點(diǎn):
在目標(biāo)是預(yù)測(cè)連續(xù)屬性值的估計(jì)任務(wù)中,決策樹不太合適。
決策樹很容易在分類問題中出現(xiàn)錯(cuò)誤,因?yàn)榉诸惡芏?,?xùn)練示例相對(duì)較少。
決策樹訓(xùn)練起來在計(jì)算上可能會(huì)很昂貴。增長(zhǎng)決策樹的過程在計(jì)算上是昂貴的。在每個(gè)節(jié)點(diǎn)上,必須先對(duì)每個(gè)候選拆分字段進(jìn)行排序,然后才能找到其最佳拆分。在某些算法中,使用字段組合,并且必須進(jìn)行搜索以獲取最佳組合權(quán)重。由于必須形成并比較許多候選子樹,因此修剪算法也可能很昂貴。
創(chuàng)建決策樹的七個(gè)技巧
以下是創(chuàng)建決策樹圖的一些最佳實(shí)踐提示:
啟動(dòng)樹。在頁(yè)面左邊緣附近繪制一個(gè)矩形,以表示第一個(gè)節(jié)點(diǎn)。在此矩形中,寫下將要做出決定的第一個(gè)問題,主要思想或準(zhǔn)則。
添加分支。對(duì)于每種可能的替代方法,請(qǐng)繪制一條單獨(dú)的線,該線從節(jié)點(diǎn)開始并朝頁(yè)面右側(cè)移動(dòng)。以貸款批準(zhǔn)流程為例,第一個(gè)節(jié)點(diǎn)可能是“收入”,并且關(guān)聯(lián)的分支機(jī)構(gòu)可能是<$ 50K,$ 51K-$ 100K,> $ 101K。
添加葉子。決策樹的大部分將是葉節(jié)點(diǎn)。在每個(gè)分支的末尾添加一個(gè)葉子節(jié)點(diǎn)。用其他問題或準(zhǔn)則填充每個(gè)葉節(jié)點(diǎn)。
添加更多分支。重復(fù)為葉中每個(gè)可能的替代添加分支的過程。像以前一樣標(biāo)記每個(gè)分支。
完成決策樹。繼續(xù)添加樹葉和樹枝,直到解決了每個(gè)問題或標(biāo)準(zhǔn)并獲得結(jié)果為止。
終止分支。繼續(xù)添加樹葉和樹枝,直到解決了每個(gè)問題或標(biāo)準(zhǔn)并獲得結(jié)果為止。
驗(yàn)證準(zhǔn)確性。與所有利益相關(guān)者協(xié)商以核實(shí)準(zhǔn)確性。
