决策树中的基尼杂质和熵有什么区别?


回答 1:

基尼杂质和熵称为决策树的选择标准。本质上,它们可以帮助您确定分类/回归树上的根/决策节点的最佳分割点(以下示例在分类树上)。决策树在特征和相应的分裂点上分裂,这导致给定标准(在此示例中为gini或熵)产生最大信息增益(IG)。宽松地,我们可以将信息增益定义为

IG =拆分前的信息(父级)-拆分后的信息(子级)

为了更清楚地了解父母和子女,请查看下面的决策树。

信息增益公式的更合适公式如下。

由于分类树具有二进制拆分,因此可以将公式简化为以下公式。

用于测量节点杂质的两个通用准则I是基尼系数和熵。

为了更好地理解这些公式,下图显示了如何使用Gini准则为决策树计算信息增益。

下图显示了如何使用熵计算决策树的信息增益。

我将不对此进行更详细的说明,因为应注意的是,不同的杂质度量(基尼系数和熵)通常会产生相似的结果。下图显示了基尼系数和熵是非常相似的杂质标准。我猜为什么Gini是scikit-learn(Python库)的默认值的原因之一是熵的计算可能会稍微慢一些(因为它利用了对数)。

通常,不同的杂质测量(基尼系数和熵)会得出相似的结果。感谢数据科学StackExchange和Sebastian Raschka为本图表提供的灵感。

如果您想了解有关决策树如何工作的更多信息,请单击此处以了解更多信息。


回答 2:

选择如何拆分树的两个指标。基尼系数测量是如果我们根据分支中的分布随机选择标签,则随机样本被错误分类的可能性。

熵是信息(或缺乏信息)的度量。您可以通过拆分来计算信息增益。贵宾室之间的区别。这可以衡量如何减少标签的不确定性。

看到:

https://en.m.wikipedia.org/wiki / ...