第8章 监督学习之分类——MLlib

本章包括如下内容。

  • 逻辑回归分类。
  • 支持向量机(SVM)分类。
  • 决策树分类。
  • 随机森林分类。
  • 梯度提升决策树(GBTs)分类。
  • 朴素贝叶斯分类。

分类问题很像在上一章描述的回归问题,除了输出变量y只取少数几个离散值。在二元分类中,y只能取两个值:0或1。你也可以认为分类算法中的因变量是相应的类别。

在分类中,因变量y的值是离散的而不是连续的。现实中一些分类的例子如邮件分类(垃圾邮件或非垃圾邮件)、交易检测(安全或欺诈)等。

下面的方程式中y变量可以取两个离散值0或1。

y ∈{0,1}

这里的0表示反例(negative class),1表示正例(positive class)。虽然我们把它们叫作为正例或者反例,但这只是为了方便的缘故。算法中这样的赋值是中性的。

虽然线性回归很适合回归任务,但对于分类任务有很多局限性的,包括:

  • 拟合过程对异常值很敏感。
  • 假设函数h(x)的值域不一定会是0(反例)到1(正例)的范围。

逻辑回归保证h(x)的值域是0到1之间。虽然逻辑回归中有回归这个词,但回归这个词不是很确切,因为更准备地说逻辑回归是一个分类算法。

1≥h(x)≥0

线性回归的假设函数如下所示:

h(x) =θTx

逻辑回归的假设函数做了轻微地改动,如下所示:

h(x) = g(θTx)

函数g叫s型函数或者逻辑函数,定义如下,对于实数t有:

g(t) = \frac{1}{{1 + {e^{ - t}}}}

s型函数图形如图8-1所示。

图8-1 s型函数

正如你看到的一样,当 ...

Get Spark Cookbook (中文版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.