一文解析统计学在机器学习中的重要性(附学习包)


作者:Jason Brownlee
翻译:陈之炎

统计是一组工具,你可以使用这些工具来探求数据方面的重要问题。

你可以使用描述性统计方法将原始观测数据转换为你可以理解和共享的信息,也可以使用推断统计方法,通过数据的小样本对整个域进行推理。

在这篇文章中,你将明晰为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

本文中你将了解到:

•  统计通常被认为是应用机器学习领域的先决条件。

•  我们需要利用统计将观测结果转化为信息,并回答有关观测样本的问题。

•  统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

那我们开始吧!

统计是必备的先决条件

机器学习和统计是两个密切相关的研究领域,统计学家把机器学习称为“应用统计”或“统计学习”,而不是以计算机科学为主来命名。

对于初学者而言,机器学习的前提是他应具备一定的统计学背景。我们可以用挑选樱桃的例子来做个解释。

请先看一本流行的实用机器学习书《应用预测建模》中的一句话:

 ”读者应掌握一些基本统计知识,包括方差、相关、简单线性回归和基本假设检验(如p值和检验统计)“

——《应用预测建模》2013年 第7页 


流行书籍《统计学习入门》中也有这样的例子:
 

”我们期望读者至少有一门统计学基础课程。“

——《统计学习介绍及其在R语言中的应用》

2013年 第9页 

即使统计学不是先决条件,但还是需要一些简单的先导知识,正如广为人知的《编程集体智慧》一书的引语所言:

“这本书并不认为你事先就知道[…]或统计学[…] 但是,掌握一些三角学和基本统计知识将有助于你理解算法。”

——《编程集体智慧:构建智能Web 2.0应用程序》

2007年 第13页

为了能够更好地理解机器学习,需要对统计学有一些基本的概念。

欲知其中缘由,我们首先必须明白为何要了解统计学领域的知识。
 

为什么要学统计学?

单独的原始观察数据只是数据,它们还不是信息或知识。

有了原始数据,那么接下来的问题是:

  • 什么是最常见或可预期的观测?
  • 观测的限制条件是什么?
  • 数据是什么样子的?

虽然这些问题看起来很简单,但必须回答这些问题,才能将原始观察的数据转化为我们可以使用和分享的信息。

除了原始数据,我们还可以设计实验来采集观测数据。根据这些实验结果,我们可能获得更为复杂的问题,例如:

  • 哪些变量是最相关的?
  • 两个实验的结果有什么不同?
  • 数据中的差异是真实的还是噪声的结果?

这类问题很重要,其结果对项目、利益相关者和有效决策都很重要。

我们需要用统计方法来找到数据问题的答案。

这样看来,我们需要利用统计方法,不但用它来了解用于训练机器学习模型的数据,而且用它来解释测试不同机器学习模型的结果。

这只是冰山一角,因为预测建模项目的每一步都需要用到统计方法。
 

什么是统计学?

统计学是数学的一个子领域。

它指的是处理数据和使用数据回答问题的方法集合。

 统计学是对疑难问题进行数值猜想的艺术。[…]这些方法是几百年来由那些为自己的问题寻找答案的人开发出来 的。

——《统计》第四版 

2007年 第13页 

由于该领域采用抓斗袋的方法来处理数据,对于初学者来说,它可能看起来大而无形。统计方法和其他研究领域的方法之间很难区分开来。通常,一种技术既可以是一种经典的统计方法,也可以是一种用于特征选择或建模的现代算法。

虽然统计知识并非没有深奥的理论知识,但从统计与概率的关系中得出的一些重要、容易理解的定理,可以提供有价值的理论基础。

举两个例子:大数定律和中心极限定理。

第一个可以帮助我们理解为什么较大的样本往往更好,第二个定理为我们比较样本之间的期望值(例如:平均值)提供基础。

当涉及我们在实践中使用的统计工具时,可以将统计领域分为两大类:

  • 描述性统计用于总结数据
  • 推理统计用于从数据样本中得出结论

"统计数据使研究人员能够从大量的采集到的信息或数据,从中总结出典型的经验。[…]统计数据也用导出关于群体间普遍差异的结论。[…]统计数据也可以用来判断两个变量的得分是否相关,并进行预测。"

——《统计概述》 第三版 

2010年 第9—10页 


描述统计(学)

描述性统计是指将观察到的原始数据汇总成我们可以理解和共享的信息的方法。

通常,我们认为描述性统计是对数据样本统计值的计算,以便总结数据样本的属性,例如共同的期望值(例如平均值或中值)和数据的价差(例如方差或标准偏差)。

描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。
 

推断统计

推断统计是一个有意思的名称,它是通过从一组较小的被称为样本的观察数据进行量化从而提炼出域或总体属性的方法。

通常,我们认为推断统计是从总体分布中估计出特征值,如期望值或价差的估计等等。

可以利用复杂的统计推断工具来量化给定观测数据样本的概率。这些工具通常被称为统计假设检验工具,其中检验的基本假设称为零假设。

有许多推断统计方法的例子,为增加测试数据的正确性,我们可以对假设的范围做出限定。
 

延展阅读

如果你想深入研究,本节将提供更多关于该主题的资源。

书籍

  • 《应用预测建模》,2013年
  • R语言应用程序统计学习导论》,2013年
  • 《编程集智能:构建智能Web 2.0应用程序》,2007年
  • 《统计》,第四版,2007年
  • 《统计:统计推断的简明课程》,2004年
  • 《简明统计》,第三版,2010年。

文章

  • 维基百科上的统计
  • 门户:维基百科上的统计
  • 维基百科上的统计文章列表
  • 维基百科上的数理统计
  • 维基百科上的统计历史
  • 维基百科的描述性统计
  • 对维基百科的统计推断

总结

在这篇文章中,你已明晰为什么统计在机器学习中如此重要,对于机器学习,统计提供了许多通用且可行的方法。

具体而言,总结如下:

  • 统计通常被认为是机器学习领域的先决条件。
  • 我们需要统计数据来将观测结果转化为信息,并回答有关观测样本的问题。
  • 统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

来源:数据派THU