数据科学究竟是什么?

原标题:数据科学究竟是什么?

摘要:
本文是关于数据科学的概述和讨论,包括数据挖掘,统计推断,机器学习,数据工程等等。

  9月15日技术沙龙

图片 1

与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维!

数据科学是一门将数据变得有用的学科。它包含三个重要概念:

数据科学是一门将数据变得有用的学科。它包含三个重要概念:

  1. 统计

  2. 机器学习

  3. 数据挖掘/分析

统计 机器学习 数据挖掘/分析

数据科学的定义

数据科学的定义

如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:

如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:

  1. 大数据意味着计算机的使用频率增加。

  2. 统计学家很难将纸张上所写算法用计算机实现。

大数据意味着计算机的使用频率增加。
统计学家很难将纸张上所写算法用计算机实现。

由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。

由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。

图片 2推特给出的定义circa
2014

2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。

推特给出的定义circa 2014

之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。

2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。

图片 3Drew
Conway对数据科学的定义

之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。

维基百科上对数据科学的定义更接近于我给学生讲授的内容:

数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。

Drew Conway对数据科学的定义

简单来讲:数据科学是一门将数据变得有用的学科。

维基百科上对数据科学的定义更接近于我给学生讲授的内容:

现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”

数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。

先看下图,该图内容与维基百科给出的定义十分契合:

简单来讲:数据科学是一门将数据变得有用的学科。

图片 4

现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”

这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?

先看下图,该图内容与维基百科给出的定义十分契合:

统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。

新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。

这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?

我建议可按如下方式进行区分:

统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。

图片 5

新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。

None-One-Many

我建议可按如下方式进行区分:

这究竟指的是什么呢?没错,就是决定!当所有你需要的事实对你可见时,你可以通过描述性分析做出尽可能多的决定。

我们的行动和决定会影响到我们周围的世界。

None-One-Many

接下来我们将继续探讨如何让数据变得有用。对我来说,有用的概念与影响世界的行动紧密相连。举个形象的例子:如果我们相信圣诞老人的存在,那圣诞老人这个概念就不重要了,除非它可能会以某种方式影响我的行为。然后,取决于这种行为的潜在后果,它可能开始变得非常重要。

发表评论

电子邮件地址不会被公开。 必填项已用*标注