新手数据科学家的10个工具


数据科学家利用他们的统计知识,将收集到的数据转化为产品开发、客户保留和创造商业机会的潜在想法。它可以甚至帮助论文写作服务于他们的工作。最近,它被称为第二十一世纪最性感的工作,因为对数据科学家的需求正在增加。为了成为数据科学家的一员,你必须获得进入数据科学世界所必需的技能。当你这样做的时候,以下是一些你可以用来练习的工具:


RapidMiner
它始于2006年,是一个以“Rapid-I”命名的开源程序。几年过去了,他们把它称为“RapidMiner”,并设法获得了三千五百万美元的资助。该工具(被认为是开源的)是版本。订购它需要14天的审核,然后才能买到许可证。RapidMiner负责整个生命周期预测建模以及部署和验证。图形用户界面的设计采用了与Matlab SIMULINK相同的框图方法.


BigML
这是另一个平台,它提供了一个很好的图形用户界面,可以在6个简单的步骤中使用:
来源-利用各种数据来源
数据集-利用定义的源创建新的数据集
模型-预测模型的建立
预测-根据模型本身生成预测
集合-发展不同模式的集合
评估-针对其他验证集建立模型
.bigml平台可以为用户提供诱人的产品结果可视化,并且有惊人的算法用于解决回归、聚类、分类和其他关联发现问题。


DataRobot
数据机器人是由 Owen Zhang, Thoman DeGodoy和Jeremy Achin开发的一个高端机器学习平台.。据说这个平台已经使数据科学家们几乎过时了。
从他们网站的引文中可以明显看出,“数据科学需要数学和统计能力、编程技能和商业知识。有了数据机器人,您就可以获得业务知识和数据,而我们较先进的自动化就可以处理其余的问题了。“

“数据机器人宣称,他们拥有一个平台,它可以使用文本挖掘、计算、编码、缩放等方法自动检测最有效的特征工程和信息预处理以及转变。“


Paxata
它由一家专注于数据准备和清理的公司组成。它不注重统计建模或机器学习的部分。它看起来像一个Microsoft Excel应用程序,但它是使用起来容易多了。

程序中包含一个可视化指南,使数据、搜索和修复丢失和脏数据更加容易,也可以共享和重用数据项目。像任何其他提到的工具,它消除了脚本或编码的需要。

因此,它非常有效地克服了围绕着处理数据的一些技术障碍。Paxata也有一套程序要遵循,这包括清洁和更改,它执行数据清理,利用进程,如与NLP-detecting副本和相似值的规范化。

它还拥有集成技术--智能融合技术--让用户一次点击就可以组合数据帧。如果您的工作需要更密集的数据清理,Paxata是一个很好的工具。


Google Cloud Prediction API
通过提供RESTfulAPI,Google Cloud Predication API为Android上的应用程序创建了机器学习模式。该平台是为Android操作系统上使用的移动应用程序设计的。

一些例子包括推荐引擎,它根据用户过去的观看习惯预测用户可能喜欢的产品或电影。
垃圾邮件检测也可以是一个将电子邮件归类为非垃圾邮件或垃圾邮件的例子。然而,根据用户的消费历史预测,用户可能每天花费多少钱。


Narrative Science
它是根据一种创造性的想法设计的,它产生了利用数据的自动化报告。它的功能就像一个工具,用更高级的自然语言程序来讲述故事,开发报告,这和咨询报告是一样的。目前,Narrative Science已经被用于保险、金融、电子商务和政府领域。他们的客户包括万事达卡、PayScale、德勤(Deloitte)、福布斯(Forbes)等等。


Trifecta
它特别注重数据的编制。它有两个主要产品:

Wrangler - 免费 Wrangler Enterprise - 付费
在进行数据清洗方面,Trifacta也发出了一个独特的图形用户界面。它使用数据进行输入,并用列排列的各种统计数据提供了一个简单的摘要。除此之外,它还建议自动进行一些更改,这是通过单击一次更改而使用的。

一些转换可以使用预模式应用程序应用于信息,这些应用程序可以在接口内以简单的方式使用。该工具还遵循一个特定的过程,从发现和访问第一次查看任何信息开始,以了解您拥有的信息。


MLBase
这被认为是众多开源项目之一,它是由加州大学伯克利分校的算法机器人实验室开发的。这个工具的主要思想是给出一个简单的应用机器学习解决宏观问题的解决方案。这都是他们提供的:

ML Optimizer –该优化器旨在解决MLlib和MLI以及特征提取器中ML算法的搜索问题。它的任务是使ML管道结构的操作自动化。
MLib –现在它得到了星火社区的支持,并作为ML库的核心分发库工作。这原是为MLBase 项目创建。
MLI –它使用极端的ML编程抽象。一个用于特征提取和开发算法的原型API。


自动统计员
它不是一个实际的产品,因为它是一个创造分析和数据的探索工具的研究公司。为了获得详细的报告,它使用自然语言过程接收不同类型的数据。目前仍在制定这一倡议,而且关于这一倡议的资料很少。在谷歌的监督下这能成为可能。


WEKA
这被认为是使用Java编写的数据收集软件。它是由机器学习小组在新西兰怀卡托大学开发的,这是一个图形用户界面编程工具,是数据科学新手用户的理想工具。除了其核心特性外,它也是开源的。目前,它更多地用于学术领域,但它显然有可能很快成为一件大事的垫脚石。

数据科学家在美国被评为薪水较高的工作之一,因为公司愿意支付大量的现金给那些被雇佣的数据科学家。对学生和生涯中期的专业人士提高必要技能和使用这些技能进行实践,这创造了一个机会。

来源:炼数成金编译
英文原文:https://datafloq.com/read/10-tools-for-the-novice-data-scientist/2994

CPDA课程海报_大数据_数据分析