Python数据整理
上QQ阅读APP看书,第一时间看更新

1.2 Python数据整理

对于数据整理过程是使用企业工具还是使用编程语言和相关框架,始终存在争议。有许多用于数据格式化和预处理的商用企业级工具,它们不需要用户编写太多代码。这些例子包括:

·通用数据分析平台,如Microsoft Excel(带加载宏);

·统计发现包,如JMP(来自SAS);

·建模平台,如RapidMiner;

·分析平台,来自专注于数据整理的小企业,如Trifacta、Paxata和Alteryx。

然而,与这些现有工具相比,Python等编程语言提供了更多的灵活性、控制和功能。

随着数据的体积(volume)、速度(velocity)和种类(variety)(大数据的3V)的迅速变化,使用基本的编程框架来开发和培养大量数据整理的内部专业技能是个不错的主意,这样的数据整理框架就不会受制于任何企业平台稀奇古怪的想象,如图1-2所示。

图1-2 谷歌过去五年的全球趋势

使用开放源码、自由编程范例(如用于数据整理的Python)有以下几个明显优势:

·通用开源范例对针对当前特定问题开发的任何方法不加以限制;

·专注于数据分析的快速、优化、开源库的强大生态系统;

·将Python连接到每种可能的数据源类型的支持越来越多;

·用于基本统计测试的简单界面和用于检查数据质量的快速可视化库;

·先进的机器学习模型与数据整理输出间的无缝接口。

Python是当今机器学习和人工智能中最流行的语言。