微软在VS Code Insiders发布资料准备工具Data Wrangler

微软针对数据科学家,推出可用Python处理表格资料的工具Data Wrangler,Data Wrangler是VS Code Insiders版本的扩展组件,能够执行资料准备、清理和可视化工作,协助用户识别和修复资料错误,也能分析资料的品质,并将资料转换成为需要的格式。

Data Wrangler内置的转换和可视化函数库,在用户执行资料更改时,扩展组件会自动使用开源Python函数库,替用户的资料操作产生程序代码,也就是说用户可以更迅速且正确地编写资料准备程序。

由于资料的品质会直接影响模型预测的品质,因此数据科学家通常需要花费大量的时间准备资料,在探索资料的过程,数据科学家需要编写许多小程序代码片段,来删除资料行或是移除缺失的数值,微软提到,目前缺乏简化资料准备工作的工具,数据科学家常需要到Stack Overflow搜索程序代码片段,并且复制粘贴到程序中。

Data Wrangler的互动式用户接口,能够替用户快速产生程序代码,在用户查看和可视化Python资料分析模块Pandas资料框(Dataframes)时,Data Wrangler能够产生目标操作的程序代码,像是用户只要右键点击资料行标题并将其删除,Data Wrangler便可以自动产生Python程序代码来执行此操作。

另外,当数据科学家想要从Pandas资料框的资料行,创建一个新的衍生资料行,编写自定义程序代码的过程容易出现错误,而Data Wrangler让用户只要提供输出范例,告诉Data Wrangle希望衍生资料列的资料形式,该扩展组件便会通过人工智能合成技术PROSE编写Python程序代码。

现在数据科学家想要在VS Code Insiders使用Data Wrangler,可以直接从应用程序市场中下载,并且从Jupyter Notebook的Pandas资料框中启动Data Wrangler,或是在VS Code Insiders中,选择以Data Wrangler打开CSV或Parquet文件。