《成为“超级”数据科学家》13项技巧懒人包,硬、软实力都要有!

数据科学家(Data scientists)是2012年《哈佛商业评论》宣布“21世纪最性感的职业”,而若要在这个性感行业中脱颖而出,需要什么技巧?

一名叫Admond Lee的数据科学家曾在LinkedIn上提出疑问:“一名优秀的数据科学家和一位超级数据科学家有什么差别”?得到来自不同行业数据科学家的回应及讨论,最后列出了13项能帮助人们在该项职业进步或者得到更多成就的办法。

虽然一名数据科学家没办法具备所有“超级数据科学家”的技能,但这些小技巧也能对一个数据科学家的职业生涯有所帮助。来看看这13项有哪些吧!

1. 教育

要成就数据科学家所需的知识深度,几乎都需要强力的教育背景。在数据科学家中,至少88%拥有硕士学位,46%拥有博士学位。人们可以通过计算机科学、社会科学、物理科学或统计学的学士学位成为一名数据科学家,其中最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)以及工程学(16%)。在这些学位中能培养处理和分析大数据所需的技能。

但大多数的数据科学家不仅拥有硕、博士学位,他们还会继续学习如何使用Hadoop等大数据查询等技能,还可以通过架设应用程序、博客或进行数据探勘来检验在课堂上所学习到的知识。在业界,能解决业务问题是首当其冲,能完成任务会比博士学位更加实用。

数据分析的程序语言相关技能

2. R语言编程

R语言通常是对数据分析工具深入了解的首选,它可以解决在数据科学中遇到的任何问题。43%的数据科学家习惯用R语言来解决统计问题。虽然对于已经掌握了程序语言的人来说,学习R语言可能有些困难,但网络上有非常多关于R语言的教学渠道,例如Simplilearn的数据科学训练。想要自我提升的数据科学家千万不要错过。

3. Python编写

Python最常见的数据科学的程序语言中最常见的,还有Java、Perl或C/C++。对于在O’Reilly对于数据科学的一项调查中,40%的受访者使用Python作为他们主要的程序语言。Python可以用于各种格式的数据,也可以导入SQL数据表到程序中。可以创建数据组(Dataset)或在Google上找到所需类型的数据组。

4. Hadoop平台

根据一项Crowdflower对inkedIn上3490个数据科学职缺的调查发现,有49%将Apache Hadoop列为第二大重要技能。

当数据量超过了系统容量,或者需要将数据发送到不同的服务器,Hadoop都是你的好帮手。Hadoop可以快速地将数据传输到系统上的各个点上,也可以用于数据探索、数据过滤、数据采样和汇总。

5. SQL数据库

虽然NoSQL和Hadoop已经成为数据科学的一个重要部分,数据科学家有时仍需要在SQL中编写或查询。SQL能在数据库中进行增加、删减或摘录程序语言,也可以协助分析或转换数据库结构。

6. Apache Spark

Apache Spark正在成为世界最流行的大数据技术。它和Hadoop一样是大数据运算框架,但是Spark的速度更快。当Hadoop要读取数据写入磁盘,Spark允许用户将数据加载至集群内存,能更快地运行计算。它的优势在于其速度和平台能使执行数据科学项目的执行更加容易,从数据采集到分布式运算的分析都可以在Apache Sark上执行。

机器学习等AI领域能使你脱颖而出

7. 机器学习与人工智能

许多数据科学家并不熟悉机器学习领域,包括神经网络、强化学习、对抗性学习等。如果想在数据科学家中脱颖而出,可以从了解机器学习技术下手,如有监督式学习、决策树、逻辑回归等。这些技能将帮助您解决基于预测组织结果的不同数据科学问题。根据Kaggle平台的调查,只有一小部分数据专业人员能够胜任高端机器学习技巧。

8. 数据可视化

商业活动中会产生大量的数据,而这些数据需要转换成容易理解的图表。数据科学家能够借助数据可视化工具(如ggplot、d3.js、matplotlib和tableau)实现数据可视化。当对方不了解串行相关或p值,就能直观地向他们展示这些术语代表的数据结果。通过数据可视化,企业能够加速掌握新商机并保持领先地位。

9. 非结构化数据

处理非结构化式数据的能力对数据科学家至关重要。视频、博客文章、客户评论、社群贴文、音频等难以进行排序的数据,无法做成数据库图表,因为这些非结构化式数据的复杂性,大多数人将其称为“暗箱分析”。数据科学家要能理解和操作来自不同平台的非结构化式数据,洞察出有助于决策的见解。

除了必备技能,还有这些软实力

10. 好奇心

“我没有特殊的才华,只有极强的好奇心。”—爱因斯坦

好奇心代表对更多知识的渴望。数据科学家通常会花费80%的时间在发现和准备数据,因此要能够提出关于数据的问题。数据科学是一个发展非常迅速的领域,必须更深、更广地学习才能跟上步伐。

可以通过阅读有关数据科学趋势的书籍或文章更新知识,但不要被线上大量的数据淹没,必须知道如何理解这些数据。好奇心是驱动数据科学家通过筛选数据找到答案的重要技能之一。

11. 商业敏锐度

数据科学家必须要对所从事的行业扎实了解,并知道任职的公司正试图解决什么类型的商业问题。必须了解所解决的问题会如何影响业务,才能将其数据分析的努力导向正确的方向。

12. 沟通技能

一个优秀的数据科学家要能清楚、流畅地将他们分析上的发现,传达给其他如营销、业务等非数据科学相关部门的人员。最好还要能以storytelling的方式将数据讲解给公司其他人听,让包括老板的所有人都能轻松听懂。大多数人对数据科学家分析的内容不感兴趣,他们只想知道这些数据能如何影响、提升他们的业务成果。因此良好的沟通技巧也至关重要。

13. 团队合作

数据科学家在职场上不能当独行侠,必须要和公司高层一起制定战略;与产品经理和设计师一起创造更好的产品;与营销人员一起提升策略,与客户和服务器软件开发人员一起创建数据流程和改善工作流程。实际上,数据科学家必须与组织中的每个人合作。

以上就是13个成帮助你成为超级数据科学家的技巧,从本质上来说,数据科学家必须知道解决业务问题的目标和所需数据,并能用正确办法分析,最后要能将结果翻译成相关部门人员都能理解的语言,才能用数据成就业务上的增长。