什么!这是未来十年“最性感的职业”?

2012年,Thomas·H·Davenport 在《哈佛商业评论》发表了一篇题名为《数据科学家:21世纪 “最性感的职业”》的文章,该文正式提出了“数据科学家”的概念,指出数据科学家在徜徉于数据海洋的同时,最重要的是进行探索,他们找出丰富的数据源,并与其他数据源连接,清理、简化运算结果。在充满竞争的世界中,数据科学家能帮助决策者从假设分析转向与数据持续不断的对话。该文预言 “数据科学家”将是未来十年“最性感的职业”

随着大数据行业日新月异的发展,数据出现爆发式增长,企业对具有数据处理技能的大数据人才的需求空前高涨。同时,大数据方向的职业分工也日益精细。数据科学家、数据工程师、数据分析师,成为大数据行业炙手可热的三个职位。这三个职位究竟在企业中负责哪些工作,又需要哪些技能才能胜任? 



数据分析师

大部分重视数据价值的企业,特别是互联网企业基本都设有数据分析师这个职位。根据国内外招聘网站对数据分析师的职位描述,一般认为数据分析师的主要职责是用数据来回答企业所遇到的运营问题,并通过数据化的交流方式,帮助企业决策。


数据工程师的工作内容一般包括:清洗、组织未加工的原始数据;使用统计方法获得数据的全局视图,并发现数据中蕴藏的商业信息;开发数据可视化产品辅助企业的商业决策;撰写数据分析报告,并与其他部门就分析结果进行沟通。


企业一般要求数据分析师能够熟练使用一些商业智能工具,例如:Excel,Tableau,SAS,SAP等。另外,数据分析师在对数据进行统计建模时也会用到一些建模工具,例如:SPSS,RapidMiner 等。需要说明的是,数据分析师不仅需要掌握这些商业智能和数据处理的技术工具,更重要的是数据分析师应该是高效的沟通者,特别是对于数据技术部门与商业运营部门分离的企业,数据分析师的重要任务是承担沟通这两个团队的职能。



数据工程师

无论是数据分析师还是数据科学家,都需要基于准确可靠、可获取的海量数据才能从事相关的分析工作。数据工程师则负责数据系统的建设、管理与优化,从而保证数据的可接收、可存储、可转换、可访问。一般认为数据工程师是传统软件工程师下的一个细分类别。与数据分析师不同,数据工程师不太关注统计、分析、建模与可视化方面的任务,他们更关注数据的架构、存储与计算。


数据工程师的主要工作包括:日常管理与维护数据系统;在现有数据系统下建立数据架构,整合管理数据集:开发数据接口供相关人员使用。


总之,数据工程师的主要职责在于,通过技术手段保证数据科学家和数据分析师专注于解决数据分析方面的问题。数据工程师经常使用的工具集包括:数据库管理系统 (SqlSever、MySql、Oracle 等 )、分布式计算框架 (Hadoop、Spark)以及数据服务开发工具 (Java、Python、R )。



数据科学家

数据科学家与数据分析师这两个职位有一定的相似之处,但在解决的任务层面存在较大差别。数据分析师解决的任务一般着眼于利用现有数据发现、解释当前出现的问题,例如解释当期市场销售额为什么下滑、网站用户为什么流失等问题。数据科学家解决的任务更具开放性,他们更专注于利用统计和算法工具预测未来可能出现的问题,例如预测未来企业的销售趋势,什么样的用户可能会流失等问题。另外,与数据分析师不同的是,一般只有在大型的数据驱动型企业才会设立数据科学家这个职位。由于数据科学家更着眼于前沿与开放的任务,对于这样的任务可能并没有现成的数据供其使用。


数据科学家的工作主要包括: 

利用一切可能的方法收集数据(数据收集);

对收集的数据进行清洗、集成、变换、规约(数据分析);

对收集、处理的数据进行存储(数据存储);

利用统计、机器学习、深度学习等方法建立模型分析数据(数据分析)。


与数据分析师利用现成的工具软件与某个细分领域的知识就能完成任务不同,数据科学家需要借助更为开放的编程工具,以及数学、概率统计、机器学习等方面的综合知识,才能更深刻地理解数据,从而选择正确的路径解决问题。数据科学家经常使用的工具集包括:编程工具 (Python、R 、Java )、数据库及数据框架工具 (MySql、SqlSever、SQLite、MongoDB、Hadoop、Spark)以及常用的第三方程序包 (ScikitGlearn、TensorFlowPandas、Numpy、Matplotlib、ggplot2、Jupyter、R Markdown)。



- 版权信息 -

本文内容资料来自

《网路数据爬取与分析实务》

图片来自网络


【内容提要】

全书主要内容涉及理论、实战、工具三个层面。


其中,理论层面主要介绍了网络爬虫,数据处理与存储,机器学习的相关概念、原理与算法;实战层面主要通过影评、二手房、招聘网站等实战项目,阐述了数据爬取、处理与存储的代码实现,并通过相关数据集的实例,介绍了机器学习算法的实现与效果评估;工具层面主要讲解了如何通过Python的UrllibRequest,BeautifulSoup、Pandas、Scikit-learn等第三方工具包实现数据的爬取、处理与分析,以及通过SQLite这一轻量级数据库工具实现数据的存储。

【作者简介】

李周平,上海财经大学博士,网络与软件工程师,现任上海商学院信息与计算机学院教师。长期从事网络爬虫、数据挖掘、机器学习、自然语言处理、Python程序开发等方面的教学和培训工作,具有十余年的Python项目开发经验,获得多项软件专利。


扫二维码购买此书


《网络数据爬取与分析实务

作者:李周平

定价:68.00元

ISBN 978-7-313-20032-7 

上海交通大学出版社


上海交通大学出版社

微信:sjtupress



关注、点赞、留言、转发,分享你的感受

 长按二维码关注

点击原文链接购买此书