数据科学(Data Science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。作为新兴的交叉学科,数据科学结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库、以及高性能计算等。数据科学现在之所以这么火爆,主要是因为它可以帮助我们如何正确高效地处理数据,并协助我们在商业竞争、医疗、社会科学、人类学等领域进行研究调研。Data science 毕业的学生未来可以成为data scientist(数据科学家),data engineer(数据工程师),data analyst(数据分析师)等。
MS in Data Science = 30% Statistics + 50% Computer Science + 20% Application
在如今的大数据时代,越来越多的领域都依赖于数据分析和数据科学去突破瓶颈,尤其是对于互联网公司,数据更是他们的立足之本。
根据IBM的统计数据,到2020年,美国数据科学家的职位空缺将增加364,000,达到2,720,000,在未来的五年里,这种需求会进一步增长到惊人的700,000。而从Glassdoor的统计数据来看,数据科学家是其网站上排名第一的工作,而这一趋势未来恐怕还会保持。在人工智能和金融科技大肆兴起之后,Data Science作为一切的根基,可以说无论哪一个领域对Data Science人才的需求都将是空前盛大
大多数做data science的人都会进入科技行业。众所周知,美国的IT界现在发展很好。一个data scientist平均来说可以拿到一年13w-16w左右的收入。即使在很多其他行业,10w+也是最低标准。根据 Glassdoor的统计数据,data scientist 的平均年薪在120,931美金每年,是非常高薪的工作。然而尽管薪资高,data science 的有关职位仍是供不应求。除了 Google,Facebook 这样的信息技术公司,生物、医疗、投行等各行各业也急缺这样的人才。每天客户都会提供源源不断的数据,如何处理这些数据并预测公司未来的发展就变成了目前重要的议题。总的来说,如果你本科读的是 data science专业,那么你未来就业就会轻松许多。
根据上图,Data Science 相关的具体职位有:
- Data Scientist
- Data Engineer
- Data Architect
- Business Intelligence Manager
- Data Analyst
- Business Analyst
下面分析几个重点岗位的工作内容及技能要求:
Data Scientists
这个职位经常存在于IT部门。 主要工作是从Business部门那里收集亟待解决的问题。采用科学方法、运用数据挖掘工具对复杂多量的数据进行数字化重现与认识,并据此寻找新的想法的专家。与传统数量分析师相比,他们更多通过关注面向用户的数据来创造不同特性的产品和流程,为客户提供增值服务;需要会写R和Python,不仅仅是写普通的统计分析程序。
Data Engineers
Data Engineer所做的一切都为了Data Management,具体内容包括数据模型、数据架构、数据标准、元数据、主数据、数据治理、数据管控等。主要负责:database architecture,data modeling,data quality check, data cleaning, data enrichment/transformation等后端的工作。Data Enginner的目标是把数据整好,存储成本低,查询效率高,至于怎么使用这些数据不是他们关心的范畴。
种类众多,其中机器学习工程师、数据库开发师是两个典型例子。
机器学习工程师的核心技能——机器学习,是最近几年非常热门的一项新技术。因此,在未来的几年里,机器学习将会是一个非常有前景的职业方向。其职责包括数据清理、数据分析、模型构建、预测评估及可视化呈现。要求熟练掌握Python、Java等编程语言,熟悉Hive、Storm、Spark等开源平台,熟悉常用的机器学习算法,如随机森林、神经网络、聚类,熟悉图像识别、优化器比较、模型压缩技术等。
数据库开发师 (Database Developer) 是从事数据库管理系统和数据库应用软件设计研发的相关工作人员的统称。其职责主要包括软件研发以及数据库生产环境的问题优化和解决,熟练掌握Python、C/C++、Java等,了解主流的框架、库使用和原理、计算机数据结构和算法设计,熟练掌握Linux、Web server、数据库、缓存相关技术的使用,掌握数据库基本原理和知识,熟悉SQL语法规则和特点等。
Data Analyst
Data Analyst偏重于将分析和商业运用相结合,分析只是一个手段和途径,更加重要的是将分析的结果转化为切实可行且能有所成效的商业方案。其核心使命是为公司决策提供服务,因此数据分析师的基本要求是懂企业的业务和数据,具备写报告的能力,考验的一方面是数据分析水平和业务能力,另一方面是沟通能力、理解能力和表达能力。重点要能快速的产生漂亮且简单易懂,直切重点的分析报告。因而reporting和visualization相关的技能要具备,其次,还要掌握一些分析工具,基础的比如SPSS,Excel VBA,高级一点的比如SAS,最好还能写点Code。