数据科学刚刚度过了它的黄金五年。
自年以来,这个行业发展迅速。它几乎完整经历了Gartner技术成熟度曲线的每个阶段。
度过了初期使用阶段、有关AI和偏见的负面新闻、Facebook等公司的第二三轮风投。现在的数据科学正处于高增长使用阶段:即使是银行、医疗保健公司和落后市场五年的其他强企业,也在招聘机器学习中的数据科学岗位。
但现实正在发生巨大的变化。
来自captech基金的资深数据科学家VickiBoykis发布了一篇《数据科学不一样了》的文章,引起了广泛讨论。五年前被誉为“最性感“职业的数据科学家,正在进入一个新的阶段。
我们该如何应对?一起看看。
大数据(还记得Hadoop和Pig吗?)已经出局,R语言的采用率急剧上升,Python在《经济学人》杂志中被表扬多次,“云”已经再次改变了一切。
不幸的是,大众媒体在数据科学领域的炒作始终没有改变。
直到今天,在各类不负责任的媒体口中,数据科学家依然是“21世纪最性感最容易找工作的职业”。而事实上,希望进入这个行业的初级数据科学家已经供过于求,他们一旦获得梦寐的“数据科学家”称号后,实际展现出来的能力并不能达到预期的那样。
新数据科学家的供过于求
首先,我们来谈谈初级数据科学家的供过于求。
围绕数据科学的持续媒体炒作极大地提高了过去五年市场上的初级人才数量。
这纯粹是传闻,你大可不必相信。但是,基于我参与筛选简历、做刚入门的数据科学家的导师、做采访者和受访者以及与处于类似职位的朋友和同事们的对话的经历,可以初步感受到,每个数据科学职位而言,特别是入门级的职位,候选人都已经从20个增加到个或更多。
我最近和一个朋友谈话,他的一个开放职位收到了份简历。
这并不奇怪。更多的传闻是来自像机器学习教父吴恩达的职位空缺,他的AI创业公司每周要求70-80小时的工作时间。
即便如此,他依然收到了很多人试图免费为他志愿工作。截止到目前,据他所说,他的办公室已经全部坐满。
正确估计市场供需当然不容易,但Wired的一篇文章可以提供一些线索:
”对年4月份招聘广告的研究发现,美国有超过00个职位空缺,面向有人工智能或机器学习技能的人。“
文章继续表明:
”超过10万人开始学习Fast.ai提供的深度学习课程,Fast.ai是一家专注于扩大人工智能应用的创业公司。“
让我们做一道简单的数学题。
假设MOOC(慕课)的平均完成率约为7%,那意味着,这一年会有人可以填补这00个工作岗位。这一年如此,但明年又如何呢?我们是否假设数据科学的就业率稳定?如果是这样,数据科学的就业市场看起来就会缩小很多。
我们再来看一项更广泛的研究,LinkedIn表示市场上缺少,个具有数据科学技能的人才。虽然目前还不清楚这是指数据科学家还是仅具有部分技能的人,但我们假设是前者。那样的话,该国数据科学家有个职位空缺。
鉴于有000人已经开始了数据科学课程,我们假设其中有人能完成课程。
但是,这些数字还都没有考虑到所有创造新的数据科学候选人的计划和途径:有像Coursera这样的Fast.ai之外的MOOC,有超过10个像Metis和GA(GeneralAssembly)这样的每季度25人参加的全国性训练营,还有像加州大学洛杉矶分校等地的远程学位——分析和数据科学的学士学位,YouTube等,还有大量无法在极其紧张的就业市场找到工作、正从学术界转向数据科学的博士们。
这里有第三个确凿证据,来自PWC,它指出年数据科学家有4万个职位空缺。它还从总体上估计,认为分析技能的市场供应(再次说明,它比数据科学范围更大,但也是一个比较点)到年将会使市场过度拥挤。
将此与数百个数据科学课程的训练营相结合,如果有人要进入某个行业,你将看到一场大风暴。
根据我在业内工作并与多名同事交谈的直觉,这两条推特最终使我确信数据科学行业存在供应泡沫。
首先,是这个有关入门数据科学课程的推特:
Cal的入门数据科学课程是Data8,这门课很受欢迎,位于泽勒巴赫教室。开课时间是年秋季学期第一天。
和UVA开设数据科学学院的消息:
UVA很自豪地宣布计划中的数据科学学院成立,它将满足社会增长最快的需求之一
由于在适应工业界的新趋势上,学术界通常是滞后的,因此这个趋势真的该引起初级数据科学家们的重视,所有人都希望找一个数据科学的职位。考虑到他们在市场上的竞争者数量,刚获得数据科学学位的人很难找到真的入行。
在三、四年前情况还并非如此,然而现在数据科学已经从一个流行词汇转变为硅谷泡沫外更大的公司招聘的职位,相关的职位不仅更加正式化,而且有着更严格的准入要求(即倾向于曾经具备数据科学工作经验的人)。数据科学职位的面试仍然难以把握,并且与工作完全不匹配。
正如许多博客文章指出的那样,你未必在第一次尝试时就能找到理想工作。因此,就业市场相当艰难,对于大量入门者来说更加困难重重。
Hinton对于机器学习领域现状的想法:
“我们应该采取全新的想法。我们都知道从长远来看,一个全新的想法将比一个个微小的改进更有效。当我们这个群体只有一些资深人士和一大批青少年时,这就是缺点。”
数据科学存在有误导性的工作需求
第二个问题是,一旦这些初学者进入市场,他们会对数据科学的工作模式产生不切实际的期望。每个人都认为他们将进行机器学习、深度学习和贝叶斯模拟。
这并不是他们的错,这正是一些数据科学课程和技术媒体们一直以来强调的内容。自从很久之前我第一次过分乐观地浏览HackerNews上逻辑回归的帖子以来,情况并没有发生多大变化。
现实情况是,“数据科学”从未像机器学习那样中科白癜风恢复美丽黄皮肤白癜风病因都有什么
推荐文章
热点文章