原文:
www.kdnuggets.com/2014/03/data-scientist-right-career-path-candid-advice.html
评论 如今,数据科学家(或相关角色如数据经理、统计学家、数据分析师等)无疑是最受追捧的职业之一。为了应对这一跨行业趋势,一些顶尖大学已经启动了专门的数据科学项目。
被巨大的机会、优厚的薪酬和对商业领袖的曝光所吸引,许多人在没有彻底评估该角色的日常职责、所需态度以及技术与商业技能平衡的情况下,转向数据科学家的职业道路。
为了向数据科学 aspirant 提供一个清晰的、现实的数据科学家角色图景,帮助他们与自身性格和职业抱负进行评估,我最近与**Paco Nathan**,一位拥有 25 年以上行业经验的数据科学专家进行了讨论。他坦率、详细的回答很可能会让许多人大开眼界。
Paco Nathan 的简短个人介绍见帖子末尾。
Anmol Rajpurohit:数据科学家被称为 21 世纪最性感的职业。你同意吗?你会给那些考虑从事长期数据科学职业的人什么建议?
Paco Nathan: 我不同意。很少有人具备执行这个角色所需的广泛技能,也没有足够的耐心去获得这些技能,更没有去达到这一点的愿望。
作为自测:
-
准备对一个未知数据集进行分析和可视化,同时不耐烦的利益相关者在你肩膀上盯着,并提出尖锐的问题;要准备好对结果的置信度做出定量论证
-
用 25 个字以内描述“损失函数”和“正则化项”,比较/对比几个示例,并展示如何为模型透明性、预测能力和资源需求结构化各种权衡
-
向执行团队提出重组建议,这可能意味着解雇一些排名靠前的人
-
采访 3 到 4 个对你的项目持敌对态度的不同部门,以获取他们不愿释放的数据集的元数据
-
在一个超过 1000 节点的集群中,构建、测试并部署一个关键任务应用程序,实时服务水平协议(SLA)高效完成
-
在没有对方帮助的情况下,调试别人编写的至少 2000 行长的间歇性 bug
-
利用集成方法来增强你正在开发的预测模型
-
在与来自 3-4 个完全与您之前工作无关的领域的人进行配对编程时,要在截止日期前完成工作
如果现在对以上列出的每一项都感到完全不舒适,那么我的建议是避免将“数据科学”作为职业。
数据科学家这个词在 2012 年左右作为一种新角色显得“性感”,如 DJ Patil、Hilary Mason 等所提。然而,并不是每个人都能获得 4 亿美元 IPO 的一部分!(完全公开:我在其 IPO 之前被邀请加入 LinkedIn 三次,但固执地追求其他机会;那里的团队真是优秀!)
大约在 2012 年:那是当时,现在是现在。实际的数据科学工作包括:
-
一些从“绿地”状态创新的机会,但并不多
-
大多是被召入一个现有的项目——这个项目以某种方式处于风险中
-
向权力说出真相(这并不有趣,但这是角色的本质)
重申 DJ 和其他人之前清楚表述的观点:大多数与数据相关的问题是社会/组织性的(例如,数据孤岛、缺乏元数据、矩阵组织内斗等),否则关键洞察力可能已经在那个组织内显现。
我有一种预感,大部分有趣的电子商务工作已经完成——大玩家将继续获得丰厚收入,但现在的工作大多在硅谷之外。或者说,其他行业来到这里学习、合作、购买等。
例如,孟山都在旧金山推出了一家私人股本公司,实际上可以比几乎任何风险投资公司以更优惠的条件投资农业数据项目。与此同时,该地区的风险投资公司几乎忽视了在重要领域的与数据相关的项目——Khosla 除外。在过去几个月里,他们收购了硅谷内的业务单位:Climate Corp、Solum 等,顺便说一下,这些都是由 Khosla 资助的。预计这种趋势会继续。
从我的角度看,现在数据领域的大问题不在于广告技术,而是现实问题:粮食供应、干旱/洪水、能源安全、医疗保健、电信、除石油依赖之外的交通运输、更智能的制造、森林砍伐监测、海洋学分析等。
此外,IT 预算在数据洞察方面仍然存在巨大缺陷。太多预算投入到“数据工程”的神职中,且预算往往用于已经清理过的数据。我发现,硅谷的“产品管理”概念几乎与数据的有效使用相对立:在许多情况下,产品经理的激励措施可能会阻碍公司内部数据的使用。
因此,我们的价值通常会体现在:
-
编写代码以准备数据
-
自动化流程以改进特征工程和模型比赛
-
向权力说出真相
第一个讲述了 IT 预算被错误分配的问题,第二个讲述了产品管理几乎系统性地敌视有效使用数据。第三个讲述了作为数据科学家的几项重要贡献,包括向高管提供确凿证据以解雇其他高管并使公司回到正轨。再次强调,行业干扰具有影响。
对于刚刚起步的人来说,要非常小心选择工作地点。如果一家公司声称有“优秀的工程技术”但数据使用情况不足(大约 2014 年),那么他们不是工作台上最锋利的工具;选择其他公司开始吧。寻找导师。加入那些得到金融或运营部门强力支持的团队(这些部门通常理解数据和变异),而尽量避免那些得到工程或营销部门支持的团队(这些部门通常不理解数据的有效使用)。
推荐,不一定按顺序。
-
学会利用不断发展的 Py 数据栈:IPython、Pandas、scikit-learn 等。
-
学会领导跨学科团队。
-
获得 1 个以上数据/分析/编程领域之外的经验。
-
扎实掌握设计基础并将其应用于数据可视化。
-
尽一切可能成为更好的写作者和演讲者(除学术会议外)。
-
参与会议;发布博客、演讲等(招聘经理忽略简历,寻找在线发布的内容)。
-
扎实掌握抽象代数、贝叶斯统计、线性代数、凸优化。
-
研究流数据的算法和框架(未来的大用例不是批处理)。
-
学习 Scalding 和具有类型安全性的函数式编程。
-
避免商业智能(像避瘟疫一样)。
-
避免任何被称为“ Hadoop 生态系统”或“ Hadoop 作为操作系统”的内容。
Paco Nathan 是大数据领域的“玩家/教练”,在大型应用程序的创新数据团队中领导了 10 多年。作为分布式系统、机器学习和企业数据工作流程的专家,Paco 是 O'Reilly 的作者,并且是包括 The Data Guild、Mesosphere、Marinexplore、Agromeda 和 TagThisCar 在内的几家公司顾问。Paco 从斯坦福大学获得了数学科学学士学位和计算机科学硕士学位,拥有超过 25 年的技术行业经验,涵盖了从贝尔实验室到早期初创公司的经历。