-->

AI内参_143_136_如何组建一个数据科学团队

你好,我是洪亮杰。

今天我和你分享的主题是如何组建一个数据科学团队,数据科学团队。

眼下已经成了很多数据驱动型公司的标准配置,数据科学家也成了最性感的职业。

不少公司都在想办法建立或扩展自己的数据科学团队,而究竟需要什么样的数据科学团队,成了很多公司在发展过程中都会遇到的棘手问题。

在目前的职业市场上,有各种背景,各种经历的人都自称为数据科学家。

那么,如何从这个蓬勃发展却鱼龙混杂的人才市场中找到合适的团队成员呢?今天我就来和你聊一聊,作为一个工程团队的负责人,或者一家公司的CEO,该如何招聘并打造自己的数据科学团队。

目前人才市场上大致有两类数据科学家,一类偏数据分析,一类偏算法模型。

因为这两类人才的区别,不同公司乃至同一公司的不同数据科学团队就有了差别。

在招聘之前,你必须明白,这两类数据科学家的特质很难在同一个人身上都体现出来。

也就是说,你必须根据当前公司和团队的需求来决定,目前应该招聘更偏重数据分析,还是更偏重算法模型的数据。

科学家。

先来说说片中数据分析的数据科学家,他们可能来自于统计数据分析等学科,也可能来自于很多需要数据分析的自然科学学科,比如实验、物理、生物、计算、化学等等。

作为团队的负责人,你需要重点考察候选人是否系统学习过数据分析的相关课程,是否具备数据分析的基本能力。

下面我从理论知识和实际应用操作这两个角度来和你介绍一下考察要点。

从理论知识的角度来说,你需要考察候选人,一、是否对概率统计有基本的认知。

二、是否能够使用基本的假设检验对数据进行分析。

三、是否对高级的假设检验方法,比如非参数假设检验有所了解,能否快速学习和查询到相关的方法。

四、是否了解AB实验,并基本了解实验设计。

五、是否了解高级的因果推论工具,并能否使用简单的因果推论工具,对实验数据进行分析。

六、是否了解如何对时间序列下的数据进行合理分析。

当然,这些技能只是作为数据分析候选人的一些基本素质,具体还需要和领域知识相结合。

那么从实际应用操作的角度上来说,你还需要考察候选人哪些呢?一、是否熟悉一些基本的数据分析工具语言,比如说r或者python.二、是否对SQL有所了解。

三、是否对hadoop等大数据处理工具有所涉猎。

四、是否了解一些基本的计算机算法。

同样的,这些也是基础素质,还需要和具体的职位相结合,你才能考察候选人的综合情况。

接着我们来看偏重算法模型的数据科学家,他们主要来自于计算机科学、计算机工程、电气工程等工程方向。

你需要重点考虑他们是否有基本的算法建模能力,是否系统的学习过算法、机器学习、统计分析等课程,是否在实际工作中有系统的相关开发经历。

对数据的认识,特别是对数据驱动型产品是否有基本的了解。

下面我依次从理论知识和实际应用操作两个角度来谈谈具体的考察内容。

从理论知识的角度来说,你需要考察候选人,一、是否对概率统计有基本的认识。

二、是否对传统的机器学习算法模型有所了解,包括分类、回归、聚类等。

三、是否对概率图模型有所了解?四、是否对深度学习模型有所了解?五、是否对优化算法有所了解?六、是否有基本的计算机算法、数据结构、数据库操作系统的知识。

七、是否对某一些特定领域中的模型有所了解,包括但不限于信息检索推荐系统、计算广告系统、计算机视觉文本挖掘和分析、自然语言处理。

那么这些特别是第一项到第六项,是候选人的基本素质。

第七项是针对某一个具体的职位所需要的背景知识。

从实际应用操作角度来说,你需要考察候选人。

下面这些第一,是否可以使用某种计算机语言来实现一些机器学习算法。

二、是否可以使用和扩展现有的机器学习工具。

三、是否可以使用hadoop为基础的大数据工具来构建生产环境。

四、是否对深度学习框架有所了解?那么这里列出的也是一些基础素质,还需要和具体的职位相结合来考察候选人的综合情况。

总体来说呢,如果你希望招聘的职位,更偏重于理解现有数据,通过数据来对公司或团队的下一步决策有所帮助。

那么这个职位就更偏向于数据分析。

如果你希望通过算法和模型来改进你的产品,无疑你需要招聘一个算法模型方向的数据科学家。

下面呢我再从团队规模的角度来说一下这个问题。

呃,不同的团队往往需要不同的数据科学家配置。

即便是同一个团队啊,在不同时期其实也需要不太一样的设置。

我这里讲的是一些基本的团队设置理念,具体的团队还需要根据不同的领域有所调整。

但总体来说啊,在团队比较小的时候,甚至是初创公司的团队。

你需要具有通才性质的数据科学家。

而在团队扩大公司稳定之后,你需要各类专才性质的数据科学家。

团队比较小的时候,我们可能只需要招聘一两位数据科学家。

这个时候,数据科学家必须同时承担数据分析和算法建模两个角色。

有些情况下,这时候的数据科学家其实更偏向于数据工程师的角色。

那就和其他工程师一起搭建公司的数据平台,对数据的引入、整合清理来提供支持。

早期的时候,因为公司内部基础设施的限制,数据科学家往往需要花费大部分时间在数据平台和通路的构建上。

这时候啊其实很难形成有效的数据分析和算法建模工作。

从另外一个角度来说,在公司非常早期,也就是在数据平台还没有一个基本雏形的时候,招聘和建立数据科学团队是不现实的。

那么当有了基础的数据平台时和数据相关的工作,一般就是计算一些简单的产品运行指标。

然后在仪表盘里展现出来。

能够到达这一阶段之后,一个团队或者公司才具备了建立数据科学团队的最基本条件。

小团队所需要的通才数据。

科学家有两个内涵,第一,在初期,数据分析和算法建模同样重要。

甚至在有些情况之下,数据分析有着更加急迫的需求。

这个时候,以数据分析为主导的数据,科学家就能够对现在的产品需求有很强的理解。

能和产品经理、其他工程师一起快速分析产品的问题,为产品迭代的决策提供数据支持。

第二,在初期,绝大多数产品所需要的算法和模型都并不复杂,甚至仅仅需要数据科学家部署最基本最简单的算法。

因此这个时候即便有算法建模需求,也只需要数据科学家有比较广的知识就行,能够快速识别和实现最基本的模型。

那么在这个阶段,对某一个方向有着深厚背景的专才,往往并不能体现出它的优势。

当业务逐渐稳定并且扩展以后,团队也逐渐扩张,小团队的通才模式就慢慢不太适应组织的发展了。

这个时候我们需要针对目前的产品和业务招聘专才数据科学家。

一般来说啊,我们需要有一部分数据科学家负责数据分析方面,而需要另外一部分数据科学家负责算法和模型开发方面。

这时候,单个人往往已经不能够胜任两方面的任务了。

从数据分析的方面讲,专材的模式需要我们更细的区分。

两类数据科学家,一类是负责设计AB、实验设计和分析产品指标的专项数据科学家。

而另一类就是对各个产品领域进行长时间分析数据内涵的数据。

科学家从算法建模的方面讲,专才模式往往就是针对不同的业务流程线,需要招聘单独的人才。

比如针对图像处理的人才,针对搜索系统的人才,针对推荐系统的人才。

那么这个时候能否招聘到称职的领域专家,成了团队和产品能否持续良性发展下去的根本因素。

这个阶段招聘还需要注意的问题是不要寄希望通过招聘通才来发现专才。

因为从通才到专才的训练是需要非常久很长的一个时间的。

那么这里面有短时间内不可逾越的鸿沟和难以积累起来的经验。

所以,当公司和团队发展到一定规模的时候,分清形势进行专才招聘是必须要进行的任务目标。

今天我为你简单分析了,如果要组建一个数据科学团队,你需要招聘什么样的数据?科学家一起回顾一下内容的要点。

第一,偏数据分析和偏算法建模的两类数据。

科学家在技能背景方面有很大区别。

第二,通才和专才在公司或团队的不同阶段承担着不同的角色。

最后我为你留一个思考题,如何在筛选候选人简历的时候,就能够比较准确的了解这位候选人的经历和能力,是更偏向数据分析还是偏向算法呢?另外,如果你想成为数据科学团队的一员,不妨对照今天我们聊的考察要点自测一下,看看接下来还需要在哪些方面继续努力做好积累呢?期待你给我留言,我们下期再见。