首页 > 资讯 > 综合 > 正文
2024-02-18 05:26

在掌握这 6 项必须具备的数据科学技能之前

我在下面分享的所有技能都是作为技术领域的数据科学家所需的最重要的技能。

然而,由于“数据科学家”一词在不同的公司可能有不同的含义,因此我将主要讨论我所从事的数据科学家的类型。 这也是 FAANG 公司和其他类似公司的专家类型。

基本上,数据科学家是使用数据产生推动决策的见解和价值的人。 人们需要知道如何实施机器学习,但除非需要,否则并不总是在实践中应用。 基本上,数据科学家正在向决策科学靠拢。

本文面向准备加入数据科学行业的任何人,无论您是学生、应届毕业生还是已经成为数据科学家。

你准备好了吗? 让我们进入正题吧。 别忘了把你的信鸽连同我的感谢信一起寄给我。

我每天都会使用这些技能

自从两年半前作为实习生加入以来,我就一直在挥舞着我的魔杖。 我很幸运能够进入这家公司,但我并不具备下面列出的一些技能。 但我逃脱惩罚的主要原因是因为我还是一名学生。

当你第一次进入职场时,你可以做很多事情,但一旦你开始获得经验,游戏规则就开始改变。

因此,除非你从实习生开始,否则进入科技行业(或任何其他工作)的障碍很快就会堆积如山。 好消息是:你仍然可以进入这个行业。

你只需要聪明地玩这个游戏,并确保你首先拥有正确的牌,并将它们很好地呈现在你的简历中。 这包括:

好吧,我知道这听起来很神秘,但是立即给你答案有什么意义呢?

技能 1. 掌握数据提取、准备和探索的炼金术

图片来自作者

无论是分析 A/B 测试还是进行基础研究,我的工作流程总是从提取数据并将其转换为所需的形式开始。

我不是变形者,但我学会了在数据上耍花招(至少我一直在尝试)。 通常,我们首先使用 SQL 的神奇特性来提取数据并将其转换为最终形式。 然后,我们转换数据集以获得更深入的见解。

第 1 课——掌握组装数据和处理复杂查询的艺术

您可能认为您已经知道这一点,但相信我,事情很快就会变得混乱。 让我解释一下原因。

当我说 SQL 时,我并不是指基本和 GROUP BY。 在这个级别,您需要使用更高级的查询函数,例如窗口函数、日期时间数据、数组/结构体操作等。

在我当前的一个项目中,我正在进行 A/B 测试分析,我们使用 4 个指标(+1 个护栏指标,以确保我们不会一路搞砸任何事情)来衡量成功 → 这意味着有必要精心设计5个复杂查询,每个查询40-50行,一次提取一个指标。

面临哪些挑战? 确保复杂查询网络的准确性。 一旦开始处理相互交织的查询,任何事情都可能出错。

第 2 课——掌握使用统计学进行探索性数据分析的技能

如果到了这个阶段,您已经掌握了从头开始创建准确数据集的技能,那么您就已经通过了第一级。 下一步是确保使用统计技术和可视化工具(例如直方图、散点图或箱线图)来理解数据。

同样,如果您对数据的数学含义不保持开放的态度,事情很容易变得复杂。

在我之前提到的实验中,其中一个成功指标存在一些极端异常值,导致指标结果出现偏差。 我必须在用户级别进行聚合以捕获这种偏差,然后正确纠正它。 这就是统计知识派上用场的地方。

在发现我的数据呈泊松分布后,我用一个简单的技巧解决了这个问题,即用高于平均值 3 个标准差的上限值替换异常值。 下面是我使用的查询:

WITH statistics AS (SELECTCEIL(average_value + (std_dev*3)) AS upper_limitFROM (SELECTAVG(metric) AS average_value,STDDEV_SAMP(metric) AS std_devFROM data))
SELECTid,IF(metric > s.upper_limit, s.upper_limit, metric) AS metric_countFROM data usCROSS JOIN statistics sORDER BY 2 DESC

如果是正态分布,考虑到曲线的不同形状,我会采取不同的方法。 具体这个方法是:

SELECT *FROM dataWHERE metric_count <=(SELECT DISTINCT PERCENTILE_DISC(metric_count, 0.997) OVER() AS percentile_99th -- 3 standard deviation above the mean to remove outliersFROM data)ORDER BY 2 DESC

现在您了解了为什么了解数据中隐藏的分布、趋势和潜在异常情况如此重要。 有时,就像我一样,您还需要通过聚合用户级别或其他维度的数据来进一步深入。

如何培养这些技能?

首先,亲自使用高级 SQL 函数来执行复杂的查询。 了解如何对查询进行 QA。

复习统计概念和概率论,学习基础知识:

描述性统计可确保您了解数据的属性,例如平均值、中位数、方差和标准差,以及异常值、四分位数等。

分布理论,理解不同的概率分布,例如正态分布、二项式分布和泊松分布(及其形状)。 这将帮助您对数据做出正确的假设并相应地处理数据。

我仍然时不时地回顾这些概念。 即使是经验丰富的数据奇才也常常需要复习。 毕竟,没有人能免受记忆错误的影响。

技能2.通过数据可视化创造引人入胜的故事

图片来自作者

如果您还没有意识到,所有优秀的数据科学家都取决于他们讲故事的技巧。 在科技界尤其如此。

讲故事就像一根魔杖,每个数据科学家都必须精确地挥舞它。 即使是专家数据科学家也需要不断磨砺他们的叙事之剑。

事实上,我很快就会与其他数据科学家一起参加一个研讨会,学习如何创建有影响力的信息图表和数据视觉效果。 科技公司高度重视这项技能是有道理的。

如果不能传达信息,即使是最具突破性的发现也是无用的。 有效的沟通是关键,而这始于我们如何构建我们的见解。

第 3 课 — 磨练您设计有影响力的视觉效果以吸引智囊团成员的能力

首先要回答的问题是什么? 您希望数据讲述什么故事?

想要形象化关系吗?

图片由作者使用和制作

如何展示对比?

图片由作者使用和制作

图片由作者使用和制作

需要检查分布吗?

想要强调比例?

图片由作者使用和制作

图片由作者使用和制作

第 4 课 — 尝试使用仪表板工具来改进您的简历

独立的可视化非常强大。 如果将它们结合在一起,效果会更好。

在技​​术领域,数据科学家经常构建仪表板来显示和跟踪关键指标。

在过去的几个月里,我花了很多时间在 上从头开始设计和构建仪表板。 不仅仅是我,我的整个团队都投入了同样多的努力来构建类似范围的仪表板。

为什么这么忙? 因为数据科学家的真正魅力在于通过研究创造商业价值。 随着我们继续支持由工程师、设计师、产品经理等组成的跨职能团队,我们的时间变得更加宝贵。

我们不能被暂时的问题所左右。 相反,精心设计的仪表板使利益相关者能够访问他们所需的数据,使我们能够专注于我们最擅长的事情——研究!

了解 Power BI 等工具的基础知识可以为您的技术工作简历增添一些魔力!

我认为没有必要,因为您可以在工作中学习这项技能,但如果您渴望进入迷人的技术世界,请考虑在您的字符串中添加另一根字符串。

我会教你如何在下一个故事中写出类似的情节。

技能 3. 解读统计学的预测魔力

图片来自作者

我们经常喜欢测试功能发布或更新的影响,实现此目的的一种方法是 A/B 测试。 当这种方法不可行时,我们会转向其他方法来估计释放的因果影响,例如因果推断。

有时我们可能需要深入研究更多的技术方法,对一组用户进行聚类或进行特征重要性分析来了解用户行为。

同样,了解如何应用更先进的统计概念、建模和机器学习技术是基础。但是,您可能已经知道

第 5 课——深化统计在分析、建模和预测中的应用

您不需要像深入学习深度学习那样深入研究机器学习。 事实上,我几乎不记得上次在日常工作中应用这些复杂技术是什么时候了。

然而,这并不意味着您所有的统计知识都会被忘记。 我们可以说它被重新用于更具体的应用程序。 此外,还有比深度学习更复杂的东西。

根据用例的不同,进行因果推理分析可能具有挑战性,但结果比您在深度学习兔子洞中可能找到的结果更直接、更不抽象。

所以答案是肯定的,你需要了解统计和概率。 您可能不会做太多机器学习技巧,但我发现能够在机器学习之外探索统计的力量更有趣。 这是相当被低估的。

技能 4. 通过 A/B 测试发现占卜的艺术

图片由作者提供

苹果、谷歌等公司,他们有什么共同点? 我并不是说它们都是科技公司。

就是它的创新。 这些公司不断地大力投资新奇事物。 这就是他们留在游戏中的方式。 研究和开发是技术的核心,它始于创建新功能并对其进行测试。

在此过程的两个阶段中,数据科学家都发挥着关键作用。 我们进行研究来支持新功能。 然后,我们开始测试这个新产品是否真的值得向整个客户群发布。

怎么做? 我们设计实验(也称为 A/B 测试)来检验我们的假设。 当您看到一项新功能发布时,那是因为它已经经受住了实验的考验。

我不是说了能力要平均值么_平均值可以看出什么_能力值要平均值

作为数据科学家,我们参与创建实验、选择指标和分析结果。

确保实验在统计上是正确的并且结果是可解释的。 通过这种方式,我们可以最大限度地提高为数据支持的决策提供信息的机会。

第 6 课:熟悉 A/B 测试的基础知识

我没有骗你,这又是关于数据的。 它们无处不在,我们似乎无法摆脱它们。

进行实验都是关于假设检验的统计概念。 所以一定要彻底检查一下。

在加入之前,我从未做过 A/B 测试。 我试图调查一下,但坦率地说,如果你不直接在公司内部这样做,那就很难做到。 如果您在当前的工作中没有机会学习 A/B 测试,这里有一个简单的分步指南,可以教您需要掌握的概念:

1.假设检验

这是什么? 确定我们的数据中是否有足够的证据来推断某种情况适用于整个群体,而不仅仅是我们测试该情况的样本的过程。

它为什么如此重要? 这是 A/B 测试的支柱,您正在测试变化 (B) 是否比现状 (A) 更好。

如何学习? 深入研究基础统计教科书或专注于推论统计的在线课程。

2. 测试统计

这是什么? 有助于决定是否拒绝原假设(现状)的标准化值。 它们帮助您评估您观察到的对照组 (A) 和治疗组 (B) 之间的差异是否具有统计显着性,或者是否可能是偶然发生的。

它为什么如此重要? 该值将告诉您在测试中观察到的效果是否可能是由于偶然或您所做的更改所致。

如何学习? 将此与假设检验一起对待。 在线平台如可汗学院(Khan)或其他在线平台都有非常好的模块。

以下是主要测试统计数据以及何时使用它们的细分:

z 检验 → 适用于总体方差已知的大样本量。

学生 t 检验 → 当总体方差未知时使用小样本量。

卡方检验 → 用于分类/二元结果的检验,以检查观察到的频率与预期的频率。

F-→ 比较 A/B/C… 测试中多个组之间的差异。

检验统计量是根据样本数据计算得出的,我们用它来确定 p 值。

p 值是多少? 假设原假设成立,则观察到的检验统计量有可能与根据样本计算的检验统计量一样极端或更极端。

3. 样本量计算

这是什么? 基本上,需要多少次观察才能发现对照组和实验组之间的显着差异。 您无法在整个客户群(人群)上测试您的新功能,如果出现问题怎么办? 我们不想扰乱总体,所以我们使用样本。

为什么这很重要? 观察太少可能会错过真实效果,太多可能会浪费资源(或损害游戏体验)。

如何学习? 使用在线计算器来感受一下,然后通过在线课程或统计教科书深入研究数学。

4. 基本曝光与自定义曝光

这是什么? 基本暴露是暴露于变体的用户的默认百分比,而自定义暴露则允许特定的定位。 也许我们只需要在 上播放歌曲的用户,而不是打开播放列表的用户。

为什么这很重要? 确保测试的是正确的人,并且测试结果不会产生偏差。

我怎样才能了解更多相关信息? 阅读主要科技公司的案例研究或 A/B 测试最佳实践,了解不同的策略。

5. 最小可检测效应(MDE)

这是什么? 您希望测试检测到的最小效应量。

它为什么如此重要? 帮助计算样本量并为构成“成功”测试的内容设定明确的基准。

我怎样才能找到更多信息? 有关 A/B 测试的文章和案例研究经常讨论这个问题。 一些 A/B 测试工具具有内置计算器。

6.新颖效应和首因效应

这是什么? 用户可能会对新事物(新颖性)做出积极反应,或者记住他们第一次看到的事物(首要性),这可能会影响结果。

它为什么如此重要? 确保您不会将暂时的兴奋误认为是真正的偏好。

我怎样才能找到更多信息? 行为心理学资源可以提供见解,深入研究这些偏见的 A/B 测试文献也可以提供见解。

您还可以生成模拟数据并运行 A/B 测试来了解该过程。

最后,请记住,我们正在统计的水域中航行。 绝对的确定性只是一种幻觉。 然而,优秀的数据科学家努力遵循实验中的最佳实践,以避免由于误报或漏报而得出误导性的故事。

技能 5. 了解 KPI 背后的数字

图片由作者提供(dal.e)

自从我加入公司以来,我一直听到的一件事就是参数讨论。 它对我来说总是很模糊,就像数字这个词一样。 最初,考虑到复杂性,我并不总是参与定义参数的过程,但现在我参与了。

将业务目标转化为可衡量的 KPI 至关重要。 数据科学家的工作通常是将业务目标正确转化为可操作的指标。

衡量框架成为许多利益相关者的参考点,特别是当我们想要衡量成功并跟踪我们的进展时。

第 7 课:学习参数背后的哲学

让我们重点关注 A/B 测试的示例。

如果您不知道如何正确定义参数,您的实验将毫无价值。 如果您没有选择正确的指标来捕获您想要衡量的变化,您最终可能会得到:

错过变化是因为您可能选择了错误的指标,对机会不够敏感

关于您尝试衡量的错误修复或功能发布的真实影响得出错误的结论

提出错误的建议可能会产生更大的后果

定义参数并不像看起来那么简单。 为了找到衡量成功的最佳方法,我们花了几周的时间讨论我参与的最后一个实验的参数。

因为我们花了很多时间讨论参数,所以我意识到它们是多么重要。

创建指标时,数据科学家通常需要确保它们:

如何学习参数哲学?

如果您无法访问实际参数,您可以:

深入案例研究:网上有大量的商业案例研究。 选择与您感兴趣的行业相关的一个。 尝试了解业务目标并集体讨论衡量成功的可能指标。

开始一个理论项目:想象一个假设的产品或服务。 成功是什么样的? 定义成功的 KPI。 您甚至可以与同事或导师讨论以获取反馈。

阅读科学论文:作为我测量框架研究的一部分,我最近深入研究了 Alex Deng 和 Shi 的论文 ()。 我发现它内容丰富,适用于现实世界的案例,我向任何刚开始接触计量学的人推荐它。

对于已经工作的人,您可以:

参数不是静态的。 随着您的业务目标的发展,您的指标也应该随之发展。

技能 6. 伪造你的向导代码

图片由作者提供

虽然您的数据科学魔法至关重要,但您使用的魔杖和咒语(您的代码)需要锋利而强大。

第 8 课 — 提高您的编程技能,以更好地解决个人和团队的挑战

让我们探讨一下这需要什么:

编码效率:能够编写高效的代码是有价值的,但效率不仅仅是速度。 它是关于创建最有效、明智地使用资源并且易于他人理解的解决方案。

熟练程度和 SQL:这是许多数据科学家的面包和黄油。 确保您不仅熟悉它们,而且还了解它们的复杂性。

大数据平台:随着数据的增长,其复杂性也随之增加。 或者像 AWS 这样的平台在处理大数据方面处于领先地位。 熟悉这些平台可以增强您的简历,让您看起来“准备好采取行动”,从而获得录用。

代码组织和文档:干净、组织良好的代码不仅仅适合您。 这适用于将来可能遇到您的作品的任何人。 编写可共享代码时,请确保您学习最佳实践。

与 Git 合作:数据科学不是一个人的努力。 共享和存储代码至关重要,而像 Git 这样的平台可以让这一切变得无缝。 除了“了解”Git 之外,还尝试了解提交消息、分支和合并的最佳实践。 我不认为 Git 特别容易,但它可以改变游戏规则。

持续学习:技术领域正在迅速发展。 库在不断更新,新工具不断出现,方法也在不断变化。 保持更新不仅是有益的,而且是必要的。 确保留出时间进行探索,以免退出游戏太多。

终极技能

图片由作者提供

确保您始终将一切都与基本业务目标联系起来。 这是最有价值的技能。

科技公司首先是企业,因此我们所做的一切都是为了推动全球业务目标。 每一个数据、每一个分析和每一个建议都应该与更大的业务愿景产生共鸣。

您将在整个数据科学职业生涯中学到这一点——这本身就是一段旅程。

为了展示您的杀手级商业头脑,请确保您练习解决植根于现实业务场景的数据问题。 这些是你在简历中最需要强调的事情。

考虑将它们添加到您的存储库(您将在简历中链接到该存储库),并详细说明您的策略、见解和建议。 这样,他们就知道谁是老大——我指的是游戏中的巫师。

底线——在申请技术职位之前磨练这些技能可以增加您获得梦想工作的机会

当然,这意味着你必须确保在简历中突出显示他们,否则他们怎么会知道你的惊人能力呢? 因此,请确保通过引用示例和链接项目来说明您的所有“魔力”。

这就像无法传达伟大的见解——如果你不能以令人信服的方式分享它,那么做任何事情都是没有意义的。

1.学习高级数据处理和探索性数据分析(EDA)

2. 培养以视觉方式讲述引人入胜的故事的技能

3. 加深对建模和预测统计的掌握

4.熟悉A/B测试基础知识

5.了解测量框架背后的哲学

6. 改进你的编程库

感谢您的阅读和欢呼!