中国科技翻译

综合新闻

2022年十大最实用的数据科学技术

来源:中国科技翻译 【在线投稿】 栏目:综合新闻 时间:2021-10-20
2022年想找数据科学方面工作的看过来哦。


编者按:数据科学技术现在非常火,但是要在数据科学领域找到好工作,也要有拿得出手的真本事,不是泛泛学了一些基础技术就可以的,尤其是像NLP和推荐这样的细分方向。看看本文的10大实用技术介绍,也许对你有帮助。本文来自编译。

Photo by?

简介

许多关于“如何学习数据科学”的课程和文章(包括我自己写的那些),都倾向于强调统计学、数学和编程等这些基本技术。然而通过自己的亲身体验我发现,光掌握这些基本技术对就业不一定有多少帮助。

因此,我想创建一个独特的实用技术清单,帮助增强你的就业竞争力。

对任何数据科学家来说,不管你主修的专业是什么,这个清单里的前四项技术都是绝对关键必须掌握的,后面的6项技能(5-10)也很重要,但根据你的专业,侧重点会有所不同。

例如,如果你统计学基础最好,你可能会花更多的时间在学习推理统计上。如果你对文本分析更感兴趣,你可能会花更多时间学习NLP,或者如果你对决策科学感兴趣,你可能会专注于研究解释模型。术业有专攻,你明白了吧。

下面就来具体了解一下这10种数据科学技术吧,我认为它们对于就业是最实用的。

1. 编写SQL查询和构建数据管道

如果你学会了编写强大的SQL查询语句,并能够在像 Airflow 这样的工作流管理平台上合理调度它们,这将有助于你成为非常优秀的数据科学家,因此我把这项技术放在首要位置。

原因如下:

1.灵活性:公司喜欢的数据科学家不仅能做数据建模,它们最喜欢的是全栈数据科学家。如果你能够参与和帮助建立核心数据管道,你将能够通过收集数据和分析数据得到更深入的洞察,做出更出色的报告,由此可能会改善人们的生活状态。

2.独立性:在某些情况下,你需要为一个模型或数据科学项目提供表格或视图。如果你能够为你的项目编写强大的数据管道,而不需要依赖数据分析师或数据工程师,将大大节省时间,同时也更加体现出你的价值。

因此,要成为一个数据科学家,你首先必须是SQL专家,没有任何例外。

2. 数据整理/特征工程

无论是建立模型,探索新的功能构建,还是进行深度挖掘,你都需要知道如何处理数据。

数据整理意味着将你的数据从一种格式转换为另一种格式。

特征工程是数据整理的一种形式,具体指从原始数据中提取特征。

你是如何处理数据的并不重要,无论使用Python还是SQL都可以,但你应该能够以你喜欢的方式处理数据(当然是在可能的范围内)。

3. 版本控制

当我提到“版本控制”时,我具体指的是GitHub和Git。Git是世界上使用最多的版本控制系统,而GitHub本质上是一个基于云端的文件和文件夹仓库。

虽然Git对于数据科学来说并非最直观的技能,但对于几乎所有与编码有关的角色来说,它都是必不可少的。为什么呢?

  • 使用它你可以很方便地与他人合作,在项目上并行工作

  • 它可以追踪到你代码的所有版本(以防你需要恢复到旧版本)

所以花点时间学习 Git吧,它将使你走得更远。

4. 讲故事(也可以说是沟通能力)

构建一个视觉效果上令人惊叹的仪表盘或一个复杂的、准确率超过95%的数据模型当然是很棒的成就,但是如果你不能把你项目的价值准确地传达给别人,你就不会得到应得的认可,最终,你无法在职业生涯中取得本应有的成功。

讲故事是指“如何”跟别人表达你的见解和模型。从概念上讲,如果我们用一本图画书做比喻,见解/模型就好比是书里的一张张图片,而“讲故事”则是串联起所有这些图片的叙述。

在科技界,讲故事和沟通是被严重低估的技能。从我的职业生涯来看,这种技能水平的高低,也代表着初级员工与资深员工和管理者之间的差距。

5. 回归/分类

你要能够构建回归和分类模型,即预测模型,也许这些并不是你一直在做的事情,但如果你是一个数据科学家,雇主会希望你也能够承担起来。

即使这些事情你并不会经常做,你也必须精通,因为需要建立高效能的模型。在我迄今为止的职业生涯中,我只做过两个机器学习模型的产品化,但它们对业务的影响至关重要,是非常关键的任务模型。

因此你应该对数据预处理、增强算法、超参数调优和模型评估指标有充分的了解。