Open Metric
Science, Fiction and Me

做了三年 Data Scientist

已经转行有接近三年了,从学术界到工业界,有很长一段时间我都没有正确地转变观念,经过一些挣扎,探索了不同的世界,我觉得我终于找到了我的“叙事框架”,最近也重新在市场上对自己进行了定位。所以我觉得如果要做一个记录的话,现在是一个不错的时间点。

这更像是一个我个人的记录,虽然有些“经验”,但我觉得每个人都会走过不同的路径,而每条路径都可以很精彩,所以我没有总结成什么条目。即便我设计这条路径用了很多错误的假设,我也偏执地相信,我的这条路径也会有很多有意思的故事。当然,将来有了新的认知,也会继续更新,当然也很可能将来会推翻我这里的一些想法,就像我这里会更新我之前日记中的想法一样。

心态:一个很慢的故事

两年前写过一篇这样的日记:做了六个月的 “Data Scientist”

关于转行,我着实是经过了一个漫长的调整和适应的过程。

为了更好地解释我经历的这个过程,我画了一个示意图。下图中把我过去的经历分成了三个不同的阶段:

  • Phase I:新职业的学习带来的快乐很高,旧职业的痛苦历历在目。
  • Phase II:新职业学习减缓,旧职业苦痛忘了差不多。
  • Phase III:找到新职业中的大图景,对旧职业的认知更加客观。

新旧职业交替。Happiness fraction 可以定义为每次想起职业发展,快乐的次数占总次数的比例,当然旧职业只能是存在于回忆中了。工作带来的快乐,差不多就是上面蓝色曲线和红色曲线的差值了。

刚刚转行的时候,经历了常见的”新领域激情“,刚刚进入数据科学这个领域,技能增长非常快,每天都会觉得自己学到了很炫酷的东西,换领域的失落感还没有真正出现,就很开心。但是随着技能和知识增长速度的减缓,新职业带来的快乐开始衰落,旧职业的痛苦忘的差不多了,这样一对比就觉得自己做了错的选择,开始痛苦。然后在某个时间点,突然找到了新职业的正义图景,新职业就会带来更多的快乐,这时候对新职业和旧职业回忆的认知开始变得更加客观,之后就不知出现翻转,新职业的快乐就会超过回忆中的旧职业的快乐。

成长:两份工作的探索

转行后,我探索了不同的领域和公司,从租房市场到物流,从广告业务到核心的业务。

开始的工作就是什么都做,但我觉得自己年龄大了,做全随机探索不行的,应该集中精力发展一个特定的领域(importance sampling 或者说是我自己的世界观里做 gradient ascent),而不应该不停地乱试。

开始做租房市场,后来恰好有物流行业巨头设立了一个新的创业公司来改变行业,我就换到了转行之前就有些兴趣的物流行业。租房市场和物流行业,都有类似的问题,就是信息共享的问题。大企业不愿拿信息出来共享给小玩家,而小玩家占据了市场的大份额。这种分裂的市场导致我们一直在浪费大量资源。从企业的角度来看,机器学习提供了一个很方便的解决方案(generalization power)而且不会泄露每个玩家的隐私。

为什么要选择物流呢?因为我觉得这个行业充满了各种有趣的问题。而且这是一个庞大而古老的行业,往表面讲,与我们生活息息相关,往深处讲,背后隐藏着很有趣的复杂系统基本原理而且带有数据。这个古老的行业正在经历一个转变,现在也是参与这个转变的好时机。

我觉得我第二份工作对我帮助非常大。公司给了我非常非常大的自主权,利用公司资源探索了一些技术实施的东西,另外假期比较多,也没有加班,所以我给自己定了一个 curriculum,基本上每天晚上和周末都有时间自己阅读和探索,这样比较宽松的状态下,每次阅读和探索都很开心,所以我比较系统地补全了一些技术和知识。

两个笔记系统中的笔记。Obsidian 和 datumorphism.leima.is。我觉得可能有更多人感兴趣的内容,我就分享到了这个 TG channel

第二份工作中,因为压力而精神崩溃到情况也比第一份工作少很多(第一份工作因为维护 data pipeline/warehouse 时刻处于警觉状态,而且处理杂务压力的经验比较少)。一个感受就是,对于我这种人,与其积累压力周期性崩溃,合理地安排时间和精力来减少这种周期性崩溃的状态,可以更好地兼顾家庭和工作,生活会开心很多,最终效率反而更高了(从阅读和代码数量上来看)。

就像我在这条豆瓣说提到的,其实心态很难调整。我经常被自己增长速度的缓慢击垮。以前那种什么不懂就赶紧熬夜搞懂的事情现在身体已经不允许了,所以我才逐渐转向计划型的人生,维护一个关于自己长期增长的 todo list 和一个 backlog,原则上可以保持自己任何时候想做事情都可以把 list 拖出来,按照优先级来做事情。

另一个事情就是我很担心自己陷入“因为没有见识过而很自大”的状态(这是我脱离学术圈之后最大的担忧),所以我一直想要去跟别人接触,参加会议或者组织活动,虽然有时候很社恐。例如我们最近一直在举办的 Conditional Probability Estimation 的讨论组

图像:不要脸的大图景

现在这个年龄,我要活得开心,得给自己一个高尚的大饼。所以就给自己搞了个大饼,每一步围绕大饼改变,如果运气好的话。有了大饼,就有了 landscape,然后人生就可以在这个 landscape 上做 gradient ascent 了。而且还可以依此建立优越感。(类似 vim 是最好的编辑器这样的虚无的优越感。)🤪

这怕不是太狂妄了,人生哪有那么顺利!所以这个只能叫做不要脸的大图景,专门用来避免自己觉得人生无意义的。另外,这个 gradient ascent 的前提也是你有个很好的 metric 可以使得你要去的目的地是一个峰值,这个显然是不一定的。可能我要去的地方,是个独特的小山坳。唉,别管了,就这样吧。

就这样吧,不管将来做什么,这段经历对我来说都很重要,过去这三年的经验,其中的计划和执行,应该是值得我用来 (over)fit 我自己的一些数据点。

我要去哪里呢?也许不用想吧,走到哪里就是哪里。我要去哪里呢?也许不用问吧,我的脚丫子会带我去远方。(这都写的啥啊)

By Lei Ma

Last updated