数据科学家

有个面试经历挺好玩的，记录一下。

面某家数据科学家...

面试官：你一般用什么语言？

我：r用的比较多，python也可以。

面试官：你写一下xx算法的实现（某个简单的计算机算法）

我：xxxxx()这个函数？

面试官：你自己写一遍。

我：我记不太住了，当年学过，考完四级就忘了（我还无聊到去考过计算机四级）...我不是学计算机专业的，不太写这种程序。r和python, c不一样，里面函数比较多，大部分可以直接调用（我想说：我很少操作指针这种东西）。我用统计方面的函数比较多。

面试官：所以你们写程序就是调用一下函数？

（结束）

我：....（我不是这个意思....）

唉，无力辩解的忧伤。没法跟cs出身的面试官友好的谈话了。我以后再也不指责那些直接拿各种现成的统计模型往数据上套的“数据”工程师了...人家至少不需要调用函数包，看看模型的伪程序就可以自己写了....

后续：然后我就去刷leetcode了...

后续2：对“数据科学家”（data scientist）这个职位我都有心理阴影了...面一个挂一个，呵呵。

Yihui写篇文章居然链到了我那篇吐槽文，瞬间亚历山大...我就是随便说说而已，一定要文责自负么？

其实我经常会有些自我的偏见在那里，而且有时候明明知道这些偏见的存在不好，还是很难说服自己改变它们。

比如，最深的偏见就是我对于计量经济学，我实在无法从根本上接受计量经济学属于经济学的这个事实...我对于它从统计观点出发搞的“因果推断”始终加上一个引号。

再比如，计量经济学内，我偏见最深的就是时间序列分析，我实在无法从根本上接受时间序列分析居然可以做因果推断，这东西更多的是预测的意味嘛，和机器学习的观点很像...

再再比如，机器学习各种模型中，我最不能接受的就是那些完全没有假设检验的...这东西至少也得能算个方差什么的才让人觉得靠谱些吧？

再再再比如，没有假设简单的那些机器学习模型中，我最最最最无法认同的就是最粗暴的把各种模型结果混合起来，用类似bootstrap的方法求得置信区间之类...这简直是就毫无办法之下的粗暴猜测嘛。

然后最后一个问题，施老师说，这个某种程度上反映了“群体智慧”。呃，好吧，就算每个模型都提取了一定的信息量，然后这么混合起来就是万灵药了？怎么听怎么像中药一锅煮的感觉，而不是西药那么配方分明...

其实我还讨厌的是“数据科学家”这个说法...努力的把science的帽子往自己脑袋上套，是大家都要遵循“科学发展观”的缘故么？就像我原来特别讨厌有人争论“经济学是硬科学还是软科学”一样，一定要沾上科学的边么？是为了好申请经费么？

如果科学，定义为消除我们对于世界的不确定性，那么无论是经济学还是统计学，不用争议多少，自然都是科学。如果科学，定义为探寻事物发展的因果规律，那么怕不是建立在演绎法逻辑之上的方法，都算不上科学了。我想说的只是，定义可能并不重要，如果定义是狭隘的，那么必然排除了一些有用的方法；如果定义是广阔的，那么必然包容了一些没用的方法。这东西又不是非黑即白的...

我只能说，科学在我这里的定义相对狭隘，宁缺勿滥，所以我的偏见有这么多...偏见越多，观点越偏颇，经常有过两年自己都不知道自己当年为什么那么幼稚和狭隘的感觉。所以大家一来请见谅落园文章的局限性，二来欢迎帮我突破局限性，用鲜明的观点和生动的例子来说服我——不仅仅是一些口头上关于定义之类的争论。

------------

照例跑题：确实如yihui所说，我的blog文章太多了，找起来难免不方便。尤其是对于不是常年订阅的读者来说。所以我决定对自己的blog主题动动手术了，瀑布流什么的最近蛮流行的，挺好的打算学习一下。