最近读paper的一些领悟

读paper易，做model不易，且读且珍惜。下面仅为个人半夜胡言乱语，轻拍～

最近扫paper的数量没什么下降，但是深入读全文的paper越来越少。一个原因大概是很多working paper 研究的问题我不怎么关心？毕竟不是读书的时候需要读很多paper来应对coursework presentation和literature review...

说说一些感受这样。看paper首先是看标题，有没有特定的关键字；有的话再去看下一步摘要，有没有有意思的地方，无论是建模方面还是结论。摘要有意思的话就标记出来，待扫完目录后去打印个别全文细细咀嚼。感觉现在扫working paper的功力越来越纯熟了，一个小时完成上述工序扫个十篇左右这样。

但是比较哀伤的是我发现大部分选出来的paper还都能读懂，尤其是实证的paper，清一水的不是DID就是RE或者RDD，最多来个IV。读起来更有意思的地方怕是背景描述这块，有很多历史人文地域常识可以了解。我想说那个ATE不是不重要啦，但这货真的不稳定（随时间迁移），做一个时间节点上的估计有多大的概率会历史重演呢？而且很多时候是需要多个因素共同作用的，就跟个化学实验似的，控制的除了原材料还有温度湿度气压等等，实验室里面这些客观条件可控，但经济发展中不可控的甚至不可观测的客观因素实在是太多了。计量更多的框架还停留于单因素分析上（当然单因素已然分析不易），是不是有点落后于时代的诉求呢？唉可能还是要期待数学工具、统计理念对于关系数据处理的更深理解吧。现在的network model还是孱弱了一点。

默默的再补充一个实践中在大数据（big volumn big dimensions）客户数据建模中的体会。很多的时候我们会倾向于找客户的原始特征，所谓的demographical variables，性别啊年龄啊收入啊。但是除了facebook这样真人社交网站，谁会告诉网站自己是男是女年方几何呢？然后为了找这些”珍贵的”数据，要不就是通过现有的数据来猜，比如买女士用品的八成是女性；要么就是通过调查来获取一部分人的真实社会属性。然后呢？扔到模型里面回归去...

我想说，若是前一种，何必绕着弯子从可观测的数据生生的去猜不可观测的数据，然后再用猜出来的数据去预测其他东西？直接用可观测的数据好了。本来就是社会属性->特定可观测行为->预测未来行为这样的路径（比如我知道啊买尿布啤酒组合的八成是新晋爸爸，但是我只要知道你买了尿布啤酒日后就也需要婴儿车日后消费潜力巨大就足够了嘛，我干嘛一定要去知道你是男性已婚已育？看看你买的尿布牌子我大概也知道你家的消费层次和接下来的品牌层次偏好了，何必去苦苦的猜你的收入？），有点像经济学里的“显示偏好原理”，或者有向的贝叶斯网络这样（给定上层节点信息，上上层节点信息无用），何必这么折腾...若是后一种，还需要去费时费力不讨好的调查？又不是以前数据尤其是观察维度稀缺的时代了。每次见到刚被象牙塔教育好的遵循123456黄金律步骤出来的建模者，我都忍不住先深深的吸一口气冷气然后苦口婆心的讲一下为什么这些东西其实不那么重要...

都是被现有的实证paper毒害的，动不动就是入户调查数据。哎，人家是做田野实验的需要手工搜集数据各种来之不易，和你们玩大数据的到处都是蛛丝马迹不一样啊！干嘛只会比着葫芦画瓢，明显使劲的方向不怎么对嘛。学界没数据啊所以没办法，业界一堆数据还愁数据搜集？随随便便做个随机试验前后数据爱取多少取多少...喵，尤其是做预测模型的，其实可以不用那么折腾呀。读paper易，却也是取其精华弃其糟粕，玩的灵活才开心嘛。

再啰嗦一句好了，学计算机和数据挖掘出身的只学怎么在现有数据基础上建模，不学基本的数据搜集实验设计这些统计理念，所以不会往这边想；学统计的又被一群没玩过大数据的长江前浪所禁锢，框架就在那里，你见或不见。估计等现在这一辈成熟了下一辈人就真的是站在巨人的肩膀上了。

2 replies on “最近读paper的一些领悟”