有句很煽情很酸的文字,叫做“人生若只如初见”,然后再随意的填上几个星星点点的省略号就可以了。初见,嗯,那么多人事匆匆,初见也显得格外珍贵了。有的时候,是不是一别,就不知道何时才能再相见? 如果,如果,你是一个软件的开发者或者网店店主,那么,你和每一位顾客的初见,又是什么样子呢?这个时候第一印象——第一次使用体验或者第一次购买体验,往往是决定了这到底是个回头客还是一去不复返。顾客都是懒的,他不会那么主动的给你提供那么多反馈,那么,你可以怎么了解到他的更多信息呢?如果你自己开发一个软件,那么恭喜,每一次和用户数据交互的时候,你都可以记录一些信息。然后这些信息累加起来,就成为了你们之间的来往信息。可问题是,就算打电话我也不能把她说的每句话都记住啊,更何况来来往往那么多数据。应该保留哪些呢? 好吧,不效仿什么“甄嬛体”了,还是“说人话”吧。继RAAT第一话说了说微博数据与network effect玩法之后,现在的问题是: 如果你是一个app的开发者,你应该记录哪些用户反馈/交互的信息呢? 这个问题是一位创业青年过年的时候问我的,到现在我也只能理出来一个简单的回复,真的是有些抱歉。同样的类似的问题,或者更general一点用学术化的...
一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference? 当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。 这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。 对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个...
题目用英文只是因为不知道怎么确切的用中文表达了。最近一直泡在数学里,很多思维大大的被改造了。不过很庆幸自己先学了经济学,否则就真的可能变成数学院某些“只有智商不见情商”的愣头学生们了。或者,万幸? 想起来这个题目,是突然间记起一直以来人们在争执的“经济学到底是不是硬科学”一问题。我不是如彭实戈之类的大家,无资格做什么评判,积累也远远不足。只是最近一直在努力的领悟泛函到底想说什么,一点浅薄的见识就是泛函中有一很重要的概念就是“列紧性”,也就是任意数列都存在收敛子列。这个东西可不得了,要知道类似于Banach之类的完备、赋范线性空间都是列紧的。那就很有研究的味道了~ 那么,收敛意味着什么呢?当然,一方面是一个“有界”的概念,但是我个人觉得可能更重要的是一种“确定性”的思想。在压缩映像定理里面,我们证明了不动点的存在然后一堆方程就可以直接“迎刃而解”了。不动点这个东西推广到概率里面,那更是有意思的紧。不动,意味着方差为0;收敛,意味着均衡的存在。那么,一下子新古典经济学里面很多东西的存在就可以解释了。 最最简单的就是角谷不动点->纳什均衡->博弈论,一下子提供了一种看待问题的新的角度,是数学工具的更新让...