被标记为数据分析的文章

[RAAT]第二话:如果,定格初见~

有句很煽情很酸的文字,叫做“人生若只如初见”,然后再随意的填上几个星星点点的省略号就可以了。初见,嗯,那么多人事匆匆,初见也显得格外珍贵了。有的时候,是不是一别,就不知道何时才能再相见? 如果,如果,你是一个软件的开发者或者网店店主,那么,你和每一位顾客的初见,又是什么样子呢?这个时候第一印象——第一次使用体验或者第一次购买体验,往往是决定了这到底是个回头客还是一去不复返。顾客都是懒的,他不会那么主动的给你提供那么多反馈,那么,你可以怎么了解到他的更多信息呢?如果你自己开发一个软件,那么恭喜,每一次和用户数据交互的时候,你都可以记录一些信息。然后这些信息累加起来,就成为了你们之间的来往信息。可问题是,就算打电话我也不能把她说的每句话都记住啊,更何况来来往往那么多数据。应该保留哪些呢? 好吧,不效仿什么“甄嬛体”了,还是“说人话”吧。继RAAT第一话说了说微博数据与network effect玩法之后,现在的问题是: 如果你是一个app的开发者,你应该记录哪些用户反馈/交互的信息呢? 这个问题是一位创业青年过年的时候问我的,到现在我也只能理出来一个简单的回复,真的是有些抱歉。同样的类似的问题,或者更general一点用学术化的...

查看全文

[RAAT]第一话:微博的数据该怎么玩呢?

引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。 新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢? links类数据 微博有两大类links: 粉丝关系 评论与转发关系 然后呢然后呢? 首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。 嗯,这样一个基...

查看全文

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference? 当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。 这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。 对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个...

查看全文

数据人才的需求

一方面是现在工作的性质,会关注很多跟数据打交道的人和公司;另一方面也是自己直觉上体会到信息化浪潮之下对于数据分析人员的渴望。所以刚刚看到了微博上面的一个infograph,颇有感觉,在这里转一下并多嘴几句。 我最感兴趣的自然是背景这块儿,怎么计算机背景的为多啊?统计的倒是不怎么多。难道是计算性能是现在最大的瓶颈么?我是觉得,没有统计的直觉,也没有经济(好吧,带上商科)的思维方式,再多的数据分析出来也无感啊,不知道怎么应用的。数值结果不见得重要,重要的是怎么interpret和apply嘛。 我始终觉得,数据分析人才一定要有除了计算机和统计/数学之外某个学科的背景,最好是理工科的,最好再有一些实际工作经验,这样才明白什么样子的数据是高质量的,怎么分析是契合常识和逻辑的,得出来的结果又怎么能指导下一步工作。也许是工作中接触了太多纯IT男吧,普遍只对code有感,哈哈。 ---------- 生活要优雅:宁愿高傲的活着,不愿卑微的享受。

...

查看全文

Page 1 of 212

达则兼济天下, 穷则独善其身。 …… 或曰,兼济则达,独善则穷。

我正在关注的:

社会网络,信息传递,实验经济学,小额贷款...

一点点声明

怕下次找不到门?直接google“落园”呗。

落园是我的非学术博客,只是为了娱乐大众。如果您对学术感兴趣,请移步我的英文博客或查看我的简历

最近寻找新工作中,欢迎推荐机会!我的介绍见这儿

最近常常出没的城市:

沪三角(上海、杭州等)、珠三角(珠海、深圳、香港等)、另加西安、成都。如有这些地方的朋友,欢迎提前邮件联系,一起聊聊相互学习 ^_^