Categories
读书有感

最近读paper的一些领悟

读paper易,做model不易,且读且珍惜。下面仅为个人半夜胡言乱语,轻拍~

最近扫paper的数量没什么下降,但是深入读全文的paper越来越少。一个原因大概是很多working paper 研究的问题我不怎么关心?毕竟不是读书的时候需要读很多paper来应对coursework presentation和literature review...

说说一些感受这样。看paper首先是看标题,有没有特定的关键字;有的话再去看下一步摘要,有没有有意思的地方,无论是建模方面还是结论。摘要有意思的话就标记出来,待扫完目录后去打印个别全文细细咀嚼。感觉现在扫working paper的功力越来越纯熟了,一个小时完成上述工序扫个十篇左右这样。

但是比较哀伤的是我发现大部分选出来的paper还都能读懂,尤其是实证的paper,清一水的不是DID就是RE或者RDD,最多来个IV。读起来更有意思的地方怕是背景描述这块,有很多历史人文地域常识可以了解。我想说那个ATE不是不重要啦,但这货真的不稳定(随时间迁移),做一个时间节点上的估计有多大的概率会历史重演呢?而且很多时候是需要多个因素共同作用的,就跟个化学实验似的,控制的除了原材料还有温度湿度气压等等,实验室里面这些客观条件可控,但经济发展中不可控的甚至不可观测的客观因素实在是太多了。计量更多的框架还停留于单因素分析上(当然单因素已然分析不易),是不是有点落后于时代的诉求呢?唉可能还是要期待数学工具、统计理念对于关系数据处理的更深理解吧。现在的network model还是孱弱了一点。

默默的再补充一个实践中在大数据(big volumn big dimensions)客户数据建模中的体会。很多的时候我们会倾向于找客户的原始特征,所谓的demographical variables,性别啊年龄啊收入啊。但是除了facebook这样真人社交网站,谁会告诉网站自己是男是女年方几何呢?然后为了找这些”珍贵的”数据,要不就是通过现有的数据来猜,比如买女士用品的八成是女性;要么就是通过调查来获取一部分人的真实社会属性。然后呢?扔到模型里面回归去...

我想说,若是前一种,何必绕着弯子从可观测的数据生生的去猜不可观测的数据,然后再用猜出来的数据去预测其他东西?直接用可观测的数据好了。本来就是社会属性->特定可观测行为->预测未来行为这样的路径(比如我知道啊买尿布啤酒组合的八成是新晋爸爸,但是我只要知道你买了尿布啤酒日后就也需要婴儿车日后消费潜力巨大就足够了嘛,我干嘛一定要去知道你是男性已婚已育?看看你买的尿布牌子我大概也知道你家的消费层次和接下来的品牌层次偏好了,何必去苦苦的猜你的收入?),有点像经济学里的“显示偏好原理”,或者有向的贝叶斯网络这样(给定上层节点信息,上上层节点信息无用),何必这么折腾...若是后一种,还需要去费时费力不讨好的调查?又不是以前数据尤其是观察维度稀缺的时代了。每次见到刚被象牙塔教育好的遵循123456黄金律步骤出来的建模者,我都忍不住先深深的吸一口气冷气然后苦口婆心的讲一下为什么这些东西其实不那么重要...

都是被现有的实证paper毒害的,动不动就是入户调查数据。哎,人家是做田野实验的需要手工搜集数据各种来之不易,和你们玩大数据的到处都是蛛丝马迹不一样啊!干嘛只会比着葫芦画瓢,明显使劲的方向不怎么对嘛。学界没数据啊所以没办法,业界一堆数据还愁数据搜集?随随便便做个随机试验前后数据爱取多少取多少...喵,尤其是做预测模型的,其实可以不用那么折腾呀。读paper易,却也是取其精华弃其糟粕,玩的灵活才开心嘛。

再啰嗦一句好了,学计算机和数据挖掘出身的只学怎么在现有数据基础上建模,不学基本的数据搜集实验设计这些统计理念,所以不会往这边想;学统计的又被一群没玩过大数据的长江前浪所禁锢,框架就在那里,你见或不见。估计等现在这一辈成熟了下一辈人就真的是站在巨人的肩膀上了。

Categories
经济、IT观察与思考 读书有感

从网上交易征税争议说起

这几年一直有对网上交易(中小卖家)是否征税的舆论争议,随便一搜新闻,淘宝就是一个箭靶子——

美帝的eBay日子也不好过...

说到这里,就不得不去翻一下美国税法对于销售税的规定。

--------------下段比较罗嗦,不关心细节这可以跳过-----------

这要起源于上世纪98年,克林顿还在的时候,通过的一项《互联网免税法案》,英文原名是Internet Tax Freedom Act。从wiki上抄一下法案的基本内容:

This law bars federal, state and local governments from taxing Internet access and from imposing discriminatory Internet-only taxes such as bit taxes, bandwidth taxes, and email taxes. The law also bars multiple taxes on electronic commerce.

简而言之,就是联邦和地方政府都不得对互联网接入征税,且不得对比特、带宽和电子邮件征税。翻了翻原始法案文件,第720页开始,到后面说了multiple taxes的定义:

IN GENERAL.—The term ‘‘multiple tax’’ means any tax that is imposed by one State or political subdivision thereof on the same or essentially the same electronic commerce that is also subject to another tax imposed by another State or political subdivision thereof (whether or not at the same rate or on the same basis), without a credit (for example, a resale exemption certificate) for taxes paid in other jurisdictions.

简单理解一下(sorry,我不是学法律的,很可能不准),就是多州不得对一项电子商务交易重复征税。2007年的时候,这项法案延续到2014年11月1日(Internet Tax Freedom Act Amendment Act of 2007)。而实践上,大多遵循1992年的一项最高法院的裁决

In Quill Corp. v. North Dakota, the Supreme Court ruled that a business must have a physical presence in a state for that state to require it to collect sales taxes.

-------------罗嗦完毕-------------

也就是说,只要没有实体店,州政府就不能强制征收消费税。有趣的就是2013年,市场公平法案(Marketplace Fairness Act ),主要内容就是对虚拟商店也要征收消费税或者使用税。众议院目前还没表决。

[声明]:下面关于eBay的知识均来源于互联网及其他公开渠道,与本人工作无关,在这里只是陈述。所有结论由文章作者负责,不代表公司观点。

那在eBay上,现在的销售税是怎么征收的呢?

Normally buyer do NOT pay tax on eBay unless the following 3 criteria all meet:

  1. The seller is a Business seller.
  2. The seller has a physical presence in buyer’s shipping address state.
  3. That state charges sales tax.

也就是说,只有从eBay上的在买家所在州拥有实体店的商业卖家那里买东西、且该州征税,那么消费者才需要为此付税。一般的案例就是Macy‘s或者bestbuy这样在eBay上开网店的。所以一般在eBay上买东西的时候,结帐是看不到sales tax这一项的(美国都是价外税,如果有销售税会在账单上写明的)。这么看,线上卖家就比线下卖家多了免付税这个优势(虽然征税是直接针对消费者征收的,但是税负的实际承担者取决于供给和需求曲线的弹性)。直白的讲,如果我在网上买一件东西包邮需要$100,家旁边的店也卖$100,但是我在店里买需要交9%的税(以加州为例),那么如果不急用,我为啥不在网上买呢?

终于铺垫完了背景,现在来看AER 2014年1月刊的一篇paper:

Einav, Liran, et al. "Sales Taxes and Internet Commerce." American Economic Review 104.1 (2014): 1-26.
这篇paper主要就是探讨,当某个州提高消费税率的时候,对实体店和网店的影响是怎么样的。他们用的只是eBay的数据,结论是:
every one percentage point increase in a state's sales tax increases online purchases by state residents by almost 2%,while decreasing their online purchases from state retailers by 3.4%.
也就是说,消费税每上升1%,会导致该州居民网购增加2%、从本地零售商网购减少3.4%(因为需要交税)。下面看一下这个结论是怎么一步步得出的。
首先看一下美国各州的消费税率:
2014-02-12 14_23_01-SalesTaxes(1).pdf - Adobe Reader

Categories
经济、IT观察与思考

一些审视

大概有一个多月,一直在酝酿这么一篇文章。有很多的东西想说,却每每到口边欲言又止。总归沉淀的久了,该说还是要说说吧。

1. 关于大数据

我是莫名其妙的就被拽入这个领域的。虽然我也经常在一些不得不包装的场合不停的用到“大数据”这个词,但说到底我还是觉得它是硬生生的被炒作出来的。从2011年到现在,有幸在国内国外开了无数的跟“大数据”有关会议,有小有大,有偏学界有偏业界,可是越开越麻木。以至于到最后,我关心的问题就成为了几个:

  • 有什么新的数据被搜集了吗?(比如江南春去扫小区垃圾桶..);
  • 有什么新的领域被攻陷了吗?(比如某些传统行业,如劳动密集型的制造业、餐饮业、个人金融);
  • 有什么新的数据产品出炉了吗?(比如基于数据魔方的新的应用)。

曾经有人戏谑般的问我,“你一个做分析的关心这些high level的东西干啥?”,我的回答很直白,“为了保证不让自己失业”。当然这话有五分打发之意,归根到底的原因可能是,我在寻找灵感,在试图最大化分析的价值,在别人的失败中学习经验(输家往往比赢家更有意思)。换言之,我没打算一直做分析。自从在eBay深度接触了某些做事极端细致的同事之后,我觉得这个领域做到极致也怕就是如斯了。拼不过。

有些问题越来越不关心,因为从分工的角度来看绝非我的比较优势。比如,XX架构改善了数据库存储、查询;XX模型经过某些改进获得了几个点的提升;XX产品可以支撑更大量的数据和更好的实时并发性(这些东西对我来说,有就用,没有也不强求);XX平台实现了XX算法(没有成熟的接口我是不会去碰的)。可能对于数据分析模型的理解(此处单指统计或者机器学习模型),我已经过了那个狂热的沉浸于美好的证明或算法无法自拔的阶段。从一个更高的角度来看,基础设施尚未建设完成(更广泛的数据源搜集、聚合,以及强有力的分析平台建立),谈那么多奇技淫巧有什么用?每每看到BI这个词,就想吐酸水...平心而论,eBay的基础设施建的还是比较好的,一个数据仓库就有几百人的技术团队在维持。

总结一句话:路漫漫其修远兮,做的好的就那么一两家。单单靠分析赚钱没那么容易,先把人才的缺口补上吧。

2. 关于分工和角色

说分工之前,先说说现在的工作。在eBay,听起来很曼妙的两个音节,却很不幸的在它的海外研发中心。若我是个工程师研发产品也就罢了,可惜还在分析这种需要跟业务部门频繁交流的岗位。当然做什么事情都有好和不好的一面,没有绝对的。只是当你还可以选择的时候,当你处在一个不同的职业发展阶段的时候,会有不同的诉求。

回头看,如果我知道现在的工作是这样的模式,我还会在一开始如此选择吗?会的,我很无奈,但没有更好的选择(当时下决心一定要去一个英文环境)。“不畏浮云遮望眼,只缘身在最高层”。那个时候位置太低、浮云太多,很多事情看不清楚。我觉得我很幸运,毕业之后的两份工作都没有让我后悔过。

eBay对我的最大改变就是,让我重新拾回了很多技术细节。比如,对于分布式的理解越来越深,parallel SQL 越写越熟,R的某些包越用越顺手,Shell和SAS被重新拾起,诸如此类吧。这也是我当时离开咨询的目的——做pre-sale support、跟客户天天腻在一起,没有脚踏实地的感觉,每天脑袋瓜子里想的都是“客户到底是怎么想的”,每天都在做各种各样的利益分析。时间久了,觉得每天都在跟演戏一般。

可是在分工链上,技术绝非我最擅长的。开什么玩笑,一个直到研究生都没怎么受过正规编程训练的人,怎么可能拼得过那些国内顶尖学校CS或者EE出身的、一直专注于此的精英们?就算勉强加上模型这块儿,就算凭着还算可以的数学基础我事后补修了很多门机器学习和统计学的课,我也不觉得我能胜得过那些一早儿统计和计算机兼修的有志之士们。太多东西不是纯粹智商和努力可以弥补的,时间是不可逾越的鸿沟。当然如果下定决心一直做下去,也未必没有成就——可是要我抛弃心头挚爱的经济学,做与之完全无关的事情,我做不到。

有个很好玩的词儿叫做“street sense”,我也不知道怎么翻译为佳。有点类似于soft skill的感觉。在我的同事中也有少数这方面很强的人,能明显看到他们的成就卓然不同。对我来讲,这样的感觉或许更佳吧。

3. 关于积累

工作久了,很多人就会跟你说“工作经验比学历更重要”。我的感觉是,看哪个是短板吧?两个还是均衡发展比较好。要不在labor economics之中,也就不必把experience和years of study都作为回归变量了。

工作经验是个很神奇的东西。一方面他会加快你做特定事情的效率(指数式),一方面他也会束缚你的思维。周围看到了许多从技术转到管理岗一开始很不适应的案例。思维方式完全不同嘛。

我个人喜欢把工作经验分为两部分:广泛适用的经验和内部适用的经验。在一个企业一个部门,其实积累的更多更快的是更适用于本部门的一些经验,这两种经验发展不均衡在那些一毕业立刻进入一个企业、一直没有离开过的人身上尤甚。实话讲,如果想在一个大企业里面很快的发展,内部经验尤为重要。Fit the culture。而广泛适用的经验其实对于适应更多的环境、岗位更重要。把赌注都压在一个篮子里面是不明智的...

4. 关于野心

我一直觉得我是一个不安分且具有野心的人。不过时间会把人的奋斗精神消磨,尤其是在一个很容易就活的比较舒服的环境中。

可是当太多事情不能控制,一切浮华便如过眼烟云,与己无关。

Categories
读书有感

Bootstrap + subsample: simple, efficient, then elegant?

继续昨天。早晨一起来,看到施老师的一句简短评论,瞬间人就清醒了。然后跟做错了事的小孩子似的,惴惴不安的跑到office里面,翻墙,开始下paper。

现在的节奏基本上是白天开会写代码,晚上回家看paper,哎,不看心里总觉得好惶恐。还好中间等车等了蛮久的,顺便就借着六七点昏黄的路灯把这篇不算太长的paper看完了。有趣的是等车的时候碰到一位同事,然后我俩就开始呱唧呱唧的聊起来统计推断了...不知道当时旁边的路人是不是一道黑线,幸好当时把ebay的牌牌藏在了衣服里面...

这篇不算长的paper是:Bootstrapping Big Data,UC Berkeley 计算机系一群人鼓捣出来的。idea很简单(符合第一标准,simple),就是在大数据上(无放回的随机抽样)取一些subsamples,然后在这些subsamples上面做bootstrap,然后把结果取平均数。

这样的好处显而易见,天生的分布式算法,把数据随机分布到各个计算节点就可以了。然后bootstrap也不用占那么大的内存了,空间时间都省掉了,所以符合第二标准:efficient。

最后,就是还是比较effective的,有着良好的渐进收敛性质。和直接的bootstrap相比,它不仅保持渐进一致,而且有着更高的收敛速度,还是天生并行的...过年回济南的时候joke童鞋(高中同学)去火车站接我,然后我们就兴致昂扬的聊起来大数据和算法并行问题了...是不是有点天雷滚滚?哇咔咔,大过年的...好久没见竟然是如斯叙旧,汗。

此外,还可以结合binning的思路做一些weighted calculation,这样又进一步节省了时间。

不知道这样是不是就足够的elegant了...我看了一眼converging rate 还是比较好看的。伪代码思路也是简单得很。还可以用在各种现成的线形非线性、参数非参数模型上,真是瞬间变身并行高富帅。貌似和前段时间看到的rmr2包里面做OLS并行的思路有点像,待我细细研究一下。

algorithm

唯一的concern就是这东西更适合hadoop而不适合teradata,哎。我没法在TD上控制节点的分配,这个比较讨厌。Hadoop可以直接写并行map reduce,就会方便很多了。

 

先看了这一篇简介,后面慢慢地研究一些理论证明什么的,有点too good to believe...还是先找点数据测试玩玩吧^_^
efficiency

Categories
读书有感

Binning in Computational Methods: Gaussian Kernel Regularization, etc.

成天跟大数据打交道,最恨的就是out of memory这种错误。诚然,可以通过加大内存等方式来保证运行,但是随着数据量的增长,时间上的损耗也是很厉害的——比如时间复杂度为O(n^2)甚至更高。所以为了一劳永逸的保证计算的运行,需要在算法的改良上做一些文章。有了一个简单的类似于binning的idea,就去厚颜无耻的骚扰施老师了。

然后就顺利的套到了一篇paper,我能说我是瞎猫走狗屎运了么?居然还真问对人了,如获至宝的搞到一篇paper:

Yu, Bin, and Tao Shi. "Binning in Gaussian Kernel Regularization." (2005).

兴致勃勃的读起来,page 1 the history, interesting; page 2, ok...loss and penalty function ; page 3, oh...; page 4, fine...page 5, what the hell?瞬间扑面而来的各种公式一下子把我打回了原形——没学过就是没学过,再装还是读起来一片茫然。

然后开始迅速的往后找,找到了binning method的定义,嗯,不就是画格子嘛,和我本来要的思路差不多,多少找回一点感觉(binning的想法就是直方图,只不过是高维的扩展,把点aggregate到一个个格子,然后统计频数就可以啦,或者固定点的数量来确定格子)。跳过若干公式...直到后面的结果,眼前一亮:

2013-07-03 02_20_25-2006_Shi_Yu_Stat_Sinc(1).pdf - Adobe Reader

嘻嘻,就是这个!时间缩短至0.4%!神啊,比我想象的效率还高很多。这点loss in accuracy完全可以忍受嘛,重要的是——时间!时间!

然后问题就是,这个binning该怎么定义为好呢?看他simulate的结果,嗯,好像在这个case中每个格子的点到了9以上误差开始上升。

2013-07-03 02_20_10-2006_Shi_Yu_Stat_Sinc(1).pdf - Adobe Reader

还好啦对不对。具体的格子数量可以用实际数据测试一下,看看哪个更符合实际需求,直觉上应该是跟X以及Y的(联合)分布有关的...

好吧,我这是高射炮打蚊子么?我只是想在一个很简单的线性回归上面做一些binning...喵。多学一点总是好的,俗语嘛,“不畏浮云遮望眼,只缘身在最高层”。

p.s. 我也不知道为什么作为一个算法基础极为薄弱的、数学公式看起来依然会晕晕的、看到各种hilbert space开始感觉眼前飘过一团云雾的孩子会开始研究算法的问题...真的是被折磨太久了么?不过有时候看看这类的paper还蛮有裨益的...

相关文章