落园 – Page 32 – 来者皆客

R大神们是这么玩乐高机器人的...

前段时间COS上说Rafael Irizarry用最小二乘法帮小朋友玩乐高，已经觉得很出手不凡了。然后今天直接看到了ev3dev.R这个东西，瞬间觉得整个人都不好了...大家要不要这么geek...

这种恶意卖萌的对话什么的实在是...总而言之，这货已经开始被进化了...

SER: Tell us more about the R part.
SERATRON: I am running RServe server. PCs can communicate with me using RSclient. They do all the heavy computations for me, I can’t be bothered (I have no FPU, can you imagine?!?). Those PCs think they can command me…

SER: Why do you have two servo motors?
SERATRON: So that I can move, you silly!

SER: Hmm, why do you have an infrared sensor?
SERATRON: So that I can avoid obstacles and I will not fall from height. Why do you have eyes donkey?

SER: Errrrrr, what are your touch sensors for?
SERATRON: They also prevent me from falling from height. If I don’t feel the surface below me I am not going to move. Would you?

SER: Ok, last question you naughty robot! What is your gyroscope and accelerometer for?
SERATRON: Can’t you count? It’s not one question but two. I use gyro to know my heading direction. No dumbass, not for balancing, I don’t use it in this axis. I don’t use accelerometer now but I could use tilt input as a third level protection from falling. I could also use it to detect collisions with other objects but I have other means.

SER: It was a pleasure to meet you (coughs), thank you.
SERATRON: I hope I will be finished for SER VII – 08.12.2014!

总而言之这货已经可以自我前进、躲避障碍什么的，为嘛我想起来的是我家那个扫地机器人iRobot 380t?

对了，卖萌视频在此：http://www.r-bloggers.com/interview-with-seratron-lego-ev3-robot-driven-by-r/

Tags 308t, geek, irobot, R语言, 乐高, 最小二乘法, 机器人, 编程

读书有感

R vs Python: data frame和高速数据整理

Post author By Liyun
Post date December 8, 2014
1 Comment on R vs Python: data frame和高速数据整理

由于种种的原因，我的feedly里面很多东西很久没看了...今儿抽时间看来一下，貌似是十一月份的热点是dplyr, data.table或者说，data.frame高速操作的各种办法。

http://www.r-bloggers.com/dplyr-and-a-very-basic-benchmark/

这里有有个蛮有意思的比较，抄过来：

	base	dplyr-df	dplyr-dt	dplyr-dt-k	dt	dt-k
Filter筛选	2	1	1	1	1	1
Sort排序	30-60	20-30	1.5-3	[1]	1.5-3	[1]
New column加列	1	1	(6) 4	(6) 4	(4) 1	(4) 1
Aggregation加总	8-100	4-30	4-6	1.5	1.5-5	1
Join合并	>100	4-15	4-6	1.5-2.5	-	1

从base的最基本函数，到dplyr+data.frame, 到dplyr+data.table，到dplyr+data.table+key，挺神奇的...我一直比较依赖的数据整理的包有两个：plyr和data.table，现在终于看到一丝更加有效率的曙光了。顺便作者还和pandas比了一下...这是为了杜绝我多用python的决心么？我一直试图努力的多用一点python，看来越来越不可能了...

	pandas	data.table
Aggregate	1.5	1
Aggregate (keys/pre-sorted)	0.4	0.2
Join	5.9	-
Join (keys/pre-sorted)	2.1	0.5
Creating keys (sort)	3.7	0.7

话说，谁来进一步搞一下稀疏矩阵啊？我现在对这货比较依赖...

Tags data.frame, data.table, dplyr, pandas, plyr, Python, R, 数据整理

读书有感

有趣的模拟

Post author By Liyun
Post date December 4, 2014

我现在的笑点好像越来越低了...

Statistical models
	AB_Test	Post_Stratification	Post_Strat_rescale	HTE	HTE_rescale
(Intercept)	20.85 (0.37)^***	-0.61 (0.04)^***	20.85 (0.03)^***	0.40 (0.03)^***	20.85 (0.03)^***
TCT	4.02 (0.52)^***	4.02 (0.05)^***	4.02 (0.05)^***	2.01 (0.05)^***	4.02 (0.04)^***
pre_x		1.05 (0.00)^***		1.00 (0.00)^***
pre_x_rescale			1.05 (0.00)^***		1.00 (0.00)^***
TCT:pre_x				0.10 (0.00)^***
TCT:pre_x_rescale					0.10 (0.00)^***
R²	0.00	0.99	0.99	0.99	0.99
Adj. R²	0.00	0.99	0.99	0.99	0.99
Num. obs.	20000	20000	20000	20000	20000
p < 0.001, p < 0.01, p < 0.05

Tags 模拟

事儿关经济

论网上集市二手物品的定价模式

最近园主尝试在网上买了一件二手物品。首先因为它还有点值钱，所以园主才花心思去卖掉，否则直接送人就好了对吧。

卖二手物品主要集中在各种分类网站上，园主选了几个：58同城、百姓网、赶集网和淘宝二手（闲鱼）。这几个网站买东西的模式都差不多，反正大概写写找张照片挂上去就好了。但是定价呢？

首先参考同类产品的定价不是？大概搜了搜别人的定价，嗯，估摸一下可以类似产品取个均值，于是楼主写了个1500块。

然后我们知道需求曲线: q = q(p)，大概长成百度说的这个样子：（不要问我为什么Q在X轴....经济学家永远是奇怪的一群人）。我们假设在每个平台上每天搜这个产品关键字的人有 X个，搜到之后点进去看的占10%，如果价格高于他的预期效用（最高购买价）就不买，如果低于预期效用就不买。那么就可以大概算一下园主的waiting time的问题就是，愿意出价的人>=1个。即落在上述需求曲线那条虚线水平线上面对应的累计Q1>=1，虽然实际上应该是离散的但是就写个积分形式吧：

假设上述需求曲线成立，那么对于每天的这个积分大于1的概率（此时可以把所有访客看作服从这么一个需求曲线作为概率分布密度函数的分布，那么每天卖掉的概率就应该是

然后x可以是对于t有个随机性的，理论上我们可以算出来到底第T天累计的会使得上述累加概率和足够大。假设卖掉的话我就拿到当时的价格，卖不掉的话就得到0，这样我就可以算一个对于等待时间的期望或者期望效用。鉴于我是没有耐心的，也不知道上述各个参数的具体值，所以我打算采用一种策略来估计上述系数的实际值：

统计每天的页面点击量，然后如果当天没有卖掉，第二天就降价，降价的幅度可以通过梯度下降计算出来（类似于降价拍卖原理）。

于是我就洋洋得意的开始执行此战略。

你问我实际的执行情况？呵呵，我就第一天挂了1500，第二天脑袋一抽写了个1300，然后就卖出去了...然后就没有然后了....反正卖掉了，做人要讲诚信...

Tags 二手物品, 估价, 分类网站, 在线交易, 定价策略, 密度曲线, 拍卖, 期望效用, 梯度下降, 降价策略, 随机分布, 需求曲线

读书有感

实验设计的原则与我的体会

Post author By Liyun
Post date October 21, 2014

今儿继续读前几天说到的那本书：

Montgomery, Douglas (2013). Design and analysis of experiments (8th ed.). Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118146927.

嗯，我读的很慢，唉，求轻拍啊。

刚读完第一章...（默默的跪墙角了，第一章才23页，居然读了这么久！）。看到一些比较有意思的点，抄一下顺便罗嗦一下。

1. 实验设计的原则

基本上就三点吧：随机化、重复、分块（blocking）。

随机化没什么好讲的了，就是保证treatment的分配和其他各种可观测不可观测的variable之间相互独立、相互不受干扰。从我的理解，这大概是源于一条定理（下为简述）：
如果回归方程是，且，那么下面两式估计出来的（均值）一致、估计方差后者小。
1)
2)
所以如果我们保证了treatment和其他各种因素相互独立，就可以直接通过随机试验来读出treatment effect了。
重复。重复这里一方面可以广义的理解为“可重复研究”，另一方面其实很简单的就是样本量要足够（比如不停的抛硬币来判断硬币是不是均衡）。也就是说，只针对少数个体的实验可能受到各种随机外在因素的影响太大，而加大样本量（实验个体）有助于减少这样的误差、同时提高估计的精度。所以，重复更多的是，在相同（或者类似）的个体（情景）上重复同样的treatment/control。
分块。这个主要是排除一些样本间差异的影响。作者给的例子比较直接，有两批原料样本，然后做某种实验。两批原料可能由于批次、厂商不同，相互之间有些差别，但这种差别我们是不关心的。所以评估的时候，就把他们分开、每块单独评估。（或者理解为，回归方程里面加一个批次的dummy variable，然后算方差估计值的时候做一下cluster。

除上述三点之外，还有一个要注意的就是factorize，译作因子化？简单的来讲就是一分为二、是或者否。然后多个因子组合一下...

2. 实验设计的一些要点

这个就是高屋建瓴的说说咯。

利用自己在该领域的知识。否则就是盲测？感觉这个有点像经济学里面强调structual model的那种感觉...
实验设计和分析越简单越好。不是什么高深的技巧都应该一股脑的放在实验设计上的...越高深适应性可能就越差。
认识到实际价值和统计显著性。这个就是说，统计上显著的，实际中不一定有意思。比如花了很大力气，证明了某个treatment effect是显著的，但是提升只有0.01%，却增加10%的成本，那就得不偿失了。
实验往往是递进的。几乎没有一次性的实验是完美的，我们往往是在渐进的实验过程中不断学习。一般第一次实验都是简单而广泛的，更多是一种尝试和探索大致方向。作者建议不要把多余25%的资源投入到第一次实验。

嗯...其实挺好玩的还是，虽然有很多繁琐的地方，但大致的原则和方向还是蛮清晰的。实验设计其实最大的区别就是，不是想尽办法用模型去套现有的数据（黑一下ML），而是想办法更好的搜集数据、从而进一步时间简洁有力的分析（simple, elegant and powerful）。

Tags 分块, 实验设计, 统计显著性, 递进, 重复, 随机化