被标记为R的文章

初识Markdown语法

听着Yihui兄及COS的一群骨干们说了好久的MD(markdown)和knitr,各种心里痒痒啊。无奈最近的一段时间总觉得学习新东西的成本太高,就懒得开始动手。今天忍不住去GitHub上看了一眼,发觉自己已然没有任何理由再不快点把那个小册子弄完了,于是乎,赶紧补课。 补课的第一项工作就是升级各类软件,包括R、RStudio和Git。悄悄的说一句,现在的Git版本貌似比以前的容易用多了,我是对Github的使用没有任何印象了,重新跟着help鼓捣了一遍发现还是不怎么困难的。在一不小心删掉所有的文件之后,成功的fetch并push了所有的文件(还好有下载zip备份)。 然后下一站就是开始研究Markdown语法……好吧,这东西真的比HTML还简单啊(一直认为HTML已经是超级简洁了)。随便从网路上搜了一个语法说明(http://markdown.tw/),然后就可以开始玩转这东西了——真的很符合日常排版习惯啊!引用这个网页上的一句话: HTML 是一種發佈的格式,Markdown 是一種編寫的格式。 习惯了Wordpress编辑器HTML模式的人,大概会对Markdown瞬间上手吧。完全米有难度……而且,符合习惯代码洁癖的人…… 好吧,我怎么开始研究起这些东西来了?不是说好不玩这些geek的东西么?还是各种忍不住啊……下一个牺牲的应该不会是落园的wordpress架构吧,暂时我还不想...

查看全文

[RAAT]第一话:微博的数据该怎么玩呢?

引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。 新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢? links类数据 微博有两大类links: 粉丝关系 评论与转发关系 然后呢然后呢? 首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。 嗯,这样一个基...

查看全文

转一个招聘~广告业分析岗位

各位倾心于数据分析童鞋不妨留意一下~是一个来自广告业的岗位。工作地点在 上海 。要求会一种或多种分析软件(比如R,嘻嘻),然后最好对计量啊、数据库啊、市场研究啊比较熟悉。我个人感觉,这个职位偏学术(而不完全是偏技术),会有很好玩的project可以做~然后有很好玩的数据可以玩(我就是个数据源控啊,吼吼~)。 一些简要的信息 Company: MINDSHARE (传立中国) Job Title: MANAGER (Analytic) Division: BUSINESS PLANNING Reporting to: DIRECTOR Supervise: ASSOCIATE, EXECUTIVE Position Summary: Mid-level Business Planning resource reporting to a Business Planning Director Main Responsibilities: Manage Business Planning engagements with a particular focus on timely data collection, accurate data entry, suitable data transformation or manipulation and [...]

...

查看全文

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference? 当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。 这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。 对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个...

查看全文

Page 1 of 612345...Last »

达则兼济天下, 穷则独善其身。 …… 或曰,兼济则达,独善则穷。

我正在关注的:

社会网络,信息传递,实验经济学,小额贷款...

一点点声明

怕下次找不到门?直接google“落园”呗。

落园是我的非学术博客,只是为了娱乐大众。如果您对学术感兴趣,请移步我的英文博客或查看我的简历

最近寻找新工作中,欢迎推荐机会!我的介绍见这儿

最近常常出没的城市:

沪三角(上海、杭州等)、珠三角(珠海、深圳、香港等)、另加西安、成都。如有这些地方的朋友,欢迎提前邮件联系,一起聊聊相互学习 ^_^