落园 » 网站建设|专注经济视角下的互联网

ODBC(Teradata)和R连接常见问题

以前总结了一些R、SAS和TD彼此之间数据导入导出的办法,可是实际使用中还是会碰到各种各样的问题...问的人多了,就多少攒出一些FAQ放在了内部的wiki上。

还有一些问题估计大家都会遇到,所以也摘到blog上来好了。一开始用英文写的,简单翻译一下,不全翻译了。首先是通过RODBC连TD的一些常见问题,不知道是不是通用于其他ODBC driver...

  • Q: I cannot load RODBC on my own computer (not on R servers)... what can I do?
    A: Try to debug in these steps -1)[......]

Read more


从词频统计到词频矩阵(善用sparse matrix)

今天在下手写一个算text similarity的程序时,万般痛恨tm包不争气,而lijian哥的tmcn包又还木有完工,所以只能自己从头开始写了...

一切正常,基本的清洗啊,全角换半角啊,分词啊,去stop words啊几行代码顺利搞定,结果统计完了每行的词频却找不到一个有效的办法来算词频矩阵!数据也就是那么几万行嘛...reshape2怎么一下子就挂了呢?研究了一番,想到就算搞出来一个几万乘几万的词频矩阵,后面的distance之类也算不出来...悲哀的感觉充斥。没办法,只能祭出sparse matrix这面大旗了!

Google之,R里面可以调用Matrix或者Sparse[......]

Read more


R的outreg:输出回归结果表格via stargazer

大概被这个问题折磨的最多的人就是搞econometrics的人吧...熟悉stata的人应该都很喜欢outreg这个功能,而R里面就麻烦得多。以前一直写一个outreg()的函数来搞定这件事儿,现在看来有更方便的方法了——stargazer这个包。什么AER、QJE之类的完全不在话下。

stargazer_regression

这个包支持这些对象:

lm, glm, svyglm, plm, betareg, gee, gam, polr, survreg , coxph, tobit (AER), ivreg (AER), zeroinfl (pscl), hurdle (pscl), multinom (nnet)[......]

Read more


从R里面底层操纵Excel/xlsx(自动化报告福音)

好吧,我在eBay折腾的最多的就是生成自动化报告时候各种软件之间的相互调用,什么R啊,SAS啊,Teradata啊,Excel啊,Python啊,反正基本都有机会相互调用一下。每到此时我就深深感慨选择一个library丰富的工具是多么的重要!You could hardly expect what you colleagues are handy with!(P.s. 不要跟我提VBA这种逆天存在的东西。有哪个时间研究它你学点啥别的不好...)

今天忍无可忍+心情大好的折腾了一下R和excel。这个不是简单的从R里面读写excel数据,而是真心用R去操纵excel里面的单元格(cell)[......]

Read more


落园的春日劫难

好像很规律的似的,每半年落园就要大折腾我一次...反正鼓捣wordpress这么长时间了,已然习惯了。

这次是莫名其妙的服务器宕机,然后联系客服无果(昨天才算联系到了一个人...),然后受不了网站一直挂在那里,果断搬家了(最纠结的是当时还在上海到北京的高铁上,3G+翻墙各种不稳定)。转投BlueHost的怀抱,信用卡刷刷的顺便心里小小滴一下血...

然后悲催的发现最新的备份居然是去年10月的,我...只能郁郁的先把这些文章导进去...然后开始漫天的搜,果然还是有解决策略的(隐约记得谁说过可以通过RSS恢复)。

然后第一件事儿就是去装个了备份插件,这次学乖了直接放在Google[......]

Read more