落园 » SQL|专注经济视角下的互联网

无知的比较:R和Teradata SQL(附赠TD经验几枚)

今年夏天的时候,刚刚开始被SQL虐,写了一篇很无知且更多是吐槽意味的blog post: 关于R的若干SQL等价问题。当时被若干朋友批评,我还浑然不觉个中精要。现在用Teradata也有半年多的时间了,越来越习惯了SQL的表述方式,也越来越体会到Teradata作为一个强大的数据仓库系统,是有多么的伟大...这感觉,就是只玩过几个G数据的乡下人进城,猛然看到各路英雄都是动辄几个T的数据,只能暂时以原来落后的思维方式、勉强挥舞着新型工具...好在个性不是特别愚钝,终究还是可以慢慢地领悟到T级数据的奥妙之处,终究用着新武器也越来越顺手了。

这一段时间,也充分证明了我是master in ec[......]

Read more


逻辑问题

最近真心觉得自己的逻辑训练有问题了...SQL总是写错...脑子一点都不清醒。

@Pompei@Pompei

不觉得自己是个很粗心的人啊,但事实证明犯错的时候可以一犯一连串...

貌似每年11月我总得惹出一些祸来。06年11月,删掉了某网站的数据库...10年11月,西班牙语考的一塌糊涂...11年11月...12年11月,连续的在一件工作上犯错犯错再犯错。郁闷啊郁闷。

真想把自己丢在冬天的水里好好清醒一下,或者干脆回娘胎重新出生一回,这个脑子完全处于不灵光的状态。还最近连续做梦,各种寝食不安,各种乱七八糟,各种...

谁可以告诉我应该怎么解救自己...我是不是应该做点什么练一[......]

Read more


关于R的若干SQL等价问题

以前总是觉得不同的计算机语言之间只是语法问题,思路其实还是差不多的--后来才知道不尽然如此。比如用惯了R作分析,切换到其他语言顿时觉得效率降低了好多,尤其是很多一行命令在R里面就可以搞定的时候-思维习惯了一定程度的跳跃,常用的操作(尤其是数据整理!)封装成函数之后工作效率那叫一个倍增啊!结合knitr,原来的时候生成定期报告的效率极其之高,基本属于10倍以上的时间节省。

现在公司的数据平台是teradata,典型的SQL结构,各种join。在这么大的数据量下,不可能直接取数据到本机来分析,只能借助SQL进行一定程度的降维。而后剩下的收尾分析工作,可以由R完成。至于两者之间分工的界限在哪里[......]

Read more


面试二三感想

若是算一下,是自己接受的面试多还是面过的人多,我想还是面过的人会稍稍多一点吧,谁让我是这么一个懒得投简历的人呢?嗯……

原来在学校里面的时候,无非是帮各种社团面试,简单的很,偶尔摧残一下刚刚进入大学校园的花朵们。后来,帮一些单位面试,害得我只能借身衣服装成熟。再后来,就真的成了自己去招人而面试了。一路走过来,从开始面试的随意,到后来面试的忐忑,再到后来面试的随意,往往复复,也算是不断的在成长着吧。

平心而论,对我来说,面试别人比被别人面难的多、耗神的多。也可能是我太善良了?时间允许的话,我希望被面试的人尽力的放松并且能够尽可能多的让我知道他的能力和知识,以便我作出最正确的抉择。呃,这样下来[......]

Read more


数据库规范与SQL应用[3rd week, July]

以前也说过,这个暑假过得相当的“充实”,每天白天8节课(其实我也是三天打渔,两天晒网),晚上回到家练习练习做饭,然后就打开本本开始忙碌的工作。一边看无尽paper,一边绞尽脑汁的搜数据,遇到问题开始到处请教,日子倒也颇为充实。

记得春天的时候写那篇关于FDI的破文章的时候狠狠的感慨了一番国内统计年鉴质量之差,大部分时间都耗在搜集数据上(尤其是把某些图片格式的数据手动输入到数据库里)了,实在是让人哭笑不得。这次写论文用到一些微观数据,其中一部分是鼎鼎大名的中国营养健康调查(China Health and Nutrition Survey,简写CHNS),虽然下载下来的都是SAS格式,但是借助[......]

Read more


12