落园 » papers I read in eBay|专注经济视角下的互联网

papers I read in eBay

只是罗列一些这一两年比较关注的具体领域。

  • 自然语言处理与分词:看了很多分词类的算法,从字符匹配、MMSeg、HMM,到条件随机场之类。主要是为了提取关键词作为regressors。当然做这个一方面是好玩(周围很多朋友都在玩),另一方面也是不想被专家忽悠...嗯。另外就是TD-IDF、余弦相似度这些纯粹是为了不被忽悠。
  • 稀疏矩阵:稀疏矩阵完全是从上面继承而来的,往往分词之后搞来一个很大很稀疏的矩阵,为了降低computational cost或者干脆就是考虑到computational capacity,这个不得不做,然后就可以开始奇异值分解了。后面恍然发现,这丫不就是adjancy list和matrix的区别么...顿时为自己的智商隐隐担忧。
  • 近似计算方法:主要是binning methods,起因是觉得teradata算variance比较慢,所以看了一下能不能先binning再算variance以节省计算时间(说白了就是在teradata现有的map-reduce上想个更好的办法)。实用主义嘛。最后的感想就是,其实对于variance这种linear method,分布式已经蛮成熟了,在每一个map步能降低的computational time还是有限的...
  • 异常点识别:这个主要是有段时间在研究怎么可以有效的去掉outlier,不让这些点干扰计算(尤其是涉及均值的)。当然基本的就是基于ranking,后面发现这东西水还蛮深的,牵扯到distance measurement,stratified sampling等等。
  • 分布式计算:有段时间想了解一下Hadoop map reduce,所以去看了一些基本的分布式计算的东西。好吧,其实我还是觉得hadoop接口不够那么人性化,基于java的东西我还一时半会儿搞不定(从伪代码到代码到命令调度及debug还有好长的路要走...)。
  • 实验设计:这个貌似一直都在断断续续的看一些文章,从基本的随机试验的思想到后面各种具体环节的实现,以及不理想状况下的一些修正(比如连续实验、网络中实验、spillover effects等)。最近在试图利用RDD来改善一些现有实验设计和评估,此外不时瞅一下有没有好玩的网络实验的机会。(对eBay 3.0无限期待中...)
  • 贝叶斯网络:从MCMC开始的吧,陆陆续续看了好多马尔可夫网络和贝叶斯网络的东西,什么Belief Propagation。当然这里面也包括了Conditional Random Field这些语音识别、图像识别的基本原理和常用方法什么的。这也有种不被专家忽悠的想法,毕竟看来看去也就是这几种常见的算法的不同应用嘛。(修PGM那门课真的可以列作年度噩梦之一了...)
  • 拍卖设计:这个完全是由于随便搜搜eBay基本上都牵扯到auction design,所以顺带看一下...总的大趋势还是排名在向一口价转变,多少也有种一手市场快速增长的感觉。哎,consumer theory大爱的东西啊。
  • 社群识别:最近遇到一些这方面的挑战...一方面是clustering,另一方面是sparcification。总的感觉是,无论是稀疏矩阵还是矩阵稀疏化,都是去除噪音找到有用信号的过程...
  • 协同过滤:其实collaborative filtering是很久以前看的了,当时工作需要(印象最深的就是IBM的三篇笔记)...现在感觉看过这类方法的好处就是,很多问题越来越能和后面接触到的直觉相契合,感觉很多具体的算法和想法实践都是在这个框架之下或简或繁的变化,万变难离其宗嗯。

总而言之,我觉得我越来越不像一个学经济学的孩子...可怜。好吧,这些最多算是紧跟潮流吧,很多东西回头看看也没觉得多有意思。

被一份工作逼到如此程度也算是奇葩了...哎。最近的感觉就是,我还是去关注一下business side的一些趋势吧,多看一些new business models,毕竟这才是真正创造出来价值的。


Comments

  • zhasongwen says:

    看了博主的文章1个多星期了 受益匪浅
    最近遇到一个问题 还望博主指教
    我在用R读一个二进制文件的时候,由于文件中的数据是按照一定的数据结构储存所以我要一边读,一边解析。我很难用apply之类函数去代替显示循环,导致现在读的很慢而且老是内存不足。我知道用循环是不对的,但一直苦于没有找到合适的包,因为这个二进制文件的数据结构也是自己定义的,所以很困惑。
    还望得到解答

    多谢


  • 好工作~~我最近也在看社区划分的方法,不过貌似很偏计算机,都是jure组发的,利用节点属性和图结构为依据来划分


  • sweetglue says:

    关于分词,我觉得,目前效果非常好又能实用的方法是假设每个字对应一个标记(通常使用B、N表示该字是词的开始(begin)非开始(not begin)),使用CRF模型给一个句子打一个BN标记序列。那些“字符匹配、HMM”基本没法用,尤其是HMM,效果烂的不行。现有论文提出的新方法,效果都比CRF略好,但大多复杂不实用。个人感觉,如果只是实用的话,只要掌握了CRF++这个CRF工具的用法,那么掌握基本的分词就没有什么困难了,因为剩下要做的就只是设计各种特征。当然,懒的话仅仅用上下文的字就已经可以取得很好的效果了~


    • liyun says:

      嗯。除此之外,个人感觉分词的基本词库很重要,尤其是在有具体需求的业务场景下。CRF固然好,也得有好的材料进去嘛(食材不够好的话不可能做出美食哒)。


  • 我也是学经济学的 到最后还是跑去玩统计了 近年business analytics大热。。。
    看了一下楼主的简历 尽然颇有相近之处 包括天文学的爱好。。。
    只是我没有楼主那样有耐力毅力啊。。。惭愧、怨念。


Leave a Reply

Your email address will not be published. Required fields are marked *