落园 |专注经济视角下的互联网

中国地名的字频统计(县级及以上)

前几天看到微博上大家讨论县城名字:http://weibo.com/1444865141/EjcmoaykB

screen-shot-2016-11-27-at-5-44-05-pm

一时好奇,就把官方数据拿来看了一下。(2016年9月中华人民共和国县以上行政区划代码)

全部用来命名的只有1228个字,而相较于新华字典一般收录的八千到1万字,覆盖面其实挺小的。

不出意外的,这个字频分布呈现快速下降的长尾分布。看一下这个数据,还是蛮有意思的。

  • 第一名的“族”主要是有各种少数民族自治行政区划的存在。
  • 如果不看这个,则最受大家喜欢的就是“山”,“城”,“阳”,“江”,“安”,“州”。
  • 四个方向中,排序为“南”>“东”>“西”>“北”。
  • 地势描述成为了命名的主力词:山、江、河、海、川、湖、溪、林等。
  • 五行排名如下:水>金>土>木,然后没有火!看来全国人民都痛恨火灾。是不是和马伯庸提到的“雪”同理?大家都讨厌灾害。

这里贴一下前50高频词。

char_freq

完整的字频统计在这里: 中国县级及以上行政单位字频统计.txt

然后我们分区域来看一下各个区域特征。因为港澳台地区没有太多数据,所以我们只分析六大区域:华北、东北、华东、华中/华南、西南、西北。

  • 地势:除了西北地区以外,其他五个地区特别喜欢“山”。此外,东北常用“江河岭”,华北、西北常用“河”,华中/华南常用“江”,华东常用“江湖”,西南常用“江川”。
  • 四个方向:东北地区喜欢“东西”,华北地区喜欢“西”,华东地区喜欢“东南”,华中/华南常用“南”,西北常用“西”,西南常用“西南”。
  • 东北地区、西北地区、华南地区多有少数民族,故而地名含有民族名称。

region

全部数据下载:

中国县级及以上行政单位字频统计(按省份).txt

中国县级及以上行政单位字频统计(按地区划分).txt

原始数据:

town_name.csv

分析脚本:

 


微单拍月亮小白教程

虽然超级月亮每年都可能出现一次到两次,但是毕竟一年就那么几天,能拍拍也不错。然而我们一般也不会为了拍月亮而特意准备什么器材——常年拍鸟的有长焦镜头自然好,可是谁没事儿扛着个长枪大炮出门啊....园主反正就一个索尼微单(还是五年前买的),以及一个标配的18-55mm镜头...就这样简陋的装备,也能拍环形山好嘛。

下面是园主的心得。

  • 首先,放弃iphone。
  • 其次,你要有个长焦。(然而园主并没有)
  • 再次,你要有个单反。(园主只有个五年前的微单凑数)

我不知道现在的相机是不是更高级了,反正园主手里的这个微单是没有星空模式,所有自动模式拍的月亮都是一团光圈, 不比iphone好到哪里去....所以,靠手动模式吧!

拍月亮一团光圈的原因不是晚上光线不足没法对焦,而是因为月亮实在是太亮了!按照其他背景风景的亮度根本没法拍月亮。所以,降光线是最重要的。

首先,我们不是拍银河,所以iso降到100或200。

然后大光圈。曝光时间1/2000秒。或者你有三角架的话可以小光圈、延长曝光时间。

最后,最最重要的,对焦无穷远。园主的微单只有一个手动模式可以实现(随便搜了张图)。

screen-shot-2016-11-15-at-1-19-35-pm

嗯、还想要背景?那就高iso长时间同一位置再曝光一次。后期,靠photoshop合二为一吧。

所以最后的成果就是...勉强可以看到环形山。

dsc03139-c2摄于Mission Bay, San Francisco.


《Stardew Valley 星露谷物语》送礼关系网

呃,前段时间入了Stardew Valley(星露谷物语)的坑,然后发现送礼是门很讲究的事情。

然后手痒痒,职业习惯使然,就顺手分析了一下送礼策略。

原始数据:Stardew Valley的官方wiki送礼页面

然后我就是想看一下怎么简单的可以携带一堆礼物然后送给不同村民。

分析办法:把官网wiki的数据抓下来,然后看一下那些东西可以同时送给多个人,又比较容易获得,这样便于有计划的生产和携带。

结果:画了一张图...v开头的是村民,其他都是礼物。前面分析在r,画图的时候还是用了gephi...便于控制。

screen-shot-2016-11-06-at-6-52-54-pm

源代码:

原始数据:

sheet-1-table-1.csv

矢量图形:

svgift.pdf


理想国

上小学的时候,思想品德课是由我们的班主任兼语文老师兼上的。那个时候,老师最喜欢问的就是:

同学们,你们长大之后的理想是什么呀?

众口一致的,“科学家”。现在想想,那是一种惊人的一致。我不知道是一种长时间的自上而下的洗脑使然,还是一种”不能离群“的压力导致大家不说真话。

上初中的时候,已经没有了思想品德这门课程,只是在一些场合中老师还是会偶尔地问起相同的问题,却也不是必答题了。那个时候开始有了一些自我意识的萌醒,觉得大家都要当科学家我才不要当科学家呢,我要当企业家。现在想想也是另一种可笑,我至今也没搞懂企业家是什么东西。

后来继续成长,然后慢慢的知道自己喜欢的和不喜欢的事情。经历了若干次半夜灵感泉涌然后刷刷落笔,便知道什么事情可以让我更加的开心。这个时候的自我意识已经非常的强烈了,已经可以理智的区分哪些是我自己喜欢的东西,哪些是为了“融入社会”不得不做的事情。这个时候,理想和现实的分化开始越来越明显,一开始会有那种和理想渐行渐远的无比失落,而后来也就习惯了失落。这样子,我才知道,哪些是理想,哪些是幻想。

幻想大概就是一种“不劳而获”的期待,简单如明天中个彩票我就可以财务自由了。结果是美好的,自己还不用付出努力,不知道真的实现了是好是坏。理想则不同,理想是一个人一直在努力和奋斗的精神激励,虽然可能也是可望而不可及,但总是还是期盼着可以一点点的缩短这样的距离。理想太容易实现,便不是理想了,只是一个短期或者中期的目标罢了。

若干年前,买了本柏拉图的《理想国》,却没有认认真真的读完,只是偶尔打开翻翻。可能我更喜欢的是这个中译标题——《理想国》。理想国和理想的最大区别大概就是,理想是对于自己未来的描述,而理想国是对于一群人未来的描述。当我对自己的理想有了更多的认知之后,就会难以避免的发现,任何一种状态周围都是有更多的人牵连,我的理想并没有活成一种孤立的状态(比如我可以赞叹Perelman 佩雷尔曼,但却无法想象自己处于那样的生活状态)。

每个人的性格都不一样,而我对自己的认知的一面就是,对于我越得不到的东西,我就会愈加的念念不忘,甚至刻意的去放大它的优点、忽略它的缺点,产生一些不切实际的幻想。打破这种认知其实也不是很难,比如小时候特别喜欢的游戏买不到,后来长大了一口气买了许多,也只是在陈列柜里面一种仪式一般的摆放整齐,并没有时间一一安装并且通关了。过期的实现,除了一瞬间被慰藉的情怀,其实应该承认已经没有什么实质的欢喜了。所以后来渐渐的学会控制执念,明白过去的就是过去了,就算现在变出来一个一模一样的给我,那种欣喜之情已经变质了。

于是乎,关于个人的理想变得越发的简化而持久,关于社会的理想变的越来越复杂和膨胀。前者是对于自己的方向定位和鞭策,后者是带有幻想色彩的希望自己能贡献的方向。

我周围有一群很聪明且有灵性的人。这种聪明不见得是各种满分和荣誉证书,而是他们有能力做好自己喜欢的事情。每当有人因为现实的原因和理想渐行渐远,就会触发我心底的一种“同是天涯沦落人”的悲伤,这大概也是我最见不得的情形之一。当然,很多人会很快的重新找到自己喜欢的其他事情,然后得心应手的飞速发展,倒也不失为一种幸福。

在这种层次上的理想国,大致就是杜甫的“安得广厦千万间,大庇天下寒士俱欢颜”。你可以理解“厦”是一种物质层面的保障,也可以理解“广”是对于思想自由的包容。我心中的理想国,一定是一个百花绚烂色彩斑斓的世界,而不是一个黑白灰的明暗过渡或支离破碎。

然而,自省一番就会明白,就算是这种层次上的理想国,我也并没有什么可以贡献的方向。见过许多人小心翼翼的包裹起来自己曾经的理想,然后戴上一副面具曰人生如戏。只是演的久了,是不是就彻底的融入角色了,反而曾经的理想变成了期望扮演的角色。我一向珍视真实和真诚,然而也充分的意识到一些人性的恶——从来不要去考验人性。各种恶里面,最让我厌恶的大概就是“幸福源于比较”,非要把自己排到其他人上面才有优越感。然而却也不得不承认,我也常年被这种恶所困扰,不时会因为一些比较而感到失落和挫败。

所以我的理想国,在现在而言只是一个幻想国。我期冀他人可以活的真实,而我自己也并没有完全摘下自己的面具。

写了这么多,想想值得记录的大概就是,理想国的概念开始萌发。只是这样的概念稍显脆弱,而我也不必辩解自己的无力。


一篇文章引发的感触

最近一时兴起,打算记录一下工作中的一个项目,遂写了一篇科普文。最开始的时候,想着不如写的搞笑一点,所以里面穿插了无数的段子和包袱,刻意卖弄文笔。结果发给一个朋友看,人家生生的没看懂我想说什么(心疼小白鼠10s)。受打击之后,停了一个月。

然后重新写,主要是此时相对简洁的英文版写完了(英文版主要是写给内部,所以注重事实和逻辑,不需要科普什么。但我承认,中文我是习惯性的废话...),所以打算参照逻辑清晰的英文版重新写一遍。大刀阔斧的删掉了无数不相关的段子(其实也不怎么好笑),然后居然还啰啰嗦嗦的写了7000多字。自己看了几遍之后,发现自己的东西自己没法改,所以求救于几位朋友们帮忙审稿。

最初吐槽我写的一塌糊涂的朋友,大概是看到了第一版的惨不忍睹,所以对修订版格外包容,来了一句,至少能看懂了...我默默的偃旗息鼓。其他的朋友就没这么客气了,噼里啪啦给了各种修改建议,到最后我都觉得,我到底为什么班门弄斧的写了这么一篇文章?不过讨论的过程也是交流,有些没想到的问题变得清晰了一些。

几点感触吧。

  1. 不同的人看问题肯定是不同的(废话)。每个人都是另一个人眼中的井底之蛙。评价标准其实很简单——解释一个问题是不是费力。如果毫不费力的直达核心,那就是对于这一类问题看的都很通透,所以并不需要绕着弯子废话那么多。而像我这种半瓶子晃荡的,就产生了无数废话,效果也并不好——事情没有讲清楚,还造成了各种模糊和误解。这也是我一遍遍删改的过程中,坚持的一个基本原则:要把自己知道的讲清楚,自己不知道的索性不讲,或者明说不知道。含混其词其实并没有什么好处,反而贻笑大方。
  2. 受众与定位。其实写什么文章都是这样,作者不应该期待每个人都能理解。这并不是白居易写诗的年代。写科普文也是如此——一开始的时候,我总是有点贪心,希望就算读者不怎么了解这个领域,也可以大致看懂一些东西。结果适得其反,一位朋友直截了当的说,你这样写,懂的人没必要看,不懂的人也看不懂。醍醐灌顶,然后我决定把跟主旨不相关的删掉——要么另写它文再做深入揭示,要么读者的定位就是有一定基础的。很多问题确实不是三言两语可以解释清楚的,强行放在那里只会喧兵夺主。
  3. 学无止境。好在我还可以意识到自己是井底之蛙,那也就说明了还有一番广阔的天地。每当意识到这里的时候,其实就是指明了一些学习的方向。比如,计量经济学里面的structural model, instrumental variable等等,和统计里面的基于贝叶斯网络做因果分析有什么共同之处。propensity score模型怎么可以扩展(Rubin&Imbens 后面的章节我并没有读完...汗颜)。实践中我们习以为常的一些操作后面有没有理论依据(比如capping and bias, aggregation)等等。越到这里,越觉得自己的理论知识远远不够,很多事情就这么木然的按着所谓“直觉”做下去了,而其实做的时候并没有想这么多。回头想想,有些真的是无知者无畏的后怕吧。尤其是在被懂行的人问到语竭词穷的时候,那是一种从头到脚的尴尬。

感觉其实把自己做的事情写出来也是很重要的,这样才能意识到哪些地方其实自己并没有想得很清楚,反而可以激发求知欲。不说了,我准备这周末再把Rubin&Imbens拿出来读一下。除了技术细节以外,还要试图理解一个问题——他们当时为什么会这么想这么做,有没有什么其他的想法但并不可行。有的时候真理或许并不重要,重要的是思考的过程和那种醍醐灌顶的乐趣吧。

谨以此,警示一下一度飘飘然的自己。天外有天,脚踏实地。