落园 – 来者皆客

被归纳迭代统治的世界

在这个AI快速改变世界的时代，园主已经从一开始被GPT表现出来的潜在智力的震撼，到现在对于层出不穷的图像视频音频AI工具有点审美疲劳了。去年的时候和朋友们感慨，在归纳和演绎之间，这个阶段归纳的力量远远超越了演绎。算力的突破仿佛像《三体》中描述的突破智子封锁一样，让可以被计算改进的模型都深深享受着巨量数据带来的断层优势，层出不穷地展现着未来的可能性。

AI模型之外，很多产业也都被基于数据的归纳和快速迭代逐渐颠覆着。shein在快时尚的成功，是千千万万的时尚元素排列组合迭代出来的。时尚爆款可能是玄学，但只要样本量足够大、选择足够多，就一定会出现几个爆款，然后只要快速跟进就可以吃到一波流量红利。类似的玩法不仅仅局限于快时尚，但凡是“义乌制造”可以连夜复制出来的消费品，都可以用这个打法。譬如手机壳，原型相对固定，考验的是设计师的创意和流行元素变化。看一个纪录片说，人们平均一个月换一个手机壳（可能是北上广的消费数据），那么消费者对于新意的渴望就成为显而易见的需求。

从文字，到图像，到视频，到落地成为一件工业制造品，快速迭代的可能性充分地考验着人们的贪心。行业之中的人们各司其职，努力地优化着每一个可以减少成本或者提高效率的环节。那些看似玄学的艺术和非理性，最后也没敌过归纳和迭代的降维打击。

毁灭吧，消费主义快点变回极简主义吧，要不园主实在是跟不上这个光怪陆离的世界了。毕竟这人脑子还是习惯基于演绎的思考，重新训练到归纳的角度有点超出人脑算力和记忆存储的局限了。以有限对抗无限，怪不得庄子说，

吾生也有涯，而知也无涯。以有涯随无涯，殆已；已而为知者，殆而已矣！

附录：看到一个纪录片《这货哪来的》（B站的？）来的灵感，把这些观察串联了起来。

Tags AI, GPT, 归纳, 快时尚, 快消品, 智子封锁, 极简主义, 消费主义, 演绎, 玄学, 算力, 艺术, 迭代, 降维打击, 非理性

我的生活状态

城市，语言与印记

我看的电影电视剧不怎么多，自我归因是我的情感其实很丰富，容易入戏太深。偶尔沉浸一两次无妨，天天沉浸这就要命了。情感丰富的体现之一就是代入感，容易把自己带入到戏中人物的情感波折之中。若对方所处的情景、地方或文化又是我略知一二的，那就更要命了，会让我不自主地联想起来很多前尘往事。

我是个一直在城市里生活的人，习惯的是密集的楼房里面大家各自忙碌的身影。然而我生活过的那些城市，每一个给我留下的印记又是个有不同的。生活过和旅游过的城市区别挺大的，因为只有认真地去生活过，才会更努力地融入当地的文化，学习当地的语言，才会在心里狠狠地扎根。在中国，北方和南方的文化已然不尽相同。在美国，西海岸的风情独自摇曳。在欧洲，南欧和西欧又相互纠缠。居住城市的变化也伴随着自身年龄的增长和心境的变化，在每一个特定的时点发生的故事并不会那么容易再重复一遍。

最近在看《繁花》。因为年少时在上海生活过一些时间，稍稍能听懂一些上海话，便更有了代入感的韵味。很多东西会随着时间流逝，却并不是雨过无痕，心中多少留了个交流承载着那时的印记。我一直觉得我是一个勇敢的人，在二三十岁的年龄做了很多看似疯狂的事。回头看，有的时候会惊诧于自己当年那里来的毅然决然的行动力。眼瞅着奔四十岁越来越近，却发现这份勇气已然变成了个性中无法磨灭的一部分，无论外界环境已经如何天翻地覆。这或许是年少的时候在上海滩听过了太多的传说，这或许是旧金山的淘金热和硅谷的创业交错，这或许是巴黎的批判风情和巴塞的特立独行，年少的我血液中一直沸腾着“生于忧患，死于安乐”，绝不会像平淡如水的现实妥协。

每一场冒险都是要付出代价的，每一个决定都是一时冲动的。或许是生活过的城市在我身上留下了这般印记，也或许是我不经意间选择了这些气质特殊的城市。空气中交织的是那些鲜活的记忆片段，亦是倔强的个性。

永不言败。越是困难，越是折磨，越磨练人的心性。

Tags 上海, 印记, 城市, 孔孟, 巴塞, 巴黎, 旧金山, 永不言败, 硅谷

日常应用

小试自定义GPT

最近不是在折腾LLM嘛，于是就试了两条路子：用openai的api，以及直接在openai的界面里面创建GPT。

前者没啥特别的，chatgpt的api做的很成熟了，from openai import OpenAI 之后直接在python里面调用几个现成的函数就好了。可选的参数其实也不多，主要就是prompt写的好一点就行。我的要求也不高，试了试基本满足。此外我还用到了微软 azure api，也很方便，两者一结合基本一个app就搓出来了，只是暂时还只能在命令行运行，没写前端ui罢了。

后者就麻烦了。我想着自己写前端ui还挺麻烦的，就想偷个懒直接在GPT里面弄弄看看行不。结果呢，现在这个版本实在是太挫了，只支持最最基本的action，虽然可以调用其他api，但还没研究出来怎么实现用户上传的文件扔到action api call里面。搜了搜他们的论坛也没啥结果，然后心累就到此为止了。

最后贴一下如何在openai 的GPT里面调用azure api。主要是api key那里实在是反用户直觉，我找了好久……一定要选 custom 然后把自定义的名字设为 Ocp-Apim-Subscription-Key 才可以。贴个图。

自定义 action -> authentication -> custom header name

当然azure api的文档做的也很差就是了，经常搜出来的是过时的文档，试一试都是404错误。哎，时间都花在这些琐碎的调试bug上了。

最后的结论是，在现在这个阶段，openai GPT的多模态做的还是太封闭，只适用于比较基础的交互需求，得等到后面允许自定义编程更丰富一些才可以。想做的稍稍复杂一点，写ui是逃不掉的了。web版还可以写个python+js凑和一下（flask这么轻量级的web开发框架真的是效率提升利器），app版xcode看了半天发现也是一等一的复杂……说好的ai改变程序开发呢？叹口气……

Tags API, app, azure api, chatgpt, flask, GPT, LLM, openai, Python, UI, 自定义gpt

读书有感

吾日三省吾身

逆水行舟，不进则退。每一次偷懒的后果都会反噬自己。
透过现象看本质。热点永远层出不穷，不能以有限的精力来应对无限的新闻。但也不能两耳不闻窗外事，否则换了人间都不知。
用进废退。记忆是有限的，不可能面面俱到。

——-

舒适圈还是躺太久了，忘了外面的血腥残酷。

读书有感

大语言模型LLM的基本逻辑

上一篇说到我准备入个坑，结果就是最近埋头苦苦补习最基本的一些知识。随便写点东西梳理一下思路吧，这样万一我真的开始做点什么也算是一个基本素材。一些英文的名词我就不翻译了，反正现在大家英语都挺好的。

先来一些可以基本望文生义的名词解释。LLM=large language model = 大语言模型。这简直是个不能再俗的名字了。GPT = generative pre-trained transformer ，也是够直白的。

再来个极其简单的（受限于园主阅历）历史回顾。自然语言处理基本上经历了 word2vec, RNN，然后就是现在的transformer了。其实说到底，自然语言处理的基本问题就是一个时间序列问题。当园主意识到这点的时候也是惊掉了下巴，什么，计量里面的时间序列不是Autoregression, moving average，stationary 那些东西么，怎么看都跟自然语言扯不上关系了。后面看到做量化的人都在跟这个方向的进展，才明白说到底都是时间序列嘛。想想也是，自然语言就是一个把词按照特定顺序排列起来的数据，词与词之间的关联和顺序最终表达了一定的意义。

nlp模型想法差不多，就是基于已经有的词，预测对应的下一个词的概率。建模不是问题，但数据上来后计算是问题啊……于是有了transformer 那篇著名的 Attention is all you need，伴随着经典的encoder-decoder结构，就出现了让图灵测试不再是问题的大语言模型们。

再来一轮名词解释。自然语言到建模之前，需要先把unstructured data转换为可以计算的数字，这就是embedding 这一步，也叫token 化。然后再怎么办呢？transformer的核心是再算一下attention 矩阵，这个矩阵主要涵盖了词与词之间关联程度（不贴公式了），然后要做的就是放到神经网络里面去算了。这里有意思的是，encoder里面不只有一个基于attention数据的模型，而是多个，所以称之为 multi-head attention （多头注意力）。为啥需要多个模型呢，因为神经网络很有名的一个feature（bug）是local optima，即随着初始值的不同，参数可能会迭代到一个局部最优。至于全局最优嘛，存不存在都还是个迷。反映到encoder这里，有意思的是每个单独的模型就有可能抓住语言的某一个层面的特征，比如语法，比如逻辑，比如修辞，比如情绪，以及一些语义学还无法解释的神秘模型。但不要紧，大力出奇迹，只要计算机能算得出来就行。

encoder到这里已经可以做很多任务了，最显著的大概是sentiment analysis, 就是判断里面的情绪。比如一个评价是正面负面，或者是关于价格还是物流速度，等等。这些分类模型对于很多应用场景都是很有价值的信息提取过程，也称为auto-encoding。

decoder呢，任务就更直接，就是通过输入的新数据来预测并生成下文。这也是GPT的厉害之处，可以自己写小作文了。所以这一类也叫autoregressive model ，即AR！再看下去，其实decoder的架构和encoder很像，所以他们的并不是模型架构本身，而是任务的目标不同。

那什么时候我们会同时需要encoder和decoder呢？典型的例子就是两种语言之间的翻译。大概的数学任务就是，给定前后的词，来猜中间缺失的词是什么。这一类就是sequence to sequence 模型了。至于模型的评价，现有Rouge, Bleu等指标（怎么都是法语里的颜色……）。

好了，现在我们有一个transformer模型了，就可以高枕无忧了么？当然不是，下一阶段就是，fine-tuning 或者更准确的说，instruction fine tuning。

这一步，说到底就是让模型理解人们的意图。比如，我想让ChatGPT给我写代码，那我就会先给一个指令，help me write a code in python，这样它才可以理解我要的是代码而不是一个翻译任务。这类对于指定任务类型的 instruction 的训练，不仅仅在于理解目的，还牵扯到对于不同类型任务的参数细调。最简单粗暴的，我们可以要求对某一类型任务完全刷新所有参数，即full fine tuning，也可以省点资源，来只训练部分参数，即parameter efficient fine tuning PEFT。近期还有比较有意思的LoRa方法，在原来的参数矩阵外额外训练两个rank小很多的矩阵，最后再把新的两个小矩阵的乘起来，加到原始的参数矩阵上。甚至我们可以对instruct 的数据单独做一个小模型单独训练，然后在embedding 那一步把数据预处理后再喂给encoder or decoder。

fine tuning之后，理论上llm模型已经有了不错的预测能力了，但还需要一步alignment，即通过reinforcement learning 来进一步训练模型给出更符合人们需求的回答，比如 HHS (helpful, honest, harmless)。这一步主要是利用额外的人为标记的数据，比如对于多个候选答案之间的排序等等。当然，我们还可以搞个单独用来打分的模型给GPT的答案打分，哈哈，让机器自动自我修正。

这一些做完，基本上就是chatGPT 的雏形了。然后我们发现，不够，远远不够，一个AGI不能只有对话功能。下一步显然就是多模态Multimodality，即文字语音图像视频等等形式的结合。到这里，我们大概可以窥见这是一种“搭积木”的挑战了，即每一块儿自己的AI模型要和其他领域的结合起来，互通有无。

再来一组名词解释。Langchain，主要想法是各领域最后都转化为一个文本语言问题，然后互通有无。RAG (retrieval augmented generation) ，主要用来引入额外的信息来补全LLM的知识储备。ReAct (Reasoning and Acting augments) 主要是理解指令并利用各种多模态的模块来执行具体任务。

——

对了，为啥么这里园主通篇不提prompt。因为，园主觉得这就是个成长过程中不成熟阶段的伪命题……过两年可能就完全嵌入大模型本身了。

——

园主这些知识大概一半是Coursera 这门Generative AI with LLM 课扫盲来的。这门课主打一个深入浅出，适合理清大模型的整体逻辑，极其适合入门。剩下一半就是读各类的新闻和paper，还有各种视频。只能说，互联网时代，知识本身触手可及，考验的是系统学习的鉴别能力。

——

这篇本来是想写个提纲然后扔给GPT帮我完成的，结果最后还是老老实实的手动敲完了。哎，下次试试能不能用GPT写的更好一些。

Tags alignment, decoder, encoder, fine tuning, Large language model, LLM, multi-head attention, multimodality, sentiment analysis, transformer, 大语言模型, 时间序列