我不谈ChatGPT

编程知识更新时间:2023-04-15 14:21:22

（1）数据

有两个未经证实的传闻：

1、客服问答：80%用户问的问题都是那20%常见问题，但是就是这样，占用了客服人员80%的工作量和工作时间
2、资讯搜索：谷歌一位员工说，在互联网上，60%的内容都是重复的，都是被人复制来复制去的

这就是我们现实世界的信息，以及现实世界的用户。所以人工智能代替人是不可能，但要对付这帮用户，应该还是比较有余的。

（2）框架

框架目前在开源界都是比较成熟的：

问答与会话框架
意图识别方法
情感分析框架
搜索引擎、推荐引擎
文本摘要方法、文本生成方法

这些年，这些技术都进展不大，大家搞来搞去都还是卡在了海量的有质量的数据采集-标注-训练-微调上了。一句话：有多少数据就有多少智能，有多少人工就有多少智能。现在的人工智能玩的就是简单粗暴的工程暴力美学：大数据-大算力。

想想也对啊。这一届（第三次）的人工智能热潮，原本就起源于图像：

2012年李飞飞在谷歌的资助下搞ImageNet图像大数据集
2012年辛顿团队以高分打破ImageNet SOTA记录
2014年GAN发明
2016年YOLO目标检测算法发明
2018年Transformer发明
2020年CLIP发明
2022年扩散模型应用到图像生成

用一句话来说就是：2012-2022这十年，前五年就是图像识别，后五年就是图像生成。

在NLP领域只有Open AI一家公司在孤行。2020年发布的GPT-3偏重NLG：摘要与生成。2022年发布的ChatGPT偏重NLU：问答与会话。其实大家也不用太惊讶ChatGPT，本身并不复杂也并不先进，重要点就在于有钱：大数据-大人工标注-大算力训练。

在框架上，谷歌和Facebook相映生辉。在算法上，谷歌和Open AI相映生辉，大家在分类的思路上或回归的思路上不断换姿势，但刷来刷去本质上不外乎是数据对儿-翻译模型原理，Transformer这块万能砖的长度也不外乎就是250个Segment（这可追溯到上世纪90年代的LSTM Segment长度），这就是我们第三次人工智能热潮的进步。

（3）多模态

从2020年开始流行多模态，也不外乎是数据对儿对齐，共享特征。

过去问答与会话，都是纯文字输入和输出居多。现在有了多模态，不仅输入可以吃多媒体数据，而且输出方面也是图文并茂：有了2D的数字人，有人脸、有表情、有手势、有身体姿势。你看过去的文字小冰，现在也升级成有虚拟形象的：华智冰。

（4）元宇宙

一切都在朝向元宇宙的方向上狂奔，在VR元宇宙世界中，2D变3D。现在人们还做不到真人形象的数字人，还只是卡通形象，未来一定是3D真人形象。

静态的3D逼真，那就用虚幻游戏引擎生成。动态的3D逼真，那就用图像生成大模型。

交互，就用ChatGPT大模型。中国人最擅长山寨，所以我相信到2023年6月，中国肯定一堆公司（比如智源、鹏城、之江、百度、阿里、腾讯、华为等等）会发布并开源中文海量数据的ChatGPT大模型。而且到时候一定会有若干个打着高科技旗号的创业公司把免费开源的ChatGPT包装个App的壳然后骗上千万风险投资。

而且中国人也会以此为基础进行魔改：再注入语音识别-语音转文字-语音合成（文字转语音），再注入机器翻译。毕竟这两个技术也已经很成熟了，我前段时间尝试抖音和科大讯飞的语音技术感觉成熟度挺高了，集成进来就行了嘛。

这样，一个有表情有手势有身体姿势的真人3D，能直接语音对话交流而且能自动翻译。

（5）商用

元宇宙毕竟是个人休闲娱乐。如何把ChatGPT应用于商业，如网上销售和网上客服。

我过去写过CRM 40年：