一觉醒来,GPT-4刷屏了,这个场面怎么说呢,有点混乱。吃瓜群众一边津津乐道,一边瑟瑟发抖。
津津乐道的是那些革命性的新功能,瑟瑟发抖的是硅基人距离取代碳基人又前进了一步。
那么,相比上一代模型,GPT-4都有哪些变化呢?
早上已经刷屏很多了,我们就简单概括几点↓
❶ 它能看图说话啦
GPT的前序版本,只是NLP(自然语言处理)模型,只能处理文本信息。
而GPT-4是一个多模态模型(multimodal model),不仅可以接受文本,现在也可以接受图片输入了,然后输出文本结果。
比如,我们可以甩一张图给它,让它叨逼一下这个图的梗儿在哪儿。
因为目前还没有实测的入口,所以只能看官方的例子↓
看懂没?用户给了一张“VGA苹果手机充电线”的组合图,让GPT-4逐条指出“笑点”,很明显GPT-4回答的不错,它真看懂了。
如果是我做测试demo,我就让GPT-4来玩「找不同」,那岂不是更加直观。
其实这还没什么,更牛啤的是官方发布的开发者Demo视频↓
你可以在纸上画一个非常简陋的网站UI草图,就像下面这样。
然后,用手机拍照,上传给GPT-4,要求它根据这个草图,生成详细的HTML和JS代码。
Demo中的指令是:Write brief HTML/JS to turn this mock-up into a colorful website。
然后,GPT-4就像一个熟练的前端工程师,瞬间把代码给写了出来,看到这里,我都有点方了。
之前,ChatGPT能帮助码农写代码,帮助网工敲CLI我们已经见怪不怪,毕竟代码也好,网络配置命令也好,本身复用率就比较高,只要训练到位,帮你写点示例没啥困难。
比如,这是某次我无聊让ChatGPT干的事,其实并没有啥技术含量↓
在这种状况下,如果我们需要让ChatGPT辅助我们真正完成一件工作,需要非常详细的一步步写出“Prompt”,其实这很考量提问者的专业能力和技巧。
可是现在,如果GPT-4真正具备了识图、读图能力,那真是太可怕了↓
给它一张UI草图,帮你生成前端代码…
给它一张网络拓扑图,帮你生成配置命令行…
给它一张解决方案架构图,帮你把方案文字编出来…
虽然GPT-4的识图能力还有待检验,但这一天看起来并不遥远。
❷ 它是加州小镇做题家
官方给了一组GPT-4刷题的成绩,虽然说它是超级学霸还为时尚早,但某些科目的成绩已经相当逆天了。
看这成绩,最牛掰的是生物奥林匹克竞赛考试和GRE考试,都击败了99%的参考者。
律考也很厉害(Uniform Bar Exam),排位能达到前10%。而GPT-3.5参加律考,只能排到倒数10%。
刷其他题也不含糊,比如SAT数学,可以考到700分(相当于92%分位),而GPT-3.5的水平是590分(大约相当于70%分位)。
结合上一项识图能力,我觉得更加终极的考试场景是↓
你拍一张“黄冈密卷”给它,它就直接把答案给你写出来了
❸ 它比以前更难忽悠了
以前在使用ChatGPT(基于GPT-3.5)的时候,经常会得到一些让人啼笑皆非的答案,甚至是与事实相悖的。
或者你可以通过给它“洗脑”,让他给出错误的答案。
比如下面这个问题,第一次回答就有明显错误,你可以进一步忽悠它。
接下来,我把ChatGPT的模型换成GPT-4,再问同样的问题,这次答案看着靠谱了许多,看来做了不少功课。
但是如你继续忽悠它,还是能把它忽悠瘸。
根据官方的介绍,GPT-4相比GPT-3.5,针对9个大类的问题,事实准确率还是有了极大的提升。
以前的版本,普遍低于60%。
当然,目前的缺陷仍然比较明显,也就是说,我们针对ChatGPT/GPT给出的答案,还需要进行细致的人工审核。
比如下面这个,就非常荒唐了。我信你个鬼!
❹ 它比以前更贵了
GPT-3.5版本,API的价格是0.2美分/1000字(token),而到了4.0版本,价格暴涨,变成:6美分/1000字(token)
可能训练个模型成本太高吧,而推理的成本也不会滴,不过相信这个价格后面会逐步降低的。
另外,GPT-4支持的输入文本长度大大提升了,最高可以到32000(token)。
这个还是很有用的,你想让它帮忙校对一篇文章,或者帮你检查一段代码中的bug,以前可能要分成很多段来输入输出。
现在,夸张一点,Ctrl+A/Ctrl+C/Ctrl+V,就可以等结果了。
❺ ChatGPT Plus用户有福利
这一次,对于ChatGPT Plus用户来说,每月20刀的订阅费没有白花。可以抢先试用GPT-4模型,登录以后,可以在3种模型之间灵活选择切换。
而且,官方也非常直观地给出了三种模型的差别:
默认的付费版GPT-3.5,响应速度5星,推理逻辑性3星,简洁性2星
免费版的GPT-3.5,响应速度2星,推理逻辑性3星,简洁性1星
GPT-4体验版,响应速度2星,推理逻辑性5星,简洁性4星
我在ChatGPT里试了一下GPT-4模式,确实有点卡,而为了防止广大热心吃瓜群众过多请求,官方还做了限制:每四个小时,最多响应100条信息。
而且因为图片输入的模式只是预览,所以ChatGPT的GPT-4模式也只能输入文本。
GPT-4模式还有个问题:它的训练数据集跟GPT-3.5一样,还是截止到2021年9月。
也就是说,GPT-4有个更聪明的脑子,脑回路更清晰,但是它的知识结构还是跟以前一样的。书读的不多,还是那些陈芝麻烂谷子。
好了GPT-4的瓜,我们就先吃到这里吧。
总体感受是,现在说人工智能的奇点已到,还为时尚早,但大家太需要一个突破口了,所以才会“全民练模型,人人GPT”。
但我们真的需要那么多大模型吗?
大模型太多,客户场景有点不够用了