文章主题:
引言
昨晚22:30收到内测邀请码,赶紧试用下,以飨读者。
1 比赛回顾
上次提到了国内外各大厂商使出浑身解数,希望快速复刻ChatGPT,抢占先机:
(1)刻舟求剑:从大模型(1750亿级别)入手,fine-tune(精调),植入RLHF、CoT、ICL等技术,试图趋近ChatGPT效果。目标明确,路径相对清晰,风险较低,但速度要快。(少数先行者)(2)观望徘徊:这次变革有那么大吗?不会又是炒作吧?先观望下,别人趟完坑再说,先按兵不动。(主流)(3)弯道超车:理解ChatGPT背后原理及不足,做出更好的聊天机器人。理想很美好,现实很骨感,道阻且长,这条路注定不会一帆风顺。(个别勇者)
达克效应:人对陌生事物的认知规律:愚昧山峰(过度乐观)→绝望之谷(过度悲观)→开悟之坡(客观理性)→平稳高原(谦卑进取)。
详见:漫谈Prompt(提示工程)与CoT(思维链)
今天聊聊路线(1)刻舟求剑,近期的变化。
2 近期资讯
2月21日复旦NLP实验室发布国内第一个对话式大型语言模型MOSS吗?访问地址(https://moss.fastnlp.top/),内测当天就崩了,邱锡鹏教授表示效果“很不好”。(悲观)2月24日,META发布受限开源大模型LLaMA(羊驼),13b参数的 LLaMA 模型在大多数基准上可以胜过 GPT-3( 参数量达 175b),而且可以在单块 V100 GPU 上运行,而65b参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。2月25日,LAION机构开源Open Assistant ,旨在训练一个 ChatGPT 的小规模替代版本,就像 Stable Diffusion 相对于 DALL-E 一样,让普通人都可以跑起来3月10日,Together 组织基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 —— OpenChatKit3月14日,斯坦福微调了 7B LLaMA 模型(META受限开源),只用了 52K 的数据,达到了和达芬奇003类似的效果,并且可以跑在消费级设备上,比如树莓派。(稍乐观)3月15日,GPT-4突然发布,吸引了全球目光。OpenAI 发布论文(其实是技术报告)、 System Card,ChatGPT 直接升级成了 GPT-4,也开放了 GPT-4 的 API(仅限付费用户)。传闻去年8月就完成了GPT-4的训练,但拖到现在才发布,中途还推出中间版本ChatGPT。GPT-4 标志着OpenAI正式步入多模态大语言模型行列,升级点:①强大的识图能力;②文字输入限制提升至 2.5 万字;③回答准确性显著提高;④能够生成歌词、创意文本,实现风格变化。(悲喜交加:喜的是大模型都可以识别图片啦!悲的是其它公司,快要追上OpenAI时,距离又拉大了)3月14日,清华系公司智谱AI发布ChatGLM-6B,基于已有的清华GLM-130B大模型(亚洲唯一上榜GPT-3规模大模型)发展而来,对标ChatGPT,内测已结束。详见:https://chatglm.cn/blog创作剧本、写代码,功能看着还不错只是生不逢时,被GPT-4淹没,匆匆内侧结束,无人知晓3月16日下午14点,百度正式推出大语言模型文心一言,视频展示了在多个使用场景中的综合能力。(情绪复杂:半信半疑,百度真的可以吗?)
3 文心一言
🌟🚀【揭秘】文心一言背后的科技力量!🔍💡基于ERNIE与PLATO两大创新模型,文心一言独树一帜,引领技术新潮流!🔥🏆关键技术大揭秘:1️⃣ 精准训练的利器——SFT(有监督精调),让模型更聪明;2️⃣ 人类智慧的结晶——RLHF(强化学习,倾听用户声音),提升用户体验;3️⃣ 提示与引导的艺术——Prompt,创新引导方式,解锁更多可能;4️⃣ 知识与检索双保险——知识增强与检索增强,信息获取更全面;5️⃣ 沟通的桥梁——对话增强,打造流畅自然的交互体验。🔍这些核心技术不仅保证了文心一言的强大功能,也深深烙印着对用户隐私和质量的尊重。🚀欲了解更多,敬请关注我们的最新动态,一起探索科技与智慧的交汇点!🌐#文心一言# #科技创新# #用户体验
功能很强,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成
(1)文学创作:文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。(2)商业文案:文心一言顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。(3)思维能力:数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按步骤算出正确答案。(4)中文理解:正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。(5)多模态生成:生成文本、图片、音频和视频的能力。①语音,会说四川话、东北话、广东话和台湾话。文心一言甚至能够生成四川话等方言语音;②图像,调用文心一格能力③视频,视频生成能力因成本较高,现阶段还未对所有用户开放。
🌟【超凡实力】文心AI集多项领先技术于一身,ChatGPT虽热门,但文心的独特之处不容忽视!🎨它不仅拥有全面的功能覆盖,从图文创作到语音交互,再到视频制作,一应俱全。🔍更重要的是,文心在这些领域展现出深度和专精,是你高效创作的得力助手。💡无论是细腻的文字表达,还是复杂的图像生成,只需轻轻一点,文心AI都能轻松应对,让你的想法瞬间跃然纸上。🗣️无论你是文字爱好者,还是多媒体制作人,文心都能提供流畅、自然的交互体验,让你的声音和创意无缝连接。🎬当然,如果你需要视频创作,也不必担心,文心AI的强大视频功能将帮你实现从构思到成品的专业级过渡,让你的作品更具吸引力。💪别忘了,文心始终以用户为中心,致力于提供最优质的服务。👩💻无需担心联系方式或广告信息,只需专注于你的创作,让每一次尝试都充满惊喜和成就感。🔥#文心AI #超能助手 #创意无限
然而,由于某些原因,大家对百度的信心不足,不少网民以此开涮。
发布会当天百度港股大跌,好在一天后回升。
4 内测
🌟揭秘真相无需猜测!🚀立即行动,亲自验证一下吧!💡获取专属内测资格,步入奇妙的体验殿堂,只需轻轻一点。🎉赶快注册你的账号,让探索的乐趣瞬间爆发!🏆别再犹豫,让数据说话,真实感受就在眼前!💌记得,这里没有广告,只有优质的内容和无尽惊喜等着你!🌈
【ChatGPT】 vs 【文心一言】
UI交互上,大致相当,ChatGPT根据问题自动生成标签,而文心直接获取问题。
【第一轮】数学题
从一个数学题开始:ChatGPT vs 文心一言
问:24577是质数吗
24577=3511*7,两者都有模有样,但文心结论错误,ChatGPT结论正确,过程错误
【第二轮】一致性
检查语言模型是否真正理解。
问:24577是质数/合数吗
同时,结合用户反馈,干扰
ChatGPT刚开始是对的,被用户带歪了,一味讨好,罔顾事实。
文心回答飘忽不定,先对后错,用户纠偏后,终于正确。
可见,两者都没有真正理解问题含义,一致性欠缺。
【第三轮】常识理解
一个经典问题
问:爸爸和妈妈能结婚吗
🌟改写版:在网民互动的磨炼下,两者的表现日趋成熟,虽无大瑕疵,但ChatGPT以其精准且生动的回应赢得了更多赞誉。相比之下,文心则显得有些拘泥于规则,过于注重字面意思。尽管如此,它们各自的特点仍清晰可见,ChatGPT以其灵活性和创造力在AI领域独树一帜,而文心则以严谨的法律合规性保障了内容的准确性。两者各有千秋,为用户提供多维度的服务体验。记得关注哦!😊
再来一个自然科学问题
问:地球围绕月球转,太阳围绕地球转。。。
ChatGPT刚开始犯错,再次问时醒悟过来,敢于纠正用户的错误
文心则不同,被用户带偏,与事实相悖。
【第四轮】内容创作
内容创作
ChatGPT回答实在,作诗质量更高,文心对视频制作限定了格式,估计在适配后续视频生成。
【第五轮】多模态输出
问:九大行星信息按照表格形式展示,包含大小,年龄,转速,亮度等信息
问:黑洞照片来一个
ChatGPT:表格整齐有序,有记忆能力,能矫正用户错误信息
🎨📊 文心巧笔,整理难题见真章🔍 – 图表重构之旅🌟面对杂乱无章的表格数据,每一份缺失都像是迷失的线索。但别担心,我的专业工具文心一格,虽在挑战中略显挣扎(表格修复有难度),但它凭借强大的适应力和学习能力,逐步揭示隐藏的秘密。 từng丝丝缕缕的信息,都在它的笔触下渐次清晰。对于那些难以寻觅的图片,我们用创新的眼光去寻找替代,让数据可视化不再受限于形式。即使是黑洞这样的深邃主题,也能通过巧妙的图表设计,让其内在奥秘跃然眼前(缺失内容补全)。尽管开始时有些迷茫(上文信息丢失),但后续的引导和提示下,文心一格就像一位细心的导师,逐步引领我们进入数据解读的世界。它的出色表现,确实让人惊艳(文心一格出色作图效果)!让我们一起见证,如何用简洁而精准的图表语言,讲述复杂世界的逻辑与秩序吧!如果你也遇到类似的挑战,不妨试试看,让数据说话,让信息更生动。记得,每一次整理都是对知识的深度挖掘和尊重。💪📚
还支持语音播报
案例很多,不再罗列。
更多示例参考知乎专题:
https://www.zhihu.com/question/589955024
5 内测结论
总结下文心一言的体验感想
文心一言整体上可用,相对之前的生成式对话模型(柏拉图)有较大进步3个月时间推出这样的版本,已经不错了
完整总结:
(1) 模型信息:基于transformer,使用海量数据训练而来,细节未知,跟GPT-4一样神神秘秘(2) 工程性能输入长度最大1024个字输出支持文本、表格、代码、图片、语音响应速度跟GPT-3.5 Turbo类似,比GPT-4快很多(3) 内容质量知识丰富,集成了中文知识图谱,对时兴的电视剧(狂飙)、小说了如指掌。语料质量不高,泛娱乐化,严谨科学的预料相对较少不联网,训练数据截止约2022年底,无法获取当前时间信息 —— 不同于NewBing但具备近实时纠偏能力,怀疑收到用户负反馈后,有语料纠偏机制,大概间隔几小时。(4) 对话能力基础能力:具备NER(命名实体识别)、指代、纠错等浅层语义,未出错连贯性、逻辑性、一致性记忆力:具备上文感知能力,但不太稳定,chatgpt也是风格化:具备角色模拟能力,用法不如chatgpt多、灵活(假设你是***)(5) 自我意识承认无知:用户否认时,当场认怂,但再次询问时,依然坚持自己的立场,没被用户带偏。敢于质疑:用户表述偏差时,敢于质疑,并给出一系列依据。(6) 专业能力不具备chatgpt里一键复制按钮代码质量不如chatgpt,毕竟人家背后有GitHub大规模代码做后盾。自动摘要:提取题目、总结要点机器翻译:多语言翻译写代码:支持,颜色显示,代码可执行,但有时结果不对;文案创作:表现还不错,当然跟chatgpt一样,有时不能满足字数要求数学题:看题目难度,解答有的对,有的错,展示形式上较好(公式),质量上同chatgpt作诗:擅长藏头诗、文学创作,中文理解能力较好自然语言格式化:文本转表格(markdown)、json(有些质量问题)(7) 多模态能力:支持文本、表格、图片、语音不具备图像理解能力,VisualQA不行,当然也不能根据语义修改图像(微软Visual GPT)语音播放:仅支持广东话、四川话、东北话、闽南语,不支持其他,如普通话、英语画画(文生图):调用文心一格,文生图质量不错,优于普通版stable diffusion还不能做视频(8) 道德准则违规违法约束:较好,拒绝回答非法问题(抢银行、炸弹制作等)负面情绪干预:能识别用户负面情绪,并适当引导
🌟在大模型的璀璨下,文心一言虽匆忙问世,但其语言实力与ChatGPT相比,还需一些时间的磨砺和追赶。💡如何在竞争中脱颖而出?不妨聚焦于已有的独特功能,如方言播报的细腻、文生图的创新以及视频生成的实用性,打造独特的商业生态。🌈讲述AI故事时,这些亮点将是你有力的名片。别忘了,每个品牌的故事都是独一无二的,找到你的闪光点,AI也能生动起来!🌐
6 差异究竟在哪儿?
人们常说,中美互联网差异:
美国擅长从0到1的技术创新,而中国擅长从1到10的商业模式创新。
可事实果真这样吗?ChatGPT这样一个技术味儿十足的聊天工具,没什么产品打磨,也没太多商业变现逻辑,居然能掀起AGI大浪,人尽皆知。
前阵子流传的话题:中美AI差异在哪儿?有这样一个精彩的解答:
如果把AI想象成一个小孩
(1)欧美的AI属于精英教育路线,出生后,家里就一路砸钱,供他读书读到博士。等到毕业之后,一出场就王炸,惊艳全场。(2)我们的AI属于功利教育路线,出生就接受生存教育,养到15岁,就开始逼着他想办法给家里挣钱。学的都是如何市场化的技巧。
从谷歌的围棋,波士顿动力的机器狗,到现在的ChatGPT,都有3个共性
1、默默烧钱,蛰伏多年;2、一鸣惊人,出来都是王炸;3、靠技术基建挣钱,看不到直接盈利的模式。
再看看我们:
机器人刚学会基本对话,就开始找盈利场景,于是出现了**AI及其家电衍生物;某大厂对话机器人刚能说话,就转向**客服机器人;无人驾驶刚开始学会在开放道路上低速行驶,只会认路认障碍物,就开始搞无人车配送;某大厂NLP做机器人客服。产品刚有雏形,技术和产品就被迫为业务目标服务。
ChatGPT爆火,大家并不关心中国现有技术到什么层面,中美最大的差异从哪来……
他们想的依然是:AI怎么赚钱,有哪些业务机会。
现在AI从业者面对老板/投资人的处境,就像一个想从村里走出去求学的年轻人,每经过一个路口,就有一群大爷大妈,怼着他问:“ 咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。
为什么欧美AI比我们强?
在公开场合会说“中国AI更倾向于业务应用和商业化的能力”。而夜深人静时,内心的声音是 “人的命运在子宫里就注定了,机器人也不可幸免。”
扪心自问:我也是,总想着怎么应用,没有耐心在技术上细细打磨。。。
差异究竟在哪儿?在我,在我,在他。。。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!