乔姆斯基：语言学巨匠，computerscience和认知科学的奠基人

ChatGPT与PPT 1年前 (2024) lida

38 0 0

文章主题：尼克, 乔姆斯基, 语言学, 计算机科学

尼克｜乔姆斯基 vs ChatGPT

乔姆斯基是一位在语言学、计算机科学、认知科学和哲学领域有着深远影响的学者，同时也是当今最具影响力的知识分子之一。有人甚至将他视为历史上引用次数最多的十位思想家之一，虽然这种说法并不完全准确，但他的影响力和声望无疑是非常高的。通过Google Ngram的分析，我们可以看到乔姆斯基的名声与维特根斯坦相当，超过了波普尔、托尔斯泰、图灵和哥德尔等人的声望，但与罗素相比，他还稍显不足。而与爱因斯坦、牛顿和希腊三贤等伟大科学家相比，乔姆斯基的影響力虽有所逊色，但也同样不容小觑。

乔姆斯基：语言学巨匠，computerscience和认知科学的奠基人

在2022年的岁末，ChatGPT以惊人的速度问世，引发了全球范围内的关注。紧接着在2023年的3月8日，著名学者乔姆斯基，《纽约时报》的特约作者，以其特有的洞察力，针对ChatGPT发表了一篇名为“The False Promise of ChatGPT”的文章，对ChatGPT持有批判性的观点。在这篇文章中，乔姆斯基引用了他老人家的经典语句：“John is too stubborn to talk to”，并试图以此揭示ChatGPT的局限性。他认为，机器可能会将这个句子误解为“John太固执不愿意和人谈话”，而忽略其真正的含义—— “John不可理喻”。然而，网络上的网友们却把这句话抛给了ChatGPT，而ChatGPT却能准确地把握其中的深层含义，让乔姆斯基颜面无存。乔姆斯基对计算机科学和认知科学等新兴学科有着深入的理解，但对于大语言模型却抱有忽视的态度。斯坦福大学的计算语言学家克里斯·曼宁（Chris Manning）对此表示遗憾，他认为看到了一个年轻时具有深刻创新精神的学者，现在却对新的方法持保守态度，这让人感到十分惋惜。对于一代又一代的年轻人来说，乔姆斯基的形象一直是他们的偶像。然而，随着岁月的增长，人们开始意识到，即使是伟大的学者也有他的局限性。因此，我们期待ChatGPT能够继续发展，为人类的知识探索做出更大的贡献，而乔姆斯基的理论或许会在未来的某一天，被ChatGPT所超越。

乔姆斯基其人

乔姆斯基出生于一个充满政治热情的家庭，他的父母与大部分犹太人一样，是复国主义者和坚定的社会主义者。在这样一个左派犹太家庭中，乔姆斯基在12岁时就开始接触政治，并深受其老师哈里斯的影响，他对布尔什维克主义持怀疑态度，同时也反对犹太复国主义。乔姆斯基结婚后的初始阶段，曾经考虑过移民到以色列，然而有趣的是，由于他的反犹立场，他遭到了以色列的拒绝签证。在20世纪60年代，他因参与反越战活动，被美国政府关押。与他一同在监狱里的朋友诺曼·梅勒形容他为”书呆子”，即使在监狱里，他还担忧着如何给学生们上课。在1970年，乔姆斯基冒着生命危险，前往越南和老挝进行访问。为了保护他的安全，麻省理工学院甚至雇佣了两个专职保镖，相较于邻居哈佛大学，麻省理工学院的行动显然更加具有理想和勇气。乔姆斯基最新的政论书籍《美国梦安魂曲》充分展现了他的博学，我们有信心他有可能成为一位出色的美国宪法律师。他的政治立场虽然有所改变，但始终坚持的基本原则是始终站在弱势群体的一边，他借用”墙和鸡蛋”的比喻，自己始终如同鸡蛋一般，具体来说，就是反美反犹。在评论拉美政治问题时，乔姆斯基竟然坚定地支持并信任天主教的神父们。而基辛格在影响力如日中天的时候，乔姆斯基曾是他的激烈批评者。如今的大多数美国年轻人都甚至不知道基辛格的存在。基辛格有些像西洋参，所有在美国的华人回国探亲之前，都会在中国商店购买一些回国送人的礼物，但实际上，西洋参并不产自欧洲。

乔姆斯基：语言学巨匠，computerscience和认知科学的奠基人

乔姆斯基1970年摄于麻省理工

“柏拉图之问”与”奥威尔之问”，这两句话成为了乔姆斯基人生的两大指引。其中，”柏拉图之问”即我们常说的”刺激贫乏论”，它探讨的是在资源匮乏的环境下，人类如何能够获取并掌握如此丰富的知识。”奥威尔之问”则是与之相反的命题，它质疑的是在资源丰富的情况下，人类为什么所知的却如此有限。乔姆斯基对奥威尔的理论和观点更为亲近，他在学术研究时更倾向于柏拉图的思想，而在参与政治活动时，他会遵循奥威尔的路线。他曾在麻省理工学院的办公室里悬挂着罗素的照片，仿佛要继承罗素的衣钵，展现出一种舍我其谁的姿态。乔姆斯基的语言学研究和罗素逻辑学有着相似之处，他们都在关注政治和社会进步的同时，强调平等和自由的重要性。然而，在乔姆斯基的心中，奥威尔的位置似乎排在了罗素之前。乔姆斯基并非传统意义上的左派，他是一个无政府主义者，他的思想深受无政府主义的影响。

乔姆斯基，尽管他自称是一位理性主义者，但在他的内心深处，却对现代欧洲哲学持有轻蔑的态度。他的对话与法国学者福柯的对话引起了欧洲学界的关注，然而，乔姆斯基本人却认为这次对话并非一场严肃的交流，而仅仅是一次尝试，看是否能够通过不依赖翻译的方式理解对方的母语。乔姆斯基公开指责法国的文科知识分子，如德里达、拉康和福柯等人，他认为他们是一群“骗子”、“文盲”甚至“邪教”。他对这种反智的极端情绪表现出强烈的反感。

在过去的二十年里，乔姆斯基的著作和访谈中，重复的主题和观点并未发生显著变化，这使得他的思想的核心内容保持了一致性。他的每一次讲话和采访都被整理成了书籍，这些书籍以其严谨清晰的文风和通俗易懂的语言赢得了广泛的赞誉，成为大量读者了解乔姆斯基思想的重要途径。《语言科学》一书是加拿大语言哲学家詹姆斯·麦吉尔弗雷对乔姆斯基的采访记录，它系统地阐述了乔姆斯基的思想，成为了理解他的最佳入门书籍。在《语言与心智》这本书中，乔姆斯基对语言和心智的关系进行了深入探讨，并在第三版时加入了生物语言学的内容，使全书篇幅增加了近一倍。而《我们是谁》则展现了乔姆斯基对科学史的广泛研究。如果将这几本书视为乔姆斯基个人的作品，那么英国语言学家莱昂斯的《乔姆斯基》以及英国语言学家尼尔·史密斯的《乔姆斯基学述》显然也是必读书籍之一。这两本书分别从语言学和和政治角度对乔姆斯基进行了全面的评价，其中，《乔姆斯基》以“Ideas”代表学问，“Ideals”代表政治为主题，而《乔姆斯基学述》更是将此理念贯彻始终。

在1953年，乔姆斯基先生与其新婚妻子卡罗尔一同前往欧洲度假。然而，在从蒙特利尔至鹿特丹的跨洋旅程中，乔姆斯基先生因严重的晕船症状而卧床休息，这期间，他开始重新审视他老师哈里斯的结构语言学。在这个过程中，乔姆斯基先生创造性地提出了广义文法（Universal Grammar，UG）。乔姆斯基先生通过与他同年的一位数学家、逻辑学家马丁·戴维斯交流，了解到戴维斯老师的逻辑学家波斯特（Post）的相关工作。在此过程中，乔姆斯基先生在1956年发表了具有重大影响力的论文《语言描述的三个模型》，该文中引用了数学家罗森布鲁姆（Paul C. Rosenbloom）的教科书《数理逻辑要素》。在这本书中，作者正式介绍了产生式系统。这篇文章后来发展出了乔姆斯基的分层理论，对语言学和计算机科学产生了深远的影响。具体而言，乔姆斯基-0型文法（递归可枚举语言）等价于图灵机，1型文法（上下文相关语言）等价于线性有界非确定图灵机，2型文法（上下文无关语言）等价于非确定下压自动机，3型文法则是编程语言中常见的正则表达式，等价于有限自动机。”短语结构文法”（phrase structure grammar）最初在乔姆斯基的早期著作中泛指Post系统，但后来特指1型和2型文法。对于编程语言而言，Algol-60语言是受到BNF（巴克斯-诺尔范式）描述的，而BNF本身正是上下文无关文法。乔姆斯基认为，短语结构文法无法充分描述自然语言。此外，还有五层分法，即在0型和1型之间，加入一个递归语言，其与递归可枚举的主要区别在于对应的图灵机是否可以停机。关于这部分内容，需要一定的数学和计算理论知识。最后，推荐阅读语言学家冯志伟先生的《现代语言学流派》，以便更深入地了解这些理论和概念。

乔姆斯基的《语言学理论的逻辑结构》是其最著名的作品之一，该书的博士论文源自他对这一领域的深入研究。他将自己的手稿提交给麻省理工学院出版社，希望能将其发展为专著，然而，初出茅庐的乔姆斯基并未得到学术界的认可，相反，审稿的语言学家们建议他首先将这一主题转化为论文，并向学术期刊投稿，待其在学术界获得一定认可后再考虑出书。然而，乔姆斯基的首篇相关论文也被拒稿了，审稿者甚至没有阅读全文，就直接将其退还了。尽管如此，乔姆斯基在1955年的IEEE的前身IRE的信息论会议上，还是宣读了其“三个模型”的论文，并最终在URE的《信息论学报》上发表。在此期间，乔姆斯基还遇到了参会的一位数学家所罗门诺夫，他的论文在会议上被 read out ，从而开启了算法信息论的新篇章。所罗门诺夫的早期文章经常引用了乔姆斯基的生成文法。如果他也能够像乔姆斯基一样长寿，那么他可能会感到欣慰的是，正是算法信息论为ChatGPT奠定了理论基础。这个故事 itself 就是一篇长文，值得我们深入探讨。

乔姆斯基：语言学巨匠，computerscience和认知科学的奠基人

《语言学理论的逻辑结构》

乔姆斯基的伯乐是比他年长几岁的同校青年教授，一位是认知心理学的创立者之一乔治·米勒（George Miller）和犹太裔语言学家莫里斯·哈利（Morris Halle）。米勒是最早看过《语言学理论的逻辑结构》的人。哈利看了乔姆斯基给本科生上课的讲稿，推荐给Mouton出版社作为现代语言学丛书的一个小册子先出版了，这就是《句法结构》。这本科普书好评如潮，奠定了乔姆斯基在语言学界的地位，而更学术的《语言学理论的逻辑结构》则要到二十年后才正式出版。他的语言学经历了几个阶段的变化：1950年代转换生成文法，1960年代标准理论，1970年代管辖与约束（government和binding），1980年代最简方案。平克曾经用“文革”语言戏称乔老爷语言学思想的变化为“继续革命”，但他的核心思想——“思维是由语言生成的”（这里简称“思维即语言”或“语言即思维”），从来没有变过。

思维即语言？

乔姆斯基的理论在语言学界被认为是开天辟地的，所谓“乔姆斯基革命”。但从计算机科学和逻辑学的角度看，它是自然的。乔姆斯基承认广义文法（UG）受到波斯特的启发。可惜波斯特既没有被逻辑学家（如哥德尔）欣赏，也没有被数学家包容。相较于计算机科学，语言学是迟钝的：计算机科学几乎与相应的数理逻辑同步，当哥德尔和海伯伦 1934年定义了广义递归函数，图灵1936年就发明了图灵机；而波斯特的工作要到1956年才被乔姆斯基引入语言学。乔姆斯基之前，语言学是文科，乔老爷力图把语言学变成自然科学。乔姆斯基称第一次认知革命发生在十七世纪，主角是笛卡尔；而第二次认知革命发生在1950年代的麻省理工。乔姆斯基甚至把“思维即语言”回溯到基督教杨森派主要人物阿尔诺（Arnauld）写的《王港语法》，阿尔诺和同时代的笛卡尔和帕斯卡相熟，并深受他们影响。也有语言学史家认为乔姆斯基误读了《王港语法》。

与英美经验主义传统不同，乔姆斯基自称是理性主义者，他的语言学理论也被他冠以笛卡尔语言学的帽子。在语言是区分智人和其他物种的决定性因素上，认知科学家和进化心理学家都同意乔姆斯基。但在语言的来源上，乔姆斯基和大家有明显分歧。波普尔和平克等认为语言是进化的产物，所谓渐进派；而乔姆斯基则认为语言是突现的，他自称“跳跃”（saltation）派。

乔姆斯基不断地引用洪堡的说法“语言是有限手段的无限运用”。他提出的一个极为简单的机制：“合并”（merge），其实是一种原始的递归机制，考虑到通用递归函数等价于图灵机，我们不惊奇“合并”机制可以解释所有的语法现象。对乔姆斯基来说，只要能找到“合并”的生物学解释，他的计划就可以变成科学理论了——他目前都以更加谦逊的“计划”（program）而不是“理论”来指称自己的研究。如果“合并”的生物学解释成立，那么这不过是丘奇-图灵论题的一个生物学支持证据而已。如果承认语言等于思维，实际上承认了图灵机可以思维。

语言学家说“思维即语言”，有点像物理学家（例如网红迈克斯·泰格马克）说“数学等于物理”。常人看，思维肯定大于语言，而数学也大于物理。图灵测试是语言能力的测试，无关其他模态。十几年前深度学习能火起来，是因为神经网络解决了语音和视觉问题，但那时人们只是兴奋。GPT却令人惊喜甚至震撼。无论是语音还是视觉，我们都认为这是增强人的能力。但直到2022年ChatGPT在语言能力的突破才使人意识到人性可能被冒犯。语言要比听觉和视觉更接近人性。

乔姆斯基认为语言的交流功能是思想功能的外化，思想在先，交流在后。他还认为人类可能在十万到五万年前因为基因突变，导致了递归枚举能力。这种突变可能在人类更早的历史上发生过多次，只不过这次有了显著的群体效果。感觉-运动系统（sensory-motor）是语言外化的结果。乔姆斯基的妻子卡罗尔是麻省理工学院的生物语言学家，她研究过两岁前得过脑膜炎的儿童，他们丧失了视觉和听觉，但还保留有触觉。他们能通过触觉补偿语言能力，从而能思维。这证明了语言是比其他感知模态更加基础的官能。

GPT的G就是乔姆斯基生成文法中所谓“生成”。乔姆斯基最出名的例句大概是：Colorless green ideas sleep furiously. 这个生成的句子被传统经验主义者批判为“虚无”，但很多诗人赞赏这个句子，称其富有禅意。按照当下流行的GPT术语，就是“幻觉”（hallucination），或者创造力。

乔姆斯基虽不愿承认还原论，但他的方法论本质上还是还原论的：他企图找到语言的生物学基础。他称赞图灵把生物学问题还原到物理学问题——图灵1952年做过形态学（Chemical Basis of Morphogenesis）。牛顿也很困惑万有引力不能归约到机械力学，即任何运动必须有某种物理的推动。乔姆斯基不认可经验主义和行为主义，他有时也称之为马赫主义。他认为深度学习就是当代的行为主义。洛克说心灵是白板，莱布尼茨说心灵不是白板，而是有纹理的大理石板。虽然图灵测试被看作是行为主义的，但一个基本假设是数据是喂给图灵机的，而图灵机不是白板。经验主义者也不得不承认思维源于某种有组织的物质（organized matter）。如果承认丘奇-图灵论题，那么所谓“有组织的物质”和理性主义者所谓“纹理”都可被看作是图灵机或者与之等价的“语言官能”。经验主义者会把学习看作记忆，而承认丘奇-图灵论题的人会把学习看作压缩。通用人工智能（AGI）不过是不熟悉计算理论的人提出的口号，如果我们认可语言即思维，那么，AGI的标准就是语言，无关乎其他模态，这就又回到图灵测试。

思维不等于语言？

塔南鲍姆（Joshua Tenenbaum）是麻省理工学院大脑与认知科学系的学术新星。他父亲曾是1980年代硅谷人工智能重镇Schlumberger实验室的掌门人，后来连环创业，我和老塔同事时，小塔还没上高中，现在居然成了大佬。ChatGPT出来后，小塔跟风，企图标新立异这样一种观点：大语言模型解决了语言问题，但还是不能思维。他和几位同道学生在arXiv上挂了篇文章Dissociating Language and Thought in Large Language Models: A Cognitive Perspective，标题一目了然：分离语言与思维。他们把语言能力分为形式能力（formal competence）和功能能力（functional competence），结论大致是大语言模型解决了形式能力，而没有解决功能能力，所以思维不等于语言。小塔所谓“功能能力”就是用言语同世界打交道，换算成大模型的术语就是“多模态”。其实，他们对语言能力的划分，都是乔姆斯基玩剩下的，乔老爷早就有内部语言（I-语言）与外部语言（E-语言）之分，内部语言是天生的能力（competence），外部语言用于行为（performance），这本就是两件不同的事情。小塔的“功能能力”对应于乔老爷的外部语言。内部语言受制于生物、数学和物理的约束。乔姆斯基应该认可丘奇-图灵论题的某个版本。任何相信丘奇-图灵论题的人不会是纯粹的理性主义者，也不会是纯粹的经验主义者。乔姆斯基-0型文法等价于图灵机，所谓“语言官能”（language faculty）等价于某种自动机。这间接地支持思维即语言的论断。

乔姆斯基：语言学巨匠，computerscience和认知科学的奠基人

塔南鲍姆

内部语言关乎“真”，尺度是内在一致性；而外部语言关乎“意义”，尺度是外在对应性。意义得自交流，维特根斯坦所谓“意义即使用”，或者约翰·奥斯汀所谓“以言行事”（do things with words），“言语行为”都是指外部语言。外部语言对应于工程师们感兴趣的 embodied intelligence（中文别扭地翻译为“具身智能”）或“多模态”（视觉、听觉、触觉等）。意义是功能层在与外界交互时进行强化学习的过程。乔老爷认为外部语言是交流而不是思维。小塔并没有提出什么新东西。即使马斯克这样聪明的工程师也认为自动驾驶之类的具身智能是狭隘的（narrow form），要远比人们想象的简单，这很明显要比喜欢讨好大众的小塔更加有洞见。

承认思维即语言，对工程实践也会有影响。设计多模态大模型时，承认派会把语言模型作为基座，其他模态坐在基座之上，不同模态之间的沟通也通过基座进行。但否认派可能企图直接在任意模态之间建立映射，这明显不经济。

设想在火星上做自动驾驶，如果所有的停车标志（STOP）都是绿色的，难道我们需要拿所有的数据重新训练一遍火星自动驾驶大模型吗？如果驾驶员是人，一条简单的指令：“注意！停车标志是绿色的”，就足以让人适应新的驾驶场景。难道在大语言模型上不可以用一条简单的提示或者“咒语”（prompt）：“把所有停车标志的颜色替换成绿色”吗？事实上，1970年代普渡大学的傅京孙就曾经用语言学的手段研究视觉，当时不被广泛认可。可惜他英年早逝。如果在“思维即语言”的立场重新审视视觉，傅京孙可算得高瞻远瞩。

大语言模型的可解释性

2000年，麻省理工学院的人文社科学院成立五十年的庆祝大会上，乔姆斯基、普特南和平克三人参加一个论坛，题为“关于人性，我们知道什么？”（What Do We Know About Human Nature?）这场论坛被组织者称为“三大男高音”齐聚。从休谟起，人性的核心是思维。平克把认知革命归功于乔姆斯基。乔老爷和普特南曾经在宾夕法尼亚大学同学，立场偶有不同，但彼此尊重。 2011年5月，麻省理工学院为配合一百五十周年校庆，召开名为“大脑、心、机器”的研讨会（Brain, Mind and Machine Symposium），本校的几位大佬乔姆斯基、明斯基、温斯顿等悉数出席，并由平克主持。乔姆斯基批评当时重新开始流行的神经网络是黑盒子：没有提供解释和知识。麻省理工学院主办的《技术评论》杂志为这个研讨会发了专文，标题故意挑事儿：“不会思维的机器”（Unthinking Machines）。时任谷歌研发总监的诺维格（Peter Norvig）很快回应乔姆斯基，他批评语言学的规则在自然语言处理上，根本就没用。现在看，诺维格的工程实践还真给了他一些先知先觉。有人用“两种文化”来总结乔姆斯基和诺维格的隔空掐架。

乔姆斯基：语言学巨匠，computerscience和认知科学的奠基人

乔姆斯基

语言问题曾被理所应当地认为是逻辑的，现在却被用神经网络得到满意地解决，这本身就是令人惊奇的。工程师们甚至认为语言的中间任务（词分析、句法分析、语义分析）已经不需要认真对待了，因为ChatGPT代表的大模型对语言学问题给出了端到端的解决办法。语言学家就是研究各种中间步骤的，中间步骤就是解释。其实在1990年代统计方法被引入之后，自然语言处理（NLP）就越来越不需要语言学了，曾有玩笑：NLP团队每开除一个语言学家，系统的性能就提升一个台阶。估计令乔姆斯基沮丧的是：大语言模型把自己的工作彻底搞丢了。诺维格的合作者、伯克利教授斯图亚特·罗素（Stuart Russell）的态度则一直温和得多。他怀疑ChatGPT的良好表现是不是碰巧碰上的。他说：“如今的自然语言处理不再研究语言，我认为这是非常不幸的。”这和乔姆斯基的态度差不多，斯图亚特·罗素仍然把希望寄托于知识和推理。他们都认为ChatGPT是工程而不是关乎语言的科学。人类专属的技能不多了，难道我们要等到机器证明了黎曼猜想才能被彻底折服吗？

乔姆斯基与笛卡尔的不同之处在于，乔姆斯基并不是试图在心身之间划一条明确界限的二元论者。这么说，和晚年蒯因的“整体主义”也没啥太大区别，都接近皮尔士的实用主义。相同的是，他们都认为语言是人的独有能力，但乔姆斯基用语言作为人和动物的划界，而笛卡尔用语言作为人和机器的划界。笛卡尔认为人类语言是任何自动机也不能实现的，他大概不会认可丘奇-图灵论题。

乔姆斯基曾说他自己的方法是“伽利略式”的，也就是从小数据里找寻基本定律，而不是用大数据构建黑盒子。但如果人人都有低成本的黑盒子，谁还要麻烦基本定律呢？虽然乔姆斯基在技术上对ChatGPT可能有所误判，但他“思维即语言”的立场却是大语言模型引发的这场革命的哲学基础之一。返回搜狐，查看更多

责任编辑：