《GPT时代：微软与国内大厂的竞争与合作》

ChatGPT与客服 2年前 (2023) lida

60 0 0

文章主题：微软, GPT, Office, Windows

摘要：

1.微软在office、windows、游戏、teams、云计算、必应等全产品线中都集成了GPT；

GPT 的生成内容不可控性使得其在中国的落地具有一定的不确定性。然而，在我国市场上仍会出现具备自主可控能力的大型模型。针对这种模型的盈利模式，可能会采取提价或吸引增量用户的策略。

3.国内各家大厂大模型的比较优势在于此前对业务领域数据的积累；

GPT4插件的问世开创了全新的生态系统，其潜力甚至可能超越超级AI应用的范畴，成为推动应用开发领域的重要力量。这种突破性的技术，有望大幅降低应用开发的难度，从而使得更多开发者能够轻松地参与到人工智能的应用创造中，进一步推动我国科技产业的发展。

5.插件短期有利于软件公司，有助于提高ERP、办公软件等软件研发效率和用户体验；

6.插件远期会对软件行业造成最大的影响（威胁）。

【Q&A】

作为一家科技巨头，微软一直致力于在搜索领域的发展。Bing 和 Copilot 是微软在搜索领域的两个重要产品，它们的出现标志着微软在人工智能方面的技术已经达到了一个全新的高度。目前，这些产品已经在全球范围内得到了广泛的推广和应用，尤其是在 Bing搜索引擎中，Copilot 的智能搜索功能更是为用户带来了极大的便利。首先，让我们来了解一下微软在 Bing 上的布局策略。Bing 是微软的搜索引擎，它采用了先进的算法和技术，能够提供最准确、最相关的搜索结果。为了提高用户的搜索体验，微软在 Bing 上进行了深入的研究和开发，引入了许多创新的功能和服务。其中，Bing 的语音识别和自然语言处理技术是微软在搜索领域的核心竞争力之一。其次，我们来看看 Copilot 在搜索领域的应用。Copilot 是一款智能搜索工具，它能够理解用户的问题，并根据问题的重要性和相关性提供最合适的答案。 Copilot 的出现，进一步提高了用户的搜索效率和满意度。目前，Copilot 已经在多个国家和地区得到了广泛的应用，成为了许多用户获取信息的重要工具。总的来说，微软在 Bing 和 Copilot 上的布局策略和落地推进情况表明了其在搜索领域的强大实力和创新能力。未来，我们期待微软能够在搜索领域继续发挥其优势，推出更多优秀的产品和服务，为用户提供更好的搜索体验。

微软的必应搜索引擎与ChatGPT的集成可以追溯到较早期的时间，这是因为ChatGPT与搜索功能之间的互补性较为明显，对提升用户体验产生了显著的影响。

微软在最初便推出了New Bing，其中包含ChatGPT功能。实际上，该功能的出现并非一蹴而就，而是在经过一段时间的测试和改进后逐渐稳定的。在此之前，微软曾实施过用户数量限制，大约在100万用户以内。而在ChatGPT刚推出时，其稳定性尚需提高，因此经过一段时间的优化和改进后，Now感觉就比较稳定了。

关于算力的需求，微软目前尚不确定。因此，近期，微软将逐步取消100万用户人数的限制，这意味着算力的开放正式来临。接下来，我们将关注微软在未来一段时间内的动向，特别是关于全新Bing搜索引擎的推出情况。

Copilot并非仅限于Office，实际上，它已经融入到微软整个产品线中，包括 chatGPT。我刚刚提到的，是必应搜索引擎的整合，几天前，微软已经宣布了Office 365的整合，目前该产品处于测试阶段，正在寻找合作伙伴进行测试，待测试结果出来后，将正式推出。除此之外，未来还可能会看到更多类似的合作，包括在Windows系统中集成GPT。同时，微软也在游戏领域推出了一项解决方案，旨在帮助第三方合作伙伴更快速、更高效地开发游戏。

除了云计算之外，微软的其他产品线同样值得关注。其中，GPT 技术是关键驱动力之一。微软利用 GPT 技术构建了一个庞大的集群，旨在吸引那些使用大型模型开发的公司或客户。此外，微软还在其云计算服务中开放了 GPT API，从而提高了其云计算的吸引力。

那么在微软还有其他的一些产品，比如说像在行业应用里边，客户关系管理的这些应用，一些 dynamics 的一些产品，还有之前收购的做医疗行业的，包括 TEAMS 这些产品现在其实都已经集成了chatGPT，而且也在有计划的在推出来，所以微软所有的现在的这些产品里边，都要去集成GPT ，用chatGPT 的大模型的能力来加强现在的微软产品的竞争力和用户体验。

您预计GPT进入到中国的预期？

在ChatGPT之前，微软在中国落地的比较好的业务就几大块，一块是云计算，office365，Windows，teams，bing搜索，都是符合规范的。这些业务都要符合中国法律的要求，如果要把集成GPT的这些在中国推广，肯定都要符合中国法规，甚至更严格。因为确实 GPT 产品就很特殊，那我们从chatGPT 产品本身来讲，它是能力很强，然后生成的答案其实是不太可预测或者可控的。基于这个特点，我自己估计像微软bing搜索这样的产品可能在中国落地会比较困难，因为要花很大的精力，因为它搜索的场景会比较宽泛，用户会各种各样的这种搜索需求，然后生成的答案也不太好控制。

像office产品不太牵扯生成各种内容，它不太牵扯到这种搜索，不太牵扯到要去生成各种各样的这种内容，它基本上都是基于用户自己的一些现有的一些数据，然后去生成图表，或者写一个文章，会相对会好一些。我自己估计可能 office 更容易中国落地，那像 windows 的话，要看它接下来在 windows 里边它会集成什么样的一些 GPT 的一些功能，要看具体情况。

刚才虽然说了 office 可能会更容易，bing更难一些，但是这里边都牵扯到一个逃不开的，就是说要chatGPT 大模型本身的 api 要在中国落地，这样的话这里边就增加很大的不确定性。因为 GPT 产品它跟其他的产品不一样，我觉得它是一个是属于比较高端的技术，尖端的技术，另外一个就是它的生成的内容不太可控，所以基于这两个，然后再加上现在这种国际的形势，我自己预计会有很大的不确定性，不会那么快说顺利落地，这是一个大概的方向。

GPT在中国可能的赚钱模式？

假设GPT确实能落地。比如像office是最容易赚钱的，比如说基础版本现在的 office ，针对家庭或者针对企业的，可能每个用户每个月可能大概是 50 块钱人民币，以后他就提价就是推职业版的，加了 GPT 功能，我就提价提50%，就 75 块钱一个人一个月。

像Windows 加上ChatGPT可能体验完全不一样，那么原装的费用之前可能100块钱，之后可能加到120块钱。比如说云计算这一块，如果真的能落地中国，中国又没有很好的自己的大模型出来，这对于用户的吸引力是很毋庸置疑的。我觉得加上GPT确实能增加吸引力，能够提价，也能够吸引增量用户过来。大概就是这几个模式。

这会对现在的商业模式有改变吗？

现在还看不到特别的创新的变现模式，比如说new bing里边，其实微软也在探索怎么在ChatGPT交互的场景下放一些广告，怎么去变现。一种是在生成的答案中推荐服务，另一种是在答案下边放一些图片，另外就是比如在聊天的右边，也可以放一些，也许有一些创新的形式。

对现在的影响就是，原来的变现模式给加强了，另外就是增加用户。接下来还能够推出一些创新的一些服务，比如说像它的在云计算里边有些API，它是通过这种流量或者说使用次数，甚至它可以就是把带有 GPT 的云计算作为一个增值服务，本身这一块我其实可以白送给客户，然后客户你就承诺说用我的微软云计算，等于就是一个增值服务，所以这一块其实也是很有吸引力的，所以我觉得就是对于现在的这种模式，微软增加了更多的可能性，而且这种可能性也许是无一的，因为其他家像 Google 这些还没有推出相匹配的大模型。

百度今天推出了大模型平台，他是按照输入输出的总字数来收费，这一块您怎么解读？

他这种收费是一种途径。客户愿意付你钱，前提是你产品足够好。百度现在的文心，是不是已经好到客户愿意为之付钱了？从之前百度推出的文心一言来看，还没有达到很好的效果。最近百度可能会持续发力，然后不断迭代他的模型。这样可能对于企业客户有一定吸引力。

不过他只要做到在国内数一数二就ok了，毕竟ChatGPT现在还没有在国内开放，现在华为的大模型能力有多少还不太清楚。收费归根结底还是要看你产品竞争力是否足够。

百度文心一言和ChatGPT差距多大？

百度文心一言还是属于更高级版的百度搜索。我比较担心他的推理能力还比较差，深层次原因可能是他现在推出的大模型还是用原来的训练方法，并没有用上OpenAI这种工程实践的路径，这是比较令人担心的，如果不用OpenAI路径去做，有可能永远无法训练出来有推理能力的模型。但我觉得百度对于OpenAI路径还是有了解的，之前推出文心一言是想先推出一个产品，先把市场占住，然后后续会沿着OpenAI路径去训练他们的大模型。

现在还不够好，希望百度后来可能持续发力。虽然过程可能会很困难。

我们有没有量化指标来评价大模型效果？

现在并没有统一的量化指标。

但是有各种各样的维度去测试大模型，比如一些知识题，推理题，数学题。还有找互联网不存在的东西去让它创造一套规则出来，这种就是要靠推理和思维能力了。大概的量化指标是GPT4.0出来后，他们有去做一些考试，我们可以看到GPT能力还是不错的。

以国际大厂的视角看，国内的大厂比较优势是什么？

从大厂来说，还是比较保守。因为他有很多项目，他要衡量这方面的投资会不会有回报，他不像小厂那样只考虑拿风险投资，不用关心盈利等。就是像Google那样的大厂都很难有很大的决心去做一个好几年都没有盈利且投资很多的事情。

国内的大厂也不会不计投入的去做和自己业务不相关的业务中，我觉得更多的他们可能会从自己的业务出发，然后考虑自己所在的行业，然后去看去做一些取舍。比如阿里，会考虑做电商行业的大模型，就不用做通用的大模型，可能投入上会小一些；像百度本身是搜索公司，他做通用大模型对于他的业务是有帮助的。国内比较接近能搞出来的像百度，华为，像阿里，字节可能会搞出来和自己业务比较相关的大模型。

大模型本身不就是一种盈利模式吗？有全行业覆盖的大模型本身就可以带来很大盈利吧？

对，如果大家都有能力弄出来像ChatGPT这样能力很强的通用大模型当然很好，但是他对于算力和数据的要求是很高的，不一定是每个大厂都有能力去做这个事情，特别是在中国受到很多限制，这不一定是每一家都能走通的。

那就只能退而求其次，把自己的行业做的足够好。最好的当然是像 open AI 这家公司，它有那么多的数据，那么多的算力能够跑出一个最强的通用的大模型，然后在通用的大模型基础之上，我再去根据每个行业再去微调一下，打造出每个行业的这种模型出来。当然这是最佳路径，但是因为考虑到中国的实际情况，就是有的时候可能就要退而求其次了。

能不能理解成如果百度可以，其他大厂成功的可能性也很高，只是之前资源禀赋不一样，擅长领域不一样，在各自的先发优势上有明显的体现？

百度可能是通用模型需要的数据多一点，其他大厂可能有电商行业的数据等，这些数据可能是网上没有的，算力可能大家都差不多。但是百度在NLP领域和搜索相比于其他厂商我觉得还是有优势的。百度会有一些其他厂商不具备的一些数据。

现在市场对于插件这一块很关注，我们怎么去理解插件的意义？

插件是很重大的事情，他们现在是先把插件开放出来，一个是网络浏览器，一个是代码解释器。网络浏览器是自己做了一个内置的搜索，用户有需要做实时查询时候，ChatGPT就会通过插件，调用必应搜索的api，当用户有搜索需求时候，GPT会自己调用网络浏览器，然后去调用bing搜索，抓一些实时数据。刚开始ChatGPT没有最新的数据，不知道实时的数据，更多是bing搜索的时候调用chatgpt，现在是反过来了，等于ChatGPT是主体了，需要网络数据的时候才会调用bing搜索的api，主客反过来了。

还有就是代码解释器，ChatGPT内置沙盒运行环境，在需要跑一些程序的时候，会在沙盒里边写一些python代码，把结果返回给用户。

现在他联合第三方开发了十几个插件，比如旅游插件等。他现在的运行方式是，比方说一个用户与 GPT 聊天的时候，这用户要自己先去 GPT 的那个环境里边去下载安装他想用的几个插件，比如说他安装了一个买票的，用户在跟 chatGPT 聊天的时候，他会可能有的时候就会告诉chatGPT 我现在想去买去洛杉矶的飞机票，这个时候GPT 就会在用户安装的这些插件里边去找哪一个插件是最能够符合用户需求的。然后，根据这些用户的需要，直接帮用户下单订机票，定旅馆。

现在刚开放出来，用户体验会变化，但我感觉他是开创了一个新的生态系统，是凌驾于安卓、ios、linux之上的，以后依托于大模型能力，就会作为超级人工智能app的入口，以后用户也不需要打开那么多app了，也不用去下载应用了。以后就一句话，告诉ChatGPT就行，GPT自己就搞定了，这就是唯一的入口。以后app就是作为gpt的一个插件。

甚至就是说那以后所有能够提供服务的这些，不管是个人也好，还是公司还是团体，那都去GPT 上去注册一个，然后这样的话 GPT 自己就会去把用户的需求和这些能够提供的这些服务匹配起来，他就去做一个分发了。然后甚至到最后如果说在两个服务能够提供同等的质量的服务的前提下，那最后就发展成实时的这种关键字竞价了，就是广告系统了，谁出价高，然后GPT就用哪一个，所以就感觉它就是应付现在所有的生态系统，它作为一个超级的生态系统。当然这些要看它接下来会怎么规划，是不是能够发展到这一步。

我们这么去理解原始操作系统和GPT融合，和之后GPT替代操作系统？

我们先说搜索，前两个月集成GPT，现在反过来，那就要看微软和OpenAI之间的商业协议是怎么签的。现在网络搜索的插件用的是bing的api，大概率是不能用Google的api，其他服务可能没有排他性的协议，现在插件出来后，我自己感觉有没有bing搜索就不重要了。大部分用户还是以大模型的搜索为主，原来bing的用户是有限的，但这种大模型的用户是很多的，这是完全不一样的。所以ChatGPT对于微软也是有很大影响。

Windows也只是一个操作系统，还有很多其他操作系统。现在ChatGPT不仅仅是局限于某一个操作系统，他是所有的操作系统之上的人工智能系统。所以之后要看他们的协议，如果他们的协议限制了gpt不能给安卓或者ios用，那么Windows可能就有独特的优势了。假如都能够开放的话，那么Windows也没有自己独特的优势了。我觉得微软有这种独特的排他的能力。

国内如果华为能搞出来，并和鸿蒙系统结合，那将具有排他优势。

会不会显著的降低其他行业的研发门槛？

我看了一下文档，去注册插件时候还是比较简单的。从理论上讲，用插件的人用自然语言告诉插件我要什么服务，然后GPT就可以理解人的意思，自动就把插件都给弄好了，就不需要程序员写代码了。这样的话，去注册这些都不需要专业知识，就不需要程序员了，降低了开发程序提供服务的能力。

比如，我想去做家教，我的目标是高二的学生，我只有周末有时间，我用GPT，说我擅长家教，一小时100块，发布信息，他就生成信息，别的家长和GPT聊天时候，GPT把我推荐出去，就这么简单。他就是一个匹配的系统，他能够更好的理解用户意图。现在比如我们去旅游，要定一系列的东西，这些服务是分散在不同app中，但现在GPT可以做一个自动化的流程，他去跟不同的软件去打交道，一整套都帮你搞定，用户都不用在关心了。甚至他还可以做比价，做一个最优解。

如果降低了开发门槛，对开发外包公司是不是利空？

不光是对外包是利空，对所有的程序员都是利空。以后就没有必要自己去开发app了。也就不需要那么多程序员了。

现在资本市场，受益于ChatGPT的公司，长期来看，他们生存是不是收到威胁的？

不光是开发，所有的工作可能都会受到影响。open AI 的那个创始人，他的一个目标是他想用通用的大模型让 90% 的人都不用工作了，然后他同时再去开发什么核聚变，然后能源也有了，然后人工智能也有了。

世界上的 90% 的人他不需要工作，因为人工智能和核聚变就把所有的事情都搞定了。那他的设想就是一个社会主义，然后他从超级大模型和核聚变当中赚来的钱，就分配给这些 90% 的人就可以了。所以这就是共产主义，它的目标就是这个。所以我们就看出来有了大模型以后 90% 的人都不用工作了。当然这会很远，那但是你说最近一两年、两三年，那我自己觉得就是现在市场上的那些公司，它是受益的，因为它会提高效率，然后而且会增加一些市场份额，能够会比以前赚更多的钱，但从长远来讲我觉得都会受影响。

短期可能是有利于软件公司，这对于ERP领域，办公，oa领域有什么影响？

像办公软件，是会获益的，会提高用户的办公效率，单价会提高。还有一些办公自动化的，就是它现在有一些自动化工作流程在里边，但是GPT 这一块它会做得更好，更智能。ERP有一些数据库操作，要生成很多报表，以后在企业中，老板需要看数据时候，就不需要程序员生成很多的报表，直接用GPT就好了。

近期来看，从很多行业来讲，会增加现在工作的效率，可能就不用加班了。到第二个层次，把很多人的工作做成半自动化，把很多工作或者跨工种之间的工作都自动化了，能够进一步提高效率。在接下来到中期以后，就是纯自动化，很多东西全部都是自动化了，可能很多岗位都消失了，这是大方向，具体到每个行业可能略有不同，像我觉得那种完全线上的，比如说程序员或者说专门用 office 的这些人，第一步短期来讲他们的受益是最大的，但是从长期来看他们其实是最受影响的。

一些体力劳动者，现在他们也不会受益于chatgpt，但是长期来看对他的威胁是最小的。

中国现在的处境下，怎么追赶？

第一步争取能够复现，我们也要去走通。我们也要能够去走一遍，这是很重要的。但本身不是很容易的，中间可能会有一些很多这种不为人所知的，或者没有公开出来的一些这种诀窍，或者说实践方法，或者说可能你的工具是不是跟他是一样好啊？就和哥伦布发现新大陆之后，我们自己重新去走一遍路线一样，比如说你的轮船，是不是跟那个哥伦布的一样？甚至中间你可能还有一些运气，比如说你刚好快要到大陆的时候，你突然遇到风暴，这些都有可能。但是我觉得第一步应该就是去把这个路径给复制出来。

先走通以后，然后再接下来，然后能不能再根据我们中国自己的一些优势，再去能够争取在某些方面能够超越它，就至少而且要同时还有一点，就是能够保持住跟他们第一梯队不要掉队，这个也很重要。

中国我觉得如果 GPT 迟迟不落地，就哪怕说 GPT 就算落地了，因为它是一个黑盒，不受我们的控制，我觉得我们自己还是应该要有一个自主可控的大模型还是很重要。

如果我们想发展比较优势的话，我自己理解是不是还是在数据上下文章？

数据只是一个方面。从 open ai 他们透露出来的消息就是这种高质量的语料确实是很重要。然后当然除了语料以外，比如说算力，还有当然可能更重要的是一些算法，还有在一些工程上的一些实践，走哪条路是通的，哪个方法比较好，就会有很多小技巧在里边，这些技巧都是需要去慢慢试出来的，可能一开始就是试错，这条路不行我就试另外一条路，就不断的试出来。

现在OpenAI有很多合作方式，通过 API 接口接给合作方的方式，具体的操作的形式？他们如果去接 open AI 的话他们需要付出什么样的东西？比如说数据到底是怎么部署的？然后Openai 会为他们提供什么样的服务？是说会专门为他们搬运一个模型，还是说怎么样去开展 API 的合作？

这一块是应该是有两种方式，一种就是说他只是把模型 API开放出来，然后那么就第三方就去调用这些API，开放的出来的API 应该会有一些这种功能，说让你怎么去结合你自己的一些数据，自己行业的这些数据，然后能够去微调出来一个东西。

还有一种情况就是说如果第三方公司它足够信任Openai 这家公司，那么就把自己所有的这些私域的数据就都给 open AI，然后让 open AI 去根据这些数据再去微调出来这么一个大模型的系统。我自己感觉的话，就是因为 open AI 他们会比较对于这些比较懂，而且是他们自己的系统。所以如果这些数据能够交给他们的话，由他们去训练出这么一个系统，那肯定是最好的。

因为我觉得这些第三方厂家可能不一定有那么足够的技巧或者能力去了解。像什么这种微调这些里边其实还是有很多技巧。你比如说像之前推出的 new bing 里边，其实就是有很多这种微调的一些工作，怎么去结合原来的搜索，或者结合一些其他的一些数据。这个的话就是还是要看客户他对于自己的数据要保护到什么程度。

他们拿到了 open ai 的API，然后他们自己去做微调模型，是说他们能够去修改比较上层的模型的参数，然后让他的模型更适用于他们所需要的生成场景，是意思吗？

像他这种大模型的话，你再怎么微调，他自己本身的那些参数，那些是不会动的，他自己底层的大模型是不会改变的，你要调的只是上边，比如说根据上下文，跟它的promt engineering是可以调的。但是这些东西是不会影响到核心的那些参数的。

不管是接给谁做API，它的底层大模型，以及它的参数是不变，对吧？

是的。可能会有一些私域的一些数据，也许也可能给他，然后让他去做一些事情，就是之前的话我看微软是有推出一个服务，就是说去帮助比如说厂家或者合作伙伴去生成这种在线的人工在线的这种智能聊天工具。它的做法是它在部署的过程中的时候，只要客户把他的网站的 url 告诉GPT，那么 GPT 自己会去查网站上所有的这些数据，然后他去分析那些数据，然后就以这些数据去作为基础去提供智能的聊天工具。

所以就这也其实也是一种方式，就他那个网站的那些内容是公开的，但是他在生成智能聊天工具的时候，他就会把这些这个网站上的这些资料作为最优先，然后他的 GPT 自己会去做一些这种工作，然后就能够生成一个针对你行业或者公司的聊天工具。

合作方他使用了同样的prompt，或者说我们普通的 c 端的 GPT 的用户，我使用了和那个合作方同样的 prompt 进去它最后出来的结果当然每次是不一样的，但是每一次发生的它的分布的概率是一样的？

对，大家弄的 Prompt 值都是差不多的话，那它出来的结果应该也是差不多，除非做了其他的一些设置。

他做的一些调试可能是让我的用户更容易的 prompt 到他所需要的回答，以及他把某一些信息的优先级度提高，然后使得他输入Pro 更能够出现他所想要的回答，这就是他所微调的东西？

对，然后再加上或者说加上自己行业的一些数据，比如说公司他自己的网站，那他上边就是全是他自己公司的这些信息，那同样我可以给他灌一个数据库进去，或者灌一些私域的一些数据，这都是应该是可以的。

这两种模式，从目前的 Openi 的合作方来看，哪种的合作模式更多？

因为现在就是像微软和 GPT 还是有协议，所以是有排他的协议。当然具体的条款我们不太确定，chatGPT 的一些能力在某些方面是有限制的，比如说像搜索这种，只能是集成到微软，毕竟或者优先集成到微软自己的产品里，所以这是一种，那这种的过程当中就是微软和 open AI 两家是合作的很紧密，那微软是可以看到 open AI 的源代码，这是一种方式，还有一种方式只是它单纯的就是把 API 放出来，然后你可能只能通过微调，比如说提高上下文这种。

那还有一种可能更紧密的关系，就是我刚才说的就是微软或者open AI，它可以出一套方案，然后这个方案它能够去帮助你部署一些垂直行业的，就是那种 offline 的那种，就是给你定制一套你的大模型，那你这个时候是可以把你私域的一些数据换给他，然后他会根据你这些数据他再去微调系统。

所以这几种它其实合作的chatGPT，它能够就是做的程度其实是不一样的，像微软那种是最紧密的。然后接下来就是如果你能给它灌一些私域的数据，那它调出来的模型应该也是不错的。然后还有一种就是只是通过微调的这种比较简单的，但是并不能给他这种实际数据，这种还是就更差一些了，所以大概是有几种不同层次的合作。

国内很多声称自己调用了OpenAI的接口，他们是什么情况？

据我所知，像万兴科技的话，它应该是在国外有业务的，比如说有一些软件下载，内容生成，它在海外的那些业务，应该是可以去集成 GPT 的。可以调用 GPT 的一些API，去生成一些图片，生成一些内容，就类似于这样的一些。

所以就是当然国外所有的厂商都能够集成GPT，那就是看谁做得更好，看谁做得更快，当然你在集成的过程当中可能也是有一些技巧的，同样的一些API，有些人可能就玩得更好，玩得更溜，这就它的优势。

现在GPT，它的形式是说我去扒所有公开的数据源的数，然后我去做一个训练集出来，或者我去做人工标注，然后去输入一个模型来。这里面想请教一下，就是说数据它会有合规性的问题吗？就是说因为比如说我 Google 上所有的搜索数据，或者说我一些公开的图片库的数据，用来训练是合规的吗？就是说我是可以无偿的免费使用所有这些 public 数据做训练的吗？

基本上他用的这些数据其实都是公开的一些数据，然后再有一些网站，他如果自己设定了某个网站，不让网络爬虫去爬的话，那么open AI 就不会用这家公司的数据，因为它要遵从那套规范。那然后那像您刚才说的可能有一些，比如说像 GitHub 上的那些代码，然后他拿去训练以后，因为本身程序员，你把代码上传到 Github，你就已经跟Git hub 签了协议，说我这些代码上传到你这里你可以去做一定的什么用途，包括训练什么的。

而且再退而再退一步，就算他 git hub，他拿到了这些数据，他去做了训练，然后他生成了模型，但是它模型出来的一些答案他也不会去照抄你这些答案，就是人家有问个问题，就是说你那个 ChatGPT 乱跑出来的生成的这些代码是不是原原本本的程序员上传的那些代码你也没有证据，因为很多代码它其实就是一样的，你也没有证据说确实 GPT 生成的代码就是我上传。

OpenAI和合作方数据是怎么走的？

可能有两种方式，一种方式就是你可以把数据完全扔给open AI，让它去做一个训练，还有一种方式就是可能是私有部署，就是GPT，你给我在我的机房里边去跑一个实例，然后我自己去跑这些自己去训练，我加上我自己的私有数据，再去训练一个模型出来，大概是有两种不同的方式。

微软, GPT, Office, Windows