ChatGPT：信息获取新利器，但它能替代Google吗？情感机器人何足道？聊聊它的信息安全应用与

风险与机遇 2年前 (2023) lida

63 0 0

文章主题：ChatGPT, 信息安全, AIGC

再不蹭热度估计要蹭不上了——鲁迅

0x00 前言

🎉📝首篇分享来啦！🔍关于ChatGPT信息安全新视角，已有诸多探讨。💡个人不偏不倚，只聚焦其在非实时信息检索上的强大效能，OpenAI团队已明确指出这一点，尽管数据可能不是最新。👀Google Bard蓄势待发，我们静观其变。ChatGPT的AIGC技术确实独树一帜，相较于搜索引擎中的UGC内容，它在信息有效性上领先显著。📊然而，对于情感丰富的内容，ChatGPT就显得力不从心了，毕竟它缺乏人类的情感维度。💡让我们一起期待未来AI如何突破界限，ChatGPT只是这场科技盛宴的一角。如果你想了解更多，不妨探索更多权威来源，SEO优化的关键词：ChatGPT、信息安全、搜索引擎比较。📚✨

🌟对于ChatGPT可能带来的就业变革，个人持谨慎态度💡。确实，它可能冲击那些高度依赖工具且流程规范的工作岗位。🔍然而，对于大多数领域，ChatGPT目前还只是个新手，需要时间去磨砺和积累语言素材。🎨至于创新思维和人际交往的微妙之处，ChatGPT虽能提供一些指导，但无法完全取代人类的独特智慧和经验。💼所以，不必过于担心失业风险，而是要学会与AI共生，提升自身核心竞争力。🌟

🎉ChatGPT Plus的出现，无疑是科技与创新的一大亮点！但对于它的付费选择，我的态度是毫不犹豫地——交钱走人！🏃‍♂️恰好今日通过Revolut完成了一笔顺畅的交易，无需再为国内卡受限烦恼。虽然Google Pay已纳入支持行列，但国内信用卡的使用仍是个挑战。💪不过，这样的变化也提醒我们，拥抱全球化支付方式的重要性日益凸显。🌍#ChatGPTPlus #Revolut支付 #全球支付

（1）ChatGPT 是基于什么技术实现的T

（1）ChatGPT是基于什么技术实现的

🌟ChatGPT背后的Transformer网络架构，源于Google在2017年由Vaswani等人发表的经典论文——”注意力就是一切”。自此，这种强大的模型已成为🔥自然语言处理领域的明星工具，广泛应用于诸如机器翻译、文本生成与交互式对话等任务中。🚀无论何时何地，它都以卓越的性能和灵活性引领着技术进步的步伐。欲了解更多，探索其无尽可能吧！🔍

🌟ChatGPT背后的黑科技揭秘🔍——OpenAI的GPT家族大放异彩🔥！从基础的GPT-1、2再到超先进的人工智能巨无霸=GPT-3，这些语言神童通过海量文本数据的锤炼，学会了精准的语言预测游戏🔮。它们的核心是强大的Transformer架构，能巧妙地理解和生成自然语言序列，为聊天机器人对话创作提供了革命性的可能🤖。训练过程不仅仅是简单的单词接龙，而是深度学习的大规模展现，目标是让模型学会从历史中汲取智慧，生成连贯且富有逻辑的响应🎯。一旦经过微调，这些通用预训练模型就能在各种场景下大显身手，无论是撰写文章、创作故事，还是模拟人类对话，都游刃有余🌈。ChatGPT的成功，无疑标志着AI技术的新里程碑，让我们期待它在未来带来更多创新和惊喜吧！如果你想深入了解这背后的科技魔术，不妨探索更多OpenAI的开源世界🔍。记得，你的每一次提问都是对知识的热爱与追求哦😊！

（2）如何从零实现一个 ChatGPT

🌟🚀ChatGPT模型大揭秘！🚀🌟🔥从零到巨作，ChatGPT的秘密建造指南🔥✨探索AI世界的奇迹，ChatGPT模型构建之旅✨👩‍💻首先，深入自然语言理解的海洋🌊🔍掌握NLP基础，解析人类思维的语言密码🔍📚大量文献研读，理论与实践相结合📚📈然后，踏入深度学习的殿堂 pytorch/transformers 🌈🎓训练神经网络，ChatGPT的核心算法解读🎓🛠️代码编写技巧，让模型运转如丝滑🛠️🤖最后，整合编程智慧，打造超凡交互体验 🤖🌐搭建架构，将理论落地，构建聊天机器人的未来🌐别忘了，每一步都需要耐心与创新💡🏆当你解锁ChatGPT时，成就感满满🏆欲了解更多细节？悄悄告诉我！保密联系方式保密保密保密～😉SEO优化提示：使用行业术语、关键词如”自然语言处理”, “深度学习”, “ChatGPT模型构建”, “NLP基础”, “神经网络训练”, “编程技巧”, “AI未来”等。

收集大量文本数据以用于模型训练。这可能包括书籍、文章、社交媒体帖子和对话数据等来源。通过清理数据并将其标记化为单词或子单词序列来预处理数据。您可能还希望应用数据增强等技术来增加训练数据的多样性。使用语言建模目标在预处理的数据上训练一个转换器模型。这可以使用深度学习框架（例如 TensorFlow 或 PyTorch）来完成，这些框架提供了用于构建和训练神经网络的工具。在特定于任务的数据集（例如聊天机器人对话生成）上微调预训练的转换器模型。这涉及在新数据集上重新训练模型的最后几层，同时保持预训练的权重不变。将经过微调的模型部署为聊天机器人应用程序，使用 Flask 或 Django 等 Web 框架来处理用户输入并生成响应。

请注意，这只是一个抽象的概述，每个步骤都涉及许多细节和挑战。此外，使用已经针对特定任务开发和微调的预训练 ChatGPT 模型通常比从头开始构建模型更容易和更有效。

（3）如何构建一个信息安全相关的类 ChatGPT 应用

构建与信息安全相关的类似 ChatGPT 的工具需要几个步骤。以下是您需要做的一些关键事项：

定义工具的范围：第一步是定义工具的范围。您需要决定您的工具将涵盖哪些主题，它将能够回答什么样的问题，以及它将从用户那里获得什么水平的专业知识。收集和预处理数据：定义工具的范围后，您需要收集和预处理数据。这可能涉及抓取网站、下载学术论文或使用预先存在的数据集。然后，您需要清理和预处理这些数据，使其可供您的机器学习模型使用。训练您的机器学习模型：下一步是训练您的机器学习模型。这可能涉及使用像 GPT-2 这样的预训练语言模型或从头开始训练您自己的语言模型。您需要根据您在第 2 步中收集的特定数据微调您的模型。构建一个界面：一旦你训练了你的机器学习模型，你就需要构建一个允许用户与之交互的界面。这可以是网站、聊天机器人或移动应用程序。测试和改进：最后，您需要测试和改进您的工具。这可能涉及收集用户的反馈，针对不同场景测试工具，并根据结果进行改进。维护和更新：部署工具后，您将需要对其进行维护并随着时间的推移进行更新。这可能涉及添加新数据源、重新训练机器学习模型或更改界面以改善用户体验。

构建与信息安全相关的类似 ChatGPT 的工具是一项复杂且具有挑战性的任务，但对于任何希望了解或提高其在该领域知识的人来说，它都是宝贵的资源。

0x02 ChatGPT 在一些典型信息安全工作中的应用

以下内容仅限于我和周围的小伙伴日常工作中的一些工作场景，就总体来说确实对提升效率有一定的帮助，但是对于一些很细分的领域，ChatGPT 的反馈似乎并没有那么的出色，甚至有些东西是错的，只能起到一定的指导作用。

（1）告警研判及处置

安全工程师实际上很多时候都会去处理告警，虽然现在入侵检测工作已经先进了很多了，但是仍旧有很多告警需要进行研判，有的时候由于很多安全工程师出道不久，对于一些变异的 Payload 很有可能就看不清楚了，这个时候会出现漏报的情况。通过让 ChatGPT 进行一些告警的解读，我们来看下是否可以实现对一些告警的识别。我们先来以一个非常常见的反弹 shell 为例，可以看到 ChatGPT 确实可以识别出来报文中存在异常，结果很准确。

ChatGPT：信息获取新利器，但它能替代Google吗？情感机器人何足道？聊聊它的信息安全应用与

判断一段HTTP报文中是否存在攻击行为

但是对于一些需要上下文的场景，比如说 Sysmon 的日志，ChatGPT 则会让你提供更多的信息，用来帮助他判断具体的情况，例如下面的。

判断一段日志是否存在异常行为

（2）情报研判及分析

针对漏洞的情报而言，ChatGPT就会进入胡说八道模式，例如下面这张图：

对于某漏洞的信息提取

事件情报分析实际上也是很多时候我们需要关注的，因为这一部分我之前自己也基于NLP技术构建了一个自动分析 APT 报告的小玩具，用来和 NIDS、DNS 等设备的联动（目前已经收录了 7400 多篇 APT 报告同时当做样本去训练，准确度能到99.2%），所以我想看一下 ChatGPT 和我的玩具对于报告解读的能力差距。首先是 TTPs 的提取，可以看到 ChatGPT 对于 TTPs 的提取理解是对的，同时也有比较详细的解释，可是仍旧可能是胡说八道的。

提取某篇 APT 报告中的 TTPs

而到了 IOCs 部分，这就更离谱了，又开始进入了胡说八道模式。

提取某篇报告中的 IOCs

就目前来看，使用 ChatGPT 对一些情报的关键信息提取是基本上可以不用想了，基本上都是胡说八道的。那个这个问题是怎么回事儿呢？实际上 ChatGPT 并没有外部资源访问的能力，但可以通过 API 或网页抓取技术从外部资源中检索信息和数据。

（3）检测模型编写

这部分工作应该是甲方信息安全工程师里面最常见的场景，从效果上来讲，ChatGPT 确实可以生成一些特定风险的检测模型，比如说下面这两张图，可以看到 ChatGPT 是可以生成规则并且可以针对规则给出具体的解释。

构建一个用来检测永恒之蓝利用的 Yara 规则

构造一个用来检测 Wireguard 协议的 Suricata 规则

有一些规则实际上来讲是可以直接拿来用的，但是通过测试发现，很多规则实际上来讲是存在一些问题的，例如说检测场景和一些前提，这部分告警在生产环境中如何解释等问题，由于 ChatGPT 对于企业内部实际的场景了解极其有限，所以规则并不能做到“可运营”的标准。

另外一个场景，很多时候安全工程师需要进行一些取证的操作，实际上就是构造一些查询语句，比如说抓取认证数据，但是有的时候，正则表达式和查询语法可能还得现查，所以会比较麻烦，通过 ChatGPT，确实可以构建一些查询语句。

用来查询一台主机在域控上认证成功的信息

就效果来看还是非常不错的，对应急响应的效率会有很大的提升。

（4）PoC编写和转译

很多时候我们需要调研一个工作是否需要治理，目标、方案等执行的规划都确定了以后，往往需要去实现一些 PoC，去证明技术可行性，这一部分的话通过 ChatGPT 确实可以减少一些工作。比如说我要对 Kubernetes 的特权进行收敛，这时候我需要去做一个 demo 去测试怎么收敛，这个时候可以通过 ChatGPT 得出一个 PoC，但是这个 PoC 实际上是有问题的，并不能达到我们想要的效果。

用来检测容器是否具备高权限

但前提是 ChatGPT 只能解决 PoC 的构造问题，具体要解决的问题还需要安全工程师自己想清楚，不然的话可能ChatGPT 只会给出建议。

（5）告警运营 chatbot

这部分场景是很多安全工程师最痛苦的一步，因为很多安全工程师具备”社恐“属性，再加上用户很多时候压根不明白你要让他干什么，所以沟通的话术就很重要。从 ChatGPT 的表现来，它可以提供一些可以执行的建议，但是不会给出具体的话术用来询问用户该干什么，所以寄希望与 ChatGPT 可以帮你解决”社恐“问题的安全工程师可能还需要等一下，毕竟安全不是打打杀杀，而是人情世故。

用来了解如何和用户沟通

0x03 ChatGPT 是否可以让信息安全工程师失业

就目前来看，ChatGPT 可以在很多信息安全的工作场景下提升工作的效率，可以一定程度上代替搜索引擎作为知识库去解决一些技术上的知识查询的问题，虽然很多时候仅仅能给出来一些简单或者说是粗糙的 case，但是在一定条件下仍旧是无法彻底解决的。个人认为主要有以下几个局限的地方：

（1）针对国内环境水土不服

很多朋友实际上在用 ChatGPT 的时候也反馈说 ChatGPT 给出来的东西总是有点奇怪，这部分很大一部分原因是因为目前ChatGPT对汉语不太友好，这个问题其实我在 2019 年底一次信息安全的闭门分享中提到过，因为汉语模型样本、油料库、语法树等训练条件和英语模型有一些差别，这些差别可能会导致训练出来的模型不准，进而影响模型准确度。另一方面，由于很多朋友是直接用了浏览器的翻译功能，在线翻译服务质量参差不齐，也会存在一些偏差和逻辑不通顺的情况，当然我相信时间会解决这些问题。