原创 | ChatGPT有什么缺陷？看他自己的回答

2022年11月，OpenAI研发的ChatGPT震撼发布。ChatGPT可以高质量地回答各类问题、例如整合汇总文献、完成学生作文、谱写乐曲、撰写诗词歌词剧本、编写和调试代码、模拟各种终端甚至Linux系统。在发布后的短短两个月左右，ChatGPT就达到了一亿用户规模，同时引起了工业界和学术界等各方面的重大反响和讨论。Bill Gates认为ChatGPT的重要性堪比Internet的发明，“会改变我们的世界”。

ChatGPT以其强大的回答效果惊艳众人，但也有其天生的内在缺陷，本文通过向ChatGPT提问的方式，综合笔者的知识，整理出ChatGPT几大缺陷的表现，分析其内在的技术性原因，可能产生的后果，并提供了相关的应对措施。

无法提供实时信息

表现

ChatGPT不能提供最新的、实时的信息，它的回答基于过去的知识，不具备获取最新新闻、实时数据和其他动态信息的能力，无法掌握某个主题的前沿动态和提供其实时情况相关的详细内容，可回答的知识范围有明显的时间边界。

技术性原因

人工智能模型有特定的训练数据截止日期，ChatGPT通过在大规模文本数据上进行预训练生成回答，这些数据是在过去收集的，具体截止至2021年9月，这意味着它无法了解截止时间之后发生的事件和信息。同时，ChatGPT无法直接连接到实时数据源，如新闻网站、社交媒体、论文数据库等，以获取最新的信息，所以它只能使用预训练模型中已经存在的知识和语言模式生成回答。

后果

ChatGPT可能提供不准确或过时的回答，这会导致用户收到不准确的指导、信息或建议。特别是对于新的法律法规、政策制度、研究成果、新闻事件，ChatGPT依据旧的数据训练而成的模型作出不符合最新情况的回答，可能会引导用户做出错误的决策或产生误解。

应对措施

除了ChatGPT，用户可以通过其他渠道和工具来获取实时信息，这包括查阅官方网站、新闻网站、社交媒体、专业论坛、使用包括new Bing在内的搜索引擎等，以获取最新的信息和观点。对于特定领域的问题，用户可以咨询相关领域的专业人士或专家，以获取准确和实时的信息。在ChatGPT提供的信息上，用户应该进行自主验证和交叉检查。通过查阅多个来源、对比不同观点和验证事实，以判断信息的准确性和时效性。

缺乏对现实世界的理解

表现

ChatGPT只能处理概念空间的问题，无法解决现实空间的问题。其局限于对文本输入的处理和生成回复，无法直接感知和理解现实世界的各种如视觉、听觉、触觉等感官信息，没有与现实空间交互的能力。

技术性原因

ChatGPT基于文本数据进行训练，训练数据主要捕捉的是书面内容，它没有直接接触和学习其他如图像和声音之类的感官数据。然而，文本数据并非现实世界的完美代表，并不能完整地代表现实世界的经验。另外，ChatGPT不具备视觉、听觉、触觉、味觉和嗅觉等物理感应器，因此ChatGPT很难形成对现实世界的真正理解。

后果

ChatGPT无法提供准确的信息或解答需要具体感知的问题。例如，对于关于外观、颜色、声音等的问题，ChatGPT可能只能给出基于文本数据的猜测。ChatGPT无法真正体验情感或情绪，它生成的回复可能缺乏情感支持或情感理解。这可能导致用户在寻求情感支持或理解时感到失望或不满。这些情况限制了用户与ChatGPT的交互方式和体验。

应对措施

用户在与ChatGPT交互时，应尽可能明确和具体地表达问题和需求。如果问题涉及到图像、声音、触觉等感官相关的内容，可以尽量提供更详细的描述，以帮助ChatGPT更好地理解。用户可以借助现有的辅助工具弥补ChatGPT缺乏感官理解的限制，例如，对于图像相关的问题，用户可以使用图像搜索引擎或图像描述工具来获取更准确的信息。用户也可以使用更新的GPT-4V(ision)之类的large multimodal models，该模型已经可以处理图像输入。

没有价值观

表现

ChatGPT没有价值观和自主意识，无法根据固定的价值观回答观点性问题，可能提供不符合特定国家和地区价值观的建议。ChatGPT可能会重复或放大训练数据中的偏见、歧视性内容和非法信息，从而在回答中表现出歧视性言论、传播不恰当言论，对某些群体或个人进行攻击或辱骂，甚至提供不符合当地法律法规的建议。

技术性原因

ChatGPT使用reinforcement learning from human feedback（RLHF）的方法为输出的答案排序，所体现的是人类的价值观。但人类的价值观是分裂的，不同国家、民族、性别、阶层的人都有不同的价值观。这是RLHF方法与生俱来的缺陷。

后果

ChatGPT的回答可能会和用户本身的价值观产生冲突，也可能提供违反用户所处国家和地区法律法规的建议，从而错误引导用户作出不恰当的决策和行为。

应对措施

在与ChatGPT进行交互时，用户应保持批判性思维并对其回答进行评估。不要盲目接受ChatGPT的回答，而是对其提供的信息进行验证和核实，尤其是在涉及重要决策、敏感话题或价值观问题时。用户应不仅仅依赖于ChatGPT的回答，还要寻求其他来源的信息和意见。通过与多个人对话、查阅可靠的资料和咨询专业人士，可以获得更全面和多样化的观点，以帮助自己做出准确和明智的决策。用户还应了解人工智能的局限性和伦理问题，提高对技术的意识和理解，可以更好地应对ChatGPT没有价值观的情况。

存在隐私和数据安全隐患

表现

ChatGPT提供的回答可能包含非授权信息，使用ChatGPT时可能泄露用户相关信息。

技术性原因

ChatGPT需要大量数据训练和提高其性能。这些数据包括公开数据，但公开数据并非全部是授权数据，训练数据也可能包括用户输入，其中可能包含个人信息、敏感数据，甚至是涉密信息。由于与ChatGPT的交互必然会将用户输入提交至其服务器，所以OpenAI必然可以获取用户的输入数据。

后果

基于非授权数据生成的回答可能包含非授权信息。用户的输入可能泄露个人敏感信息或机密数据，例如姓名、地址、电话号码、银行账户等。这可能会导致个人隐私被侵犯或数据被滥用，例如用于追踪用户行为、进行广告定向等，甚至可能被用于身份盗窃、钓鱼攻击、垃圾邮件等。机密数据的泄露可能对相关组织、甚至国家安全产生严重的后果。

应对措施

在与ChatGPT进行交换时，应确保不向其提供个人敏感信息或机密数据。避免在对话中透露个人身份、财务信息、家庭地址等敏感内容。如果确实要使用ChatGPT进行相关数据的处理，可以在使用前先进行脱敏操作，并使用虚拟身份、匿名账号或匿名浏览器等方式进行交互。

总结

总体来说，用户在使用ChatGPT的同时，应该注意ChatGPT由于技术性原因所导致的内在性缺陷，采取相应的应对措施，以更好地享受人工智能所带来的服务和便利。

编辑：王菁

数据派研究部介绍

数据派研究部成立于2017年初，以兴趣为核心划分多个组别，各组既遵循研究部整体的知识分享和实践项目规划，又各具特色：

算法模型组：积极组队参加kaggle等比赛，原创手把手教系列文章；

调研分析组：通过专访等方式调研大数据的应用，探索数据产品之美；

系统平台组：追踪大数据&人工智能系统平台技术前沿，对话专家；

自然语言处理组：重于实践，积极参加比赛及策划各类文本分析项目；

制造业大数据组：秉工业强国之梦，产学研政结合，挖掘数据价值；

数据可视化组：将信息与艺术融合，探索数据之美，学用可视化讲故事；

网络爬虫组：爬取网络信息，配合其他各组开发创意项目。

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派THUID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

未经许可的转载以及改编者，我们将依法追究其法律责任。

人工智能大数据 chatgpt 模型数据

0 人点赞