ChatGPT与数据库能擦出什么火花？

2023-07-16 06:55 由古道轻风发表于 #其他

ChatGPT，可以说是今年最火的一个科技名词。
随着这几个月的发展，我们看到有越来越多的ChatGPT与数据库结合的应用出现。
这也不禁令人畅想，未来ChatGPT与数据库的结合，能擦出什么火花？
DEV、DBA未来会失业吗？
本文尝试阐述下未来两者的结合前景。

一、ChatGPT为什么火

让我们先看看ChatGPT，是如何来解释自己的？

作为一个人工智能的外行，一直有点好奇，为什么ChatGPT的出现，能产生如此颠覆性的影响。可以说在过去几十年里，人工在很多领域都有不错的表现。从最早的IBM Watson，到近几年的Google AlphaGo，都在具备领域有所突破，但似乎都没有办法解决通用性问题，只能满足特定场景。因而人们常说，AI没有那么聪明。其背后的原理也查了查资料是因为让AI掌握常识，并且能够融会贯通地运用这些常识、形成推理能力非常难，一直以来这都是巨大的难题。

但这次以ChatGPT为代表的一众大语言模型，突然突破了这个门槛，变得非常“聪明”。当然背后的原因有很多，比如自监督学习、Fine-tuning策略等等，但有一个重要的底层变化——大语言模型的“涌现”现象，就是说一些业界从未想象到的能力，例如基础的社会知识、上下文学习、推理等等，在训练参数和数据量超过一定数值后，这些能力突然出现了，令AI一下子变得非常智能。伴随着这一技术突破，很多领域可采用新交付方式甚至是全面重塑。数据库作为重要的基础软件，也与其全面结合，产生很多新方向。

二、回顾AI与数据库的结合

在开始之前，先简单回顾下之前AI与DB之前的结合。下面部分内容摘自清华大学李国良教授团队论文《Database Meets AI:A Survey》。之前的数据库和人工智能的结合主要来自两个方面：一是人工智能可以使数据库更加智能化（AI4DB）。传统的经验数据库优化技术难以满足大规模数据库实例、各种应用程序和多样化用户的高性能要求，尤其是在云上。

而幸运的是，人工智能基于学习的技术可以缓解这个问题。二是数据库技术可以优化AI模型（DB4AI）。例如，人工智能很难在实际应用中部署，因为它需要开发人员编写复杂的代码和训练复杂的模型。数据库技术可用于降低使用人工智能模型的复杂性，加速人工智能算法，并在数据库中提供人工智能功能，其全貌如下。

这里我们重点关注AI4DB的方向。传统的数据库设计基于经验方法和规范，需要人工参与（例如DBA）来调整和维护数据库。人工智能技术被用来缓解这些限制，下图所示为机器学习能为数据库带来的一些技术突破：

其中的主要能力包括：参数调优、索引/视图顾问、SQL改写、成本估算、连接顺序优化等。从上述能力可见，AI4DB的方向重点是解决数据库运行问题，包括很多产品页都提出了“自治”、“自动驾驶”的概念。也就是说，是主要解决数据库自身问题。与之不同的是，ChatGPT更多是解决人与数据库间及数据自身的问题。

三、畅想ChatGPT与数据库结合

1.生成 SQL 语句（受益方：开发者、分析师）

这是目前最为常见的一类应用，将传统SQL语句编写，改为自然语言描述。通过这样的方式，降低数据库使用门槛，提升开发效率。主要受益的人群是数据库应用的开发者及数据探索者（如数据分析师）。很多产品纷纷集成了这一能力，如国内的NineData、Bytebase或者国外的sqlTranslate、AI2sql等。下面我们做个小测试，观察下ChatGPT能力（以下基于ChatGPT 3.5测试）。

通过这个简单例子，可以看出ChatGPT具备的能力。可将自然语言描述生成对应SQL。

2.性能优化（受益方：DBA、开发者）

ChatGPT另外一个能力，则是对数据对象或语句的优化能力。如下文是给出的一些通用性建议。

也可以根据具体语句，给出进一步优化建议：

当然上述优化建议还是比较通用的，当然针对具体对象的优化也是可以的。再如下文是对语句级提出的优化建议。

上述能力可以解决很多常规的性能问题，能大大简化开发者和初级DBA的很多工作，可以说能解决大部分的初级性能问题。

3.结构设计（受益方：DBA、开发者）

除了根据已有对象或语句完成优化提示外，ChatGPT还可以前置完成结构的设计。根据的简单的场景描述，给出数据库结构定义，简化结构设计工作。如下图就是一个简单登记学生成绩系统的库表设计。这其中包括了主要表、字段、约束等的定义，还是比较全的。

4.架构设计（受益方：DBA、架构师）

如果再进一步，将数据库架构设计也由ChatGPT完成如何？下图是我将上述例子场景提出，由ChatGPT提出推荐数据库选型。在明确使用AWS产品范围后，它给出了部分选型的建议。在给出一定性能要求后，甚至给出了推荐规格（db.r5.large）及潜在架构优化点（如读写分离）。

5.数据分析、挖掘与探索（受益方：数据分析师）

ChatGPT的一个很强能力在于对信息的理解，这一能力可利用在很多数据分析、挖掘、探索领域。其可以敏锐的洞察到数据的变化、甚至做一些趋势性的分析。如下图是国内各省份2021、2022年的GDP情况，可以这些信息可让ChatGPT估算今年的GDP。

6.数据治理（受益方：数据管理者、安全人员）

企业内包含着大量业务数据，如何有效利用数据，形成数据资产，进而发挥数据最大价值是企业管理者关心的问题。传统方式需要通过数据建模等手段自上而下完成治理动作，但受限于企业发展阶段、应用开发水平等因素，这种方式会存在很大推进难点。

ChatGPT提供了另外一种可能，即从数据本身含义理解做起，自下而上完成治理结构的构建。例如我们提供一组数据给ChatGPT，看它是符合判断数据属性的。

亦或是给出明确规则定义的情况下，判断数据质量问题。

四、总结

综上，ChatGPT在构建数据应用的全流程中均可发挥作用。从前期的架构、结构设计，到中期的应用开发与优化，再到后期的数据分析挖掘乃至数据治理领域。可以说覆盖了企业对数据及上层应用的方方面面。当然，除了简化开发外其他能力当前还稍显初级，但相信随着其技术本身的成熟及垂直领域的定向增强，未来构建全自动的数据应用将不是幻想。可能只需要提出一个业务Idea，后续从应用设计、开发，到资源选型、部署，再到应用运营分析等，都可以自助完成。

>>>>

参考资料

上观新闻：人工智能技术并非新鲜事物，ChatGPT为何如此火？

https://export.shobserver.com/baijiahao/html/587303.html

清华大学李国良团队论文：Database Meets AI:A Survey

光点科技：利用Chat GPT会在数据治理方面发挥哪些作用？

https://baijiahao.baidu.com/s?id=1759949851524856806&wfr=spider&for=pc

整理丨韩锋

热门相关：恭喜你被逮捕了戏精老公今天作死没富贵不能吟神算大小姐富贵不能吟