栏目
公司要闻
媒体关注
生成式 AI 时代数据库与大模型的融合探索
发布时间:2024-08-10点击数:

  生成式人工智能(GenerativeAI)近年来快速崛起,从图像生成、自然语言处理到个性化推荐系统,生成式AI的应用范围越来越广泛。在这其中,数据可以说是企业在生成式AI时代取得成功的关键,每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。当前,生成式人工智能(AI)的整合正在重塑数据技术的未来。伴随着这一技术的迅猛发展,对数据库系统提出了新的要求和挑战。本文将探讨生成式AI对数据库的影响、当前数据库厂商在AI融合方面的探索、未来趋势以及Databend在大模型融合中做出的探索。

  生成式AI是一类通过学习数据分布来生成新数据的算法。其核心是生成模型,如生成对抗网络(GANs)、变分自动编码器(VAEs)和*近备受瞩目的Transformer模型。生成式AI不仅能够生成逼真的图像和文本,还可以用于数据增强、仿真和预测等多种应用。

  如今在数据库圈里,AI几乎是一个流量密码,大家的共识就是如何借用大模型提升数据库体验或性能。作为数据工作者,我们也一直在进行大模型应用的探索。随着生成式AI的普及,数据的种类和规模正在呈指数级增长,生成式AI对数据库系统也提出了一些新的要求:

  数据存储与管理:生成式AI模型训练需要大量的高质量数据,这要求数据库系统具有强大的数据存储和管理能力。同时,生成模型生成的数据也需要有效地存储和索引,以便后续使用和分析;

  数据处理与分析:生成式AI模型在训练过程中需要进行大量的数据预处理和特征工程。数据库系统需要提供高效的数据处理能力,以支持大规模数据的快速处理和实时分析;

  数据安全与隐私:生成式AI模型可能生成包含敏感信息的数据,因此,数据库系统需要加强数据的安全性和隐私保护,防止数据泄露和滥用。

  面对生成式AI带来的挑战,不少数据库服务商已经开始探索与AI技术的深度融合,有来自云厂商的数据库,也有来自独立的数据库、大数据平台,都在致力于探索如何基于机器学习与AI能力,提升数据库系统的性能和功能。下面列出的是我们认为在数据领域进行AI应用探索较有代表性的数据库服务商:

  4.TiDB:TiDB是国内数据库厂商PingCAP开发的一款开源分布式NewSQL数据库。它在水平扩展性和高可用性方面表现优异,特别适合大规模数据处理。TiDB在今年推出了向量搜索(beta版),它以一种数据库插件的形式提供了一种高级搜索方案,用于对各种数据类型(包括文档、图像、音频和视频)执行语义相似性搜索。此功能使开发人员能够使用熟悉的MySQL技能轻松构建具有生成人工智能(AI)功能的可扩展应用程序;

  5.Databend:Databend是一款基于存算分离架构的新一代云原生数据仓库,专注于高性能和弹性扩展。Databend通过其优化的存储和计算引擎,提供了对大规模数据处理的支持。通过与AI和机器学习工具的集成,Databend使用户能够高效地在私有数据上进行生成式AI模型的训练和推理,同时保证数据的隐私性和高可用性。

  随着数据库厂商在生成式AI技术的不断探索中,我们看到数据库系统在以下几个方面呈现出新的潜在价值:

  自动化与智能化:数据库系统将进一步实现自动化和智能化,通过AI技术自动进行数据管理、优化和安全保护,从而降低运维成本和复杂度;

  自然语言查询:生成式AI的一大特点就是可以理解人类的自然语言,并将其转化为各种代码及结构化查询语言,使得一些不那么专业的用户也能轻松使用数据库进行复杂的查询和分析。这个场景目前也是很多数据库公司较为热门的应用,很多数据库公司推出了Chat2Query、TxT2SQL等自然语言到SQL的转化工具,但这个应用的准确性仍然具有较大的挑战,目前还很难落地到生产环境中;

  数据清洗和标准化:数据清洗是一个高度重复的任务,现在的生成式AI能够快速理解多种数据格式和上下文信息,可以更高效地取代人力执行此类任务;

  实时处理与分析:现在,数据库系统更加注重实时数据的处理和分析能力,通过生成式AI模型,系统可以在实时数据流中进行即时预测和决策。例如,在电商平台上,生成式AI可以实时分析用户行为,生成个性化的产品推荐,提高用户体验和销售转化率;

  多模态数据支持:生成式AI应用涉及文本、图像、音频等多种数据类型,未来的数据库系统将加强对多模态数据的支持,实现对多种数据类型的统一存储和处理;

  隐私保护与安全:随着数据隐私和安全问题的日益突出,数据库系统须加强对数据隐私的保护。

  作为一家技术*的数据仓库提供商,Databend一直都在思考AI如何与大数据技术进行融合,下面是我们在与大模型融合过程中做的一些探索。从时间顺序来看,探索和尝试大致可以分成两个阶段:

  OpenAI大模型刚出来的时候大家都很兴奋,很多公司推出了引入OpenAIAPI的各种服务,但这种模式也存在一些问题,*突出的就是数据隐私和成本控制等问题。在这种模式下,数据必须上传给OpenAI,无法保证企业的数据隐私;此外,使用OpenAI的成本很高。假设你的数据量有几万或者十几万,光调取OpenAIAPI的成本就已经很高,再加上tokens的成本一天至少也得几十或上百美元。而在OpenAI停止向中国区用户提供服务后,如果SaaS产品集成了OpenAI的能力,在合规性上也是一个很大的风险点。

  在小数据量场景中,我们开始尝试Kimi和OpenAI做一些大数据分析。事实证明,在在小数据量的场景中,目前大模型的分析能力已经很强大了,可以满足技术小白,不精通SQL,甚至不会用数仓的用户数据分析需求。

  这个过程其实和在数仓里写SQL,进行数据分析,再用BI进行可视化展示非常像。如果你是一个小白,只要分析的数据量不大,都可以上传给它,CSV或Excel都支持。甚至还可以挂云存储,比如Googledriver。它可以基于你自己的数据,根据你的提问,给出数据分析结果。

  在尝试了通义千问2、Deepseek几款开源大模型后,我们发现开源大模型的能力其实已经很强了。尤其是千问2,我们以千问2-7B模型为例进行了部署。它对硬件要求不高,GPU内存只需要十几GB。如果想获得更强大的AI能力也可以考虑70B模型,但也需要更高的资源配置。

  与之前不同,我们在这次探索中改变了融合大模型的模式,不再基于Databend的Query内部运行AI集群,而是通过Databend的ItemFunctionServer模式连接开源大模型,Databend只需要定义一个Function的API。部署好后,用户就可以在云上自动连接大模型。即使未来有千问3或其他更好的开源大模型,也可以很方便地切换,并且全部的数据处理都在自己的机器上,不但解决了数据隐私、合规性的问题,还实现了成本可控。如果用户需要,我们甚至可以单独给用户部署一套。

  ai_mask:数据脱敏处理,用于保护敏感信息,如地址和电话号码。如果像以前靠人力的话,数据量很大的情况下需要很重的人力,AI做这件事可以大大提高效率;

  ai_extract:实体提取处理,从文本中识别和提取特定的实体信息。比如说你的数据里包含有地址、性别这些实体信息,这个功能就可以将含有这些信息的数据提取出来;

  这些能力基本上都属于数据清理任务,用AI代替人类,可以大大节省人力成本。在整套方案的实现中,我们进行了多项优化工作,如对UDFServer做了一些改造,以往传统的逐行处理方式效率低下,改为批处理模式后,大大提升了数据处理的效率;通过向量化技术改造原始模型,使其更适合在低配GPU上运行,降低了运行成本等等;实现了精细的计费和监控机制,确保资源使用的透明性和成本控制。目前,这些能力我们还没有开放体验,稍晚点会开放出来。

  在第二阶段的探索中,Databend重点关注了数据清洗和数据处理功能的实现。这些功能展示了AI在大数据处理中的潜力,特别是在减少人力和提高效率方面。未来,Databend将继续探索AI在大数据中的应用,进一步优化和完善系统。

  生成式AI时代的到来,为数据技术的发展带来了新的机遇和挑战。通过深入融合生成式AI技术,数据库可以在数据存储、处理和分析方面实现更高的性能和智能化。然而,面对数据质量、计算资源、模型解释性和隐私安全等问题,我们仍需不断探索和创新。未来,随着技术的不断进步和应用的广泛推广,生成式AI与数据库的融合必将带来更多的可能性和变革。千亿体育登录入口官网