导读:滴滴团队在 23 年初就坚定地投身于大模型,致力于数据产品的升级与探索,截至目前,我们已取得了一些阶段性的成果并成功落地。
BI 产品的发展经历了从报表式 BI 到自助式 BI 的演变,而当前智能 BI 则吸引了大家的广泛关注与大量投入。无论是早期的增强分析技术,还是如今新兴的 ChatBI 产品形态,其核心目的都在于降低用户利用数据的门槛与成本。我们期望通过融入 AI 的洞察力,使用户能更加便捷地访问并应用数据资源,以此来实现数据普惠。
在 23 年之前,或许有些同学已经听说过增强分析这一领域。增强分析技术涵盖了智能图表、数据解读、数据预测、异动分析、智能归因等多个角度,这些功能的实现依赖于机器学习和规则引擎等底层技术。然而,那时这一领域似乎并未引起广泛的热潮,处于一种相对平稳的发展状态。尽管我们拥有了这些技术能力,但在帮助用户获得深刻的数据洞察和满足期望的结果方面,似乎还有所欠缺。
自 23 年起,业内众多公司在传统 BI 基础上进行了大量探索,技术上涵盖了智能问答、意图识别等领域。有趣的是,在 ChatGPT 时代,我们通过 LLM 大模型的意图识别能力,将以往的增强分析功能都串联了起来,用户现在能够最终靠自然语言进行数据的解读、预测和异动分析。事实上,我们团队在 22 年之前已经开发了许多增强分析的功能,现在开发 ChatBI 时,发现这些功能被完美地整合在了一起,形成了 ChatBI 的坚实基础。
目前,业内对于 ChatBI 的探索呈现出百花齐放的态势。无论是勇于探索商业模式的公司还是传统BI 优势企业,都在这一领域投入了大量精力,显然对此抱有极高的期望。这一领域的发展主要有两条路径。
一条路径是以 BI 平台为核心,许多拥有传统 BI 优势的企业倾向于采用这样的形式。他们侧重 Copilot,以 BI 平台为起点,构建和运用 ChatBI。这一路径的启动成本相比来说较低,BI 平台背后已有成型的数据集,这一些数据集可直接用于提问和初步分析。然而,这一路径也面临着一定的历史遗留问题。因为这一些数据集并非专为提问和终端消费者而构建,而是主要服务于报表制作人员。因此,数据集的非标准化可能会引起问答的准确率相对较低。
另一种路径则是以指标平台为中心,我们大家可以看到许多新兴的 BI 创业公司倾向于采用这样的形式,他们更注重 AI-Native,即先建立指标平台,再在此基础上搭建 BI 产品。这一路径被视为实现 ChatBI 的理想方式,因为指标是标准化的,问答口径也相对清晰,可以有很大成效避免重名、同义或模糊字义等问题。然而,这一路径对基础设施建设的要求相比来说较高。在大规模的公司或公司中,要实现指标的全面标准化,需要付出一定的成本。这一些企业的产品在形态上大同小异,都是基于数据集的问答形态,相似度很高。
滴滴 BI 平台的发展和业内相似,从可视化报表平台,到一站式报表平台,再到自助分析平台,最后到今天的智能分析平台。
数小智是我们内部 ChatBI 的落地产品,产品形态包含 Copilot、PC 站点、IM 移动端,核心功能包括找数、分析、SQL 辅助 ALL In One,其中绝大部分流量是在 Copilot 这个形态下贡献的。
在 NL2SQL 的流程上,存在许多节点会影响准确率。首先,关于用户提问的处理,会经过多轮问题的合并,整合成一个问题进行输出,这一环节的准确率高达约 98%。接下来,整合后的问题会进入意图识别的小模型,该模型负责将问题的意图归类。这一环节的模型准确率大约维持在 96% 左右。随后,如果是一个数据分析任务,会遇到 LLM 72B 模型,这是一个经过高质量微调数据精心调校的自研模型。当面对异动分析、数据解读或数据预测等类型的问题时,通常会直接调用 NL2API 功能。普遍情况下会进入 NL2SQL 取数环节,在这一环节,我们第一步利用模型生成一个 SQL 的结果,随后将其转化为 DSL。最后通过 SQL 或者调用 API 生成智能图表。
在整个流程中都会有所损耗,综合看来,数据分析类的问题,目前端到端的解决率为 85% 左右,端到端是指从用户提问到最终渲染出图表。
要实现理想态的 ChatBI 对数据资产标准化建设不足的企业而言,会是一个长期工程。报表数据集和底层 Hive 表,指标维度定义不规范,并非面向终端分析人员建设,灵活问答准确率低。需要推动标准指标集,快速覆盖公司内各种关键用数场景,并逐步替代其它分析源。
虽然对 ChatBI 的产品探索如火如荼,但用户层面尚未到深度依赖的程度。准确性固然有影响,但用户习惯也是很大的因素。
基于 Copilot 形态,设计面向灵活分析场景的产品触点。例如充当报表组件的灵活筛选器、报表上任意波动字段的归因分析、数据集/Hive 表的字段灵活探查。
ChatBI 产品要可提供灵活的异动分析和归因能力。异动分析是用户迈入深度分析的刚需,也是智能BI 的典型产品功能,ChatBI 产品形态对该功能起到灵活放大的作用。
生成业务数据分析日报:借助 ChatBI + LLM 在特定的业务分析场景下每日自动生成类似上图的业务数据分析日报。
最终,我们的产品架构涵盖了 Copilot、PC 站点、IM 移动端的三种基本的产品形态。从分析到 SQL 再到找数,都已实现了全面的落地实施。就今年而言,在企业内部的整体落地情况符合预期。
NL2SQL 问答取数只是 ChatBI 实现深度分析价值的基础,行业的期待远高于此。而深度分析价值的实现是要基于业务场景的,非通用性分析。
在分析深度增强的过程中,业务场景和背景知识的融入至关重要。这包括了解特定行业(如能源业务)的关键指标和趋势,以提供针对性的分析建议,为决策提供有力支持。
新闻推荐
【2024-11-27】
【2024-11-27】
【2024-11-26】
【2024-11-24】
【2024-11-24】
【2024-11-24】
【2024-11-23】
【2024-11-22】
【2024-11-22】
【2024-10-29】
【2024-10-29】
【2024-10-29】