新的一年的开始是反思已经取得的成就并展望未来,重新评估我们可以做得更好的最佳时机。改变,虽然一开始很困难,但也可以是非常有益的。这就是为什么我很高兴看到在 Thoughtspot Beyond.2021上分享了类似的情绪,以超越过去的传统仪表板。随着组织内角色的演变(从公民科学家和分析工程师的成长中可以看出)和数据需求的变化(想想模式变化和实时),我们需要更智能的方式来执行视觉探索、数据查询和分享见解。通过仪表板经常看后视镜,专注于历史数据,而不是未来的洞察力——即预测分析。
新的和更易于访问的 ML 工具的爆炸式增长意味着,现在是迈向预测分析的最佳时机。
自2020 年 10 月推出Cloudera 数据可视化 (DV)以来,我们一直专注于向所有客户展示扩展的自助式数据分析和预测洞察访问的优势。使数据访问民主化打破了孤岛,并为业务运营的任何阶段提供了洞察力。具有主题专业知识的业务用户和分析师可以利用他们自己的数据域来推动价值,这在以前由于缺乏工具或技术专业知识而无法实现。
DV 与Cloudera 数据平台 (CDP)原生集成,支持从任何地方自助式直接访问数据,并能够在整个分析和机器学习生命周期内快速推动可视化数据发现和探索。与Cloudera 机器学习 (CML)的紧密集成允许用户获取 CML 中内置的预测洞察力,并通过 DV 应用程序访问它们。
为了展示这一点,我们将使用航空公司航班数据集来展示一些可以开始将预测分析整合到可视化应用程序中的方法。
使用 AMP 开启您的旅程
Applied ML Prototypes (AMP )不是从头开始,而是提供了许多常用机器学习技术(例如时间序列预测、流失建模和异常检测)的预构建模板。在 Cloudera 机器学习 (CML) 中,用户可以通过简单地选择一个原型并填写几个框来引导他们的项目。
图:CML 的应用机器学习原型 (AMP)
对于我们的航班数据集,我们将使用航班取消的 AMP 作为我们的起点。AMP 生成的项目将预测航班取消。首先,可以使用一个简单的配置向导来设置基于 AMP 的项目。用户可以根据需要修改默认目录和运行时引擎。
接下来,单击启动,项目将运行一系列步骤,从创建数据和目录等项目工件,一直到训练预测模型并将其部署为 REST 端点。
AMP 提供的此蓝图可用于修改项目的任何方面,包括模型。例如,我们可以将 XGBoost 分类器换成另一个分类器,从而轻松轻松地测试新模型。
图:Flight Prediction AMP 的启动屏幕
图:部署了所有工件的基于 AMP 的项目
将 AI 嵌入您的应用程序
一旦我们完成了项目设置并根据我们的需要优化了 ML 分类器,我们就可以部署模型了。模型部署为 REST 端点,因此任何外部(或内部)应用程序都可以调用以获取预测结果。
CML 再次使这个过程变得简单。
创建预测函数
我们使用我们的 AMP 项目已经设置的航班取消模型,并编写了一个简单的函数,该函数接受输入变量(例如 CARRIER、ORIGIN、DEST、WEEK、HOUR)并产生两个输出——预测的取消和相关的置信度的概率。此函数用作模型的包装器,主要用于将 JSON 有效负载与调用 DV 应用程序相互转换,解析输入字段并输出预测结果。
图:我们的 DV 应用程序要调用的包装器预测函数
部署函数
接下来,我们需要将我们的预测功能部署为新的 REST 端点。由于 AMP 已经这样做了,我们可以简单地复制相同的过程。在将函数部署为模型时,我们需要记下 URL 和访问密钥,这些将在后面的步骤中使用。
调用模型
一旦我们部署了模型端点,我们就可以从我们的应用程序中调用它。DV 通过提供一个开箱即用的函数 ( cviz_rest ) 使这变得简单,该函数将模型端点 URL 和访问密钥以及输入和输出变量作为输入。
代码语言:javascript复制cviz_rest ( '{
"url":"../models/call-model",
"访问密钥":"...",
"colnames":["..",".."..],
"response_colname":".."}
' )
我们使用表达式中的 cviz_rest() 在我们的航班数据集中创建一个新的计算列(“取消预测”)。输入将映射到我们数据集中的列——uniquecarrier、origin、dest、week、schdephr。响应列将是预测结果。这些看起来都应该很熟悉——它们是我们之前创建的预测函数的输入和输出。我们只是让 DV 知道在调用 REST 端点时应该使用我们数据集中的哪些字段。
图:从 DV 调用模型端点
最终应用
完成数据集建模后,我们可以开始创建可视化应用程序以利用预测洞察力。
在这里,我们采用表格视图并用我们的预测对其进行了扩充。我们在可视化中包含了输入列(uniquecarrier、origin、dest、week、schdephr)以及我们的计算列“取消预测”。对于表中的每个条目,DV 自动调用模型端点并显示预测结果。
并且很容易用实际数据检查我们模型的准确性。我们对模型结果和实际取消进行颜色编码以进行视觉比较。很明显,模型预测相当准确,让我们有信心将其用于即将到来的航班的运营规划。
图:使用 Cloudera Data Visualization 监控航班取消的完全交互式和预测性应用程序
搜索适合您的洞察方式
CDV 中的自然语言搜索于去年年初推出,允许用户使用简单的搜索栏就其数据提出问题。当用户键入时,CDV 会自动筛选支持搜索的数据集,将列和关键字与可视化进行匹配,以最适合请求的数据元素。
“按航班排名前 10 的航空公司”变成了航班数量最多的航空公司的条形图。而“航班趋势”返回一个时间序列图,将航班总数显示为一条线。该系统智能地应用启发式方法来返回用户需要的内容,而无需求助于成熟的视觉构建器。
搜索对寻求快速洞察的用户更具吸引力。它还有助于降低数据访问的障碍,无需培训新工具或编写代码。
准备好迈出这一步了吗?
变化可以突飞猛进,Cloudera 数据可视化让您可以灵活地试验、调整和了解您的业务流程和用户如何从 AI 驱动的数据应用程序中受益。它可以像使用 NLP 搜索 UI 进行自助式探索以探索新数据集或部署模型以驱动完全交互式和预测性应用程序一样简单。
我们需要停止向后寻找洞察力,而 2022 年是开始展望 AI 驱动应用程序的最佳时机。要了解有关 Cloudera 数据可视化的更多信息,请注册免费试用并亲自查看。在我们探索Cloudera Data Engineering 的混合部署时,请继续关注Make the Leap New Year 解决方案系列的第 2 部分。
原文作者:Shaun Ahmadian
原文链接:https://blog.cloudera.com/its-time-to-look-forward/