阅读hg皇冠官网的文章

.

您需要为您的最新时间序列预测项目建立一个基线? 您需要向业务受众解释预测模型的决策过程? 在购买新车之前,你想知道汽车的价格是否是季节性的? hg皇冠官网可能有东西给你! 本文介绍了Streamlit先知, 帮助数据科学家训练的网络应用程序, 以可视化的方式评估和优化预测模型. 预测是由先知,一个快速和容易解释的模型.

你可以在线测试这款应用 在这里 但是,由于共享计算资源有限,它可能不会在任何时候都可用. 另一个选项是安装 python包 然后在本地运行.

什么是流光先知?

Streamlit 先知是一个Python包,通过它你可以部署一个应用程序来构建时间序列预测模型 在视觉上 和 没有任何编码. 一旦您上传了一个具有要预测的信号的历史值的数据集, 这款应用只需点击几下鼠标就能训练出一个预测模型, 以及一些可视化工具,以帮助您评估它的性能并获得更深入的了解.

底层模型是用 先知是脸谱网开发的一个用于预测时间序列数据的开源库. 这一信号被分解成几个因素,如趋势、季节性和假日效应. 评估者学习如何分别为每个区块建模,然后将它们的不同贡献相加,生成一个易于解释的预测. 当该系列具有强烈的季节性模式和多个历史数据周期可用时,它表现得更好. 你可以看看这个 线程 或者这个 article 如果你想了解更多关于先知的数学基础.
接口是由 Streamlit,一个用于构建数据科学web应用程序的Python框架.

主要特点是什么?

Streamlit 先知旨在帮助数据科学家和业务分析师快速启动和运行他们的时间序列项目. 作为一个例子, 假设hg皇冠官网想要预测某一特定商店消费品的未来销售额, 从2011年到2015年的历史数据来看. hg皇冠官网的数据集如下表所示.

一个带有默认参数的基线模型在数据上传后立即被拟合. 现在让hg皇冠官网看看hg皇冠官网如何使用Streamlit 先知来改进它,并实现对这种现象的更好理解.

数据探索

任何预测项目的第一步都是确保数据集没有任何秘密. 先知天生提供了美好 信号分解 来帮助你实现这个目标. 应用程序中有几个图表可以让你一目了然地获得这些有价值的见解.
下图是一个很好的起点,因为它给出了上传的时间序列的全局表示,并包含了许多有用的信息.

黑点是实际的历史销售额, 每天75到225单位的时间是由哪些组成的. 每年年底圣诞节前后,一些销量不高或销量不高的异常值就会出现, 当商店可能关门的时候. 这一趋势显示在红线上,以获得对信号的更综合的视觉,并可视化全球进化. 最后, 蓝线表示在您的数据集上自动训练的先知模型做出的预测. 在这里hg皇冠官网可以看到,该车型预计在2016年的销量将会增加, 这一趋势始于2015年.

这些预测似乎是季节性的, 但是在第一张图上很难区分不同的周期分量. 让hg皇冠官网检查另一个可视化,以了解这些季节性模式如何影响模型输出.

已经发现了两个周期,并提供了一些关于消费者习惯的有趣见解. 每周循环显示,大多数人在周末购物, 在此期间,预报量每天增加近40个单位. 该图还表明,销售的产品具有每年的季节性, 夏天的销售额比今年其他时间略高. 然后,这些周期性成分和全球趋势将由估计器结合起来,对未来的日子做出预测.

绩效评估

这些图综合了先知对数据建模的方式, 但hg皇冠官网如何确保这种表示是可靠的呢? 为了回答这个合理的问题,应用程序的一部分专门评估模型的质量. 它快速地为用户提供了预测性能的基线. 为了做到这一点,时间序列被分成几个部分:模型首先在一个训练集上进行拟合,然后在一个验证集上进行测试. 交叉验证等其他选项也可用于更高级的用途.

可以使用不同的度量来评估模型质量:像均方根误差(RMSE)这样的绝对度量有助于了解销售数量方面的误差大小, 但相对的,如平均绝对百分比误差(MAPE)可能更容易解释. 由您选择与您的用例最相关的度量标准.

然而, 所有数据点的性能不太可能是统一的, 因此,只有一个全球指标是不够的. hg皇冠官网应该在更详细的粒度上计算度量,以获得对模型质量的清晰理解. 让hg皇冠官网从日常层面的深入分析开始, 在hg皇冠官网的例子中,最小的粒度是多少, 因为模型每天做一次预测.

hg皇冠官网可以观察到一个重要的变异性:有些天的误差大于20%,而其他一些预测却几乎完全准确. 记住这些信息, 你可能会忍不住想知道模型出错的方式是否存在模式. 是否有一些特殊的日子,hg皇冠官网可以期待它表现不佳? 幸运的是,这款应用程序提供了一些方便的图表,可以帮助hg皇冠官网满足好奇心.

错误的诊断

错误诊断部分可能是最有用的一个, 因为它允许您突出预测可以改进的领域,从而更精确地确定您将面临的主要挑战,以建立可靠的预测模型.

有几种可视化方法可以实现这一调查. 它们是交互式的,所以你可以很容易地专注于某些特定的领域. 例如, 下面的散点图表示由单个点对验证集做出的每个预测, 在那些离红线较远的数据上方徘徊,有助于hg皇冠官网理解哪些数据点的预测与事实相去甚远.

在hg皇冠官网的例子中, 当鼠标悬停在右上方区域时,距离红线最远的点是周六和周日, 这表明该模型在一周内表现更好. 让hg皇冠官网按照每周的天数来汇总性能指标,以验证这种直觉.

事实上,平均而言,周末的错误比一周的其他时间要大, 当试图优化模型时,需要记住哪些信息. 性能也可能随着时间的推移而变化, 因此,可以在应用程序中选择其他级别的聚合来检查它. 例如,hg皇冠官网可以以每周或每月的粒度计算度量, 或者在一段特定的时间内,hg皇冠官网怀疑它的表现与平常不同.

模型优化

一旦hg皇冠官网发现了模型的主要弱点, 有几个选项可以改进它:应用程序的侧边栏允许你编辑默认配置,并输入你自己的规范. 每次更改设置时,都会更新所有性能指标和可视化效果, 以便得到快速的反馈.

获得更好性能的第一种方法是对数据集应用一些定制的预处理. 有几种替代方案可以解决前面所指出的问题. 例如, 清洁部分可以让hg皇冠官网摆脱圣诞节前后观察到的异常值, 这可能会混淆模型. hg皇冠官网也可以过滤掉一些特定的日子, 因此,很容易训练不同的模型,为周和周末, 因为它们似乎与不同的购买行为有关. 还有一些其他的过滤和重采样选项, 以防它们与手头的问题有关.

先知超参数也可以调整,以帮助模型更好地拟合数据. 这些参数影响评估者如何学习从历史销售中表示趋势和季节性, 以及这些成分在全球预测中的相对权重. 如果你不熟悉先知模型,不要担心, 一些工具提示解释了每个参数背后的直觉,并指导您完成调优过程. 在建模部分, 您还可以向模型提供外部信息,例如假期或与要预测的信号相关的变量(例如产品的销售价格)。. 这些回归量可能会改善业绩,因为它们为模型提供了有关影响销售的现象的额外知识.

预测可解释性

拥有一个准确的预测模型是件好事, 但如果能够解释影响预测的主要因素,那就更好了. 应用程序的最后一部分旨在帮助hg皇冠官网理解hg皇冠官网刚刚建立的模型是如何做出决策的. 有不同的方法来解决这个问题:hg皇冠官网可以着眼于单个组成部分,看看它对总体预测的贡献如何随着时间的推移而演变, 或者,hg皇冠官网可以将单个预测分解为几个组成部分的贡献之和.

让hg皇冠官网从第一个选项开始. 影响预测的不同因素是趋势, 季节性和外部回归量. hg皇冠官网已经观察了每周和每年季节的影响, 因此,让hg皇冠官网关注hg皇冠官网在模型优化部分中包含的外部回归量:假期和产品的销售价格.

例如,一些公共假日的影响是相当重要的, 劳工节将每年9月初的销量预测提高了50台, 而圣诞节的下降表明,该模型考虑了商店在那一天关门的事实. 至于价格, 它年复一年地增长,因此它对销售的影响已经从积极转变为消极.

解释这个模型是如何产生一个特定预测的也可能是有用的, 特别是当某一特定事件影响到预测时. 下面的瀑布图显示了2012年10月31日的预测分解.

在这个例子中, 这款车型最终预测销量为96辆, 这是五个不同部分贡献的总和:

  • 全球趋势 这是最具影响力的因素.
  • 万圣节 效果 (-12):该产品在万圣节的销量少于平时.
  • 出售价格 (+2):那天的价格一定比平均价格略低.
  • 每周的季节性 (-23):今天是星期三,不在周末.
  • 每年季节性 例10月是这种产品的淡季.

这种分解不仅有助于与合作者分享见解, 它还可以帮助分析人员理解为什么他们的模型不能按照预期运行. 如果需要, 在应用程序的侧边栏中有几个参数可以增加或减少不同组件的相对权重.

如何开始?

在你自己的电脑上运行这个应用程序非常简单. 唯一的先决条件是安装Python. Windows用户还需要更多的要求(参见 存储库 更多细节). 然后,您可以按照下面的说明开始.

安装

hg皇冠官网建议创建一个新的虚拟环境,以避免依赖关系问题或与当前环境不兼容. 一旦您的新环境被激活,您就可以使用以下命令安装这个包. 安装可能需要几分钟(5-10分钟).

pip安装-U streamlit_prophet

运行

现在已经安装了这个包, 一个简单的命令可以让你从你的终端启动应用程序,并在你的默认浏览器中打开它.

streamlit_prophet部署仪表板

你已经准备好构建先知模型了! 为了开始建模, 首先需要以以下格式将数据集上传为CSV文件.

然后, 您可以在侧栏中提供您的规范,以执行满足您需求的预处理任务,并调优模型超参数. 一旦你对结果感到满意, 保存您的实验,以保持所有的可视化,并能够很容易地复制它之后.

云部署

如果您希望使应用程序易于多个协作者访问,而不要求他们下载Python并安装包, 您可以将应用程序部署在云上. 你需要做的第一件事是克隆git仓库. 然后, Docker命令可以让你轻松地容器应用程序,并创建一个映像,可以用来部署应用程序在你选择的云平台上. 这 article 详细解释了如何在谷歌云平台上这样做.

非常感谢阅读,我很高兴听到你的反馈. 如果您希望为包的开发做出贡献或有任何改进的想法,请随时hg皇冠官网. 与此同时,你可以去参观 项目存储库 观看一个简短的演示 人工制品科技博客 有关hg皇冠官网的数据科学项目的更多信息.

Artefact的媒体博客.

本文最初发表于 媒介.com.
请关注hg皇冠官网的媒体博客 !

阅读hg皇冠官网的文章
人工制品的时事通讯

对数据咨询|数据营销|数字激活感兴趣?
阅读hg皇冠官网的每月通讯,以获得可行的建议, 的见解, 业务案例, 来自世界各地的数据专家!

通讯报名