FoundTS 期间序列预测基础模型的片面一致测评基准

  • 电脑网络维修
  • 2024-11-15

当天给大家引见一篇华东师范大学联结丹麦奥尔堡大学和松鼠AI颁布的期间序列模型一致评测基准FoundTS,这是一个针对期间序列预测基础模型的基准测评框架,旨在应用不同畛域和特色的数据集对不同的期间序列预测基础模型启动片面、偏心的测评。该论文在一致评测结果的基础上,剖析了现有时序预测基础模型的优缺陷,并为基础模型的优化提出一些可行的方向。

论文题目 :FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING

论文地址 :​ ​​ ​

背景

期间序列预测 (Time Series Forecasting, TSF) 是指依据历史观察来预测未来形态,从而指点相应的决策和行为,是金融剖析、气候预测和动力治理等泛滥畛域的关键义务。

近年来,针对特定畛域数据集启动训练和推理的 特定模型(Specific models) 取得了极速开展,其预测准确度和推理速度清楚优化。但是,这些模型的泛化才干较弱,面对新畛域或新数据时体现欠佳。在多畛域期间序列数据或大规模言语数据上启动预训练的 基础模型(Foundation models) 为优化期间序列预测模型的泛化才干提供了新的或者性,但目前对此类模型的认知还远远无余。关键要素有以下三个方面:

(1)现有基础模型上班的 试验设置不具有分歧性 ,如表1所示,难以仅依据现有结果对不同的基础模型的功能启动偏心分歧的比拟;

(2)干流的期间序列测评基准 关键集中在特定模型 ,触及基础模型的测评基准很少;

(3)现有触及基础模型的测评基准对此类模型的剖析还逗留在定性剖析或 繁多场景测评

为了处置上述疑问,这篇论文提出了一个新的测评基准 FoundTS,以成功对期间序列预测基础模型启动片面、偏心的评价和比拟。FoundTS 涵盖了各种期间序列预测基础模型,包括基于多畛域期间序列数据的预训练模型(Pre-trained models)和基于大规模言语的预训练模型(LLM-based models)。同时,FoundTS 允许不同的预测场景,如零样本(zero-shot)、少样本(few-shot)和全样本(full-shot)。

FoundTS评测框架

FoundTS 提供了一个规范化评价流程,蕴含了三个外围模块:数据(data)、模型(models)、评价(evaluation)。

数据模块 蕴含10个来自不同畛域(Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics)、具有多种特色(Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity)的期间序列数据集,为下游期间序列预测提供了片面的数据允许。

模型模块 涵盖了各类期间序列预测模型,并对其启动了粗疏的分类与引见。

基于多畛域期间序列数据的预训练模型 :论文中依据训练方法从重建、自回归、间接预测以及混合预测四个角度区分引见此类模型;

基于大规模言语的预训练模型 :经过参数高效微调或设计prompt的形式,应用 LLMs 弱小的表征才干和序列建模才干来捕捉期间序列的复杂形式;

特定模型 :经常使用特定数据集启动训练并在相应的数据集启动推理,经常出现框架有:基于CNN的模型、基于Transformer的模型、基于MLP的模型。

评价模块 提供片面的测评场景、可裁减的流程和一致的评价环境:

涵盖 zero-shot、few-shot 和 full-shot 场景,片面评价期间序列预测基础模型在不同测试场景下的体现。

允许对评测流程的多个方面启动灵敏定制,如回看窗口、预测窗口、数据划分与加载、采样战略等,能够对不同模型驳回分歧的评测流程,确保测试结果的偏心与牢靠。

提供各种评价目的(如平均相对误差(MAE)和均方误差(MSE)),从不同角度提供深化的模型功能剖析。

试验剖析

论文在多个不同畛域的数据集上对比了不同的期间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的功能体现,同时从不同角度对期间序列预测基础模型的优缺陷启动了剖析。

论文比拟了期间序列预测基础模型在不同采样战略下的功能,标明数据采样战略在few-shot学习中起着至关关键的作用,只要在一致的试验设置下才干对模型启动偏心评价。

论文探求了多变量期间序列的通道依赖性对期间序列预测基础模型功能影响,呐喊在构建基础模型时应充沛思考多变量数据的通道依赖性。

论文剖析了不同框架的期间序列预测基础模型之间的功能差异,指出未来须要更深化地钻研模型架构设计,找到功能和参数量之间的平衡。

论文在具有不同清楚特色的数据集上对比了期间序列预测基础模型处置不同特色数据的才干。

论文评价了来自多畛域期间序列数据或大规模言语数据的预训练常识对下游期间序列预测义务的实践效益。

论文经过权衡期间序列预测基础模型在 5% 数据的 few-shot 场景下微调期间与特定模型在 full-shot 场景下从头训练期间,探讨了期间序列预测基础模型的精度与运行效率。

发现与观念

基础模型能否优于特定模型? 期间序列预测基础模型,相比于特定模型,体现出优越的 zero-shot 和 few-shot 的学习才干。但当有足够的训练数据时,基础模型并不总是优于特定模型。

哪些基础模型更优? 期间序列预测基础模型的长处取决于评价的不同方面,没有任何一个基础模型能够在一切方面占据主导位置。

从哪些方面优化基础模型? (1)期间序列预测基础模型应具有愈加通用的、处置多种预测场景的才干;(2)从训练数据、模型架构、预训练战略等角度优化设计以更充沛应用大规模预训练常识;(3)如何在下游义务甚至预训练阶段充沛建模各个通道之间的依赖性,是基础模型应答多变量期间序列的关键疑问之一;(4)正当平衡预测精度与训练、微调、推理老本,是将期间序列预测基础模型启动实践运行无法漠视的疑问。

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5739.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号