NAS机场配置变化预测赛题总结

赛题总结:NAS机场配置变化预测

简介 

赛题背景

协调航空运输是国家空域系统(NAS)的职责。NAS可以说是世界上最复杂的运输系统。NAS重要部分是机场配置,用于到达和离开的跑道组合以及这些跑道上的气流方向。空中交通官员可能会根据天气、交通或其他输入改变机场配置。

机场配置可能会导致航班延误,在到达机场之前可能需要改变飞行路线,以进入正确的航线,或者在气流改变时进入空中等待模式。改变机场配置的决定是由数据和观察结果决定的,这意味着可以提前预测这些变化,并给航班运营商调整时间表的时间,以减少延误和燃油浪费。

在比赛中DrivenData开发了两个基准:No change forecast和Recency-weighted historical forecast。

No change forecast赛题:https://www.drivendata.org/competitions/89/competition-nasa-airport-configuration/

Recency-weighted historical forecast赛题:https://www.drivendata.org/competitions/92/competition-nasa-airport-configuration-prescreened/

赛题目标

赛题目标是通过包括空中交通和天气在内的实时数据源自动预测机场配置变化。预测未来机场配置的更好算法可以支持关键决策,降低成本,节约能源,并缓解国家空域网络的延误。

赛题数据

在这项挑战中,参与者利用捕捉空中交通和天气状况的功能,预测未来6小时内机场的配置方式。我们的目标是建立一个模型,预测未来6小时内每30分钟一次的可能配置的概率。参与者可以获得一年的数据,包括观察到的单个航班的流量、对到达和离开的精细估计以及最新的天气预报。

优胜方案

参与者测试了350多种解决方案。在最终的评估数据集中,顶级模型的平均累计日志损失为0.074,比无变化基准测试有显著改进。在配置确实发生变化的困难情况下,当提前两小时预测时,该模型能够预测41%的时间变化,准确率为49%。

获胜的解决方案采用了一系列技术。大部分是使用基于树的模型,如CatBoost和XGBoost,以及精心设计功能时间表,以生成机场配置的有用预测。

NAS机场配置变化预测赛题总结。

影响性能的最大因素之一是前瞻性。毫不奇怪,预测6小时后的机场配置比30分钟后的更难。平均而言,第一名和第二名的获奖者在更长的时间内表现出比我们的基准大幅提高。性能的另一个主要因素是机场本身,每个机场都有自己独特的特点。首先,机场可能在可用配置的数量上有所不同,或者可能会经历不同的天气模式,从而导致机场配置更频繁和/或更不可预测的变化。

性能的另一个重要观点是模型预测机场配置变化的能力。尽管能够预测当前配置在未来数小时内仍将保持不变,但重要的操作考虑因素是配置何时更改。

第一名:Kristin Mullaney & Alejandro Sáez

https://github.com/drivendataorg/nasa-airport-config/tree/main/1st%20Place

Kristin Mullaney:我是纽约大学即将入学的二年级研究生。我正在攻读数据科学学士学位。我对所有的数据科学都很感兴趣,想参加比赛来测试我的技能。

Alejandro Sáez:纽约大学数据科学系学生,具有电网预测维护和零售银行分析用例的经验。

有三个原因让我们参与了本次比赛:

  • 从NASA获取真实世界的数据。
  • 正在处理的问题的相关性。
  • 实践技术的机会。

我们清理了原始数据,在机场时间戳期间创建了一个主表,每次观测之间的采样率为15分钟,并从所提供的12个原始数据块中添加了过去的特征。也就是说,主表的每一行都包含在给定时间戳之前可用的给定机场时间戳的数据(过去的信息)。

在本例中,机场配置提前30分钟、60分钟……以及每个提前期。接下来,我们构建了总共120个CatBoost多类分类器,使我们能够预测每个配置在机场预测级别的可能性,即10个机场x 12个预测周期=120个模型。

最后,我们创建了一组功能,允许DrivenData运行时环境使用这些模型,以便从先前开发的模型中检索实时预测。我们遵循这种方法,因为它是清理、特征提取、训练/测试拆分和建模的典型数据科学管道。

第二名:Spencer McDonald & Marek Travnik

https://github.com/drivendataorg/nasa-airport-config/tree/main/2nd%20Place

特征筛选的目的是找到一个更小的(潜在的)特征空间,以封装与当前问题相关的信息。在继续我们的集成方法之前,我们首先想考虑一种隐马尔可夫模型类型的方法来解决这个问题。我们可以用它作为预测它确实发生变化的概率。

第三名:Azin Al Kajbaf & Kaveh Faraji

https://github.com/drivendataorg/nasa-airport-config/tree/main/3rd%20Place

对于比赛,我们只使用了过去的机场配置和训练标签数据。我们对数据和每个数据点进行了预处理。我们提取了关于过去配置、当前配置和最近10个配置的分布以及每个过去配置处于活动状态的持续时间的信息。

们创建了一个DataFrame(train_labels)作为机器学习算法的输入。在主代码中,我们为每个机场训练了XGBoost模型。然后,我们对测试数据特征进行预处理,并使用预处理的XGBoost模型预测每个配置的概率。

第四名:Normen Yu & Mehrdad Mahdavi

https://github.com/drivendataorg/nasa-airport-config/tree/main/4th%20Place

我们测试了许多算法。最终使用了Logistic回归,因为它的目标函数最接近问题陈述的目标函数。它也不太容易过度拟合。

对于每个机场,以下工作都是相互独立完成的:首先,每个机场的预计起飞和预计着陆数据被处理成4列:预计着陆/起飞1小时到30分钟前、30分钟到0分钟前、0分钟到30分钟后以及30到1小时后。然后,这些数据被添加到其他需要较少处理的数据中:风速、阵风、云雾、能见度、云、光照概率、风向、降水量,以及我们试图预测的小时数。 

上一篇

美国律师协会取消美国大学法学院入学申请LSAT成绩要求!

下一篇

申请英美名校BPHO需要拿什么奖?

你也可能喜欢

评论已经被关闭。

插入图片
微信咨询 微信咨询
微信咨询
在线咨询 在线咨询
在线咨询
返回顶部