船视宝主题赛道
第二十一届全国大学生交通运输科技大赛
赛题一

集装箱码头船舶预抵等泊智能预测

基于船舶档案、气象数据及历史通航数据,构建智能预测模型,精准预判船舶在锚地的等待时长

赛题背景

集装箱码头船舶预抵等泊智能预测

在全球供应链体系中,港口作为核心节点,其作业效率直接影响物流成本与贸易周期。然而,受恶劣天气、船舶集中到港以及码头调度复杂性影响,"船舶排队拥堵"已成为行业常态。船舶在锚地长时间等待,不仅造成巨大的船期损失,更会导致大量燃油浪费和碳排放。

实现"等泊时长"的精准预测,是推动航运业"准时到港(Just-In-Time Arrival)"模式的关键。本次挑战赛旨在利用船舶档案、气象数据及历史通航数据,构建智能预测模型,精准预判船舶在锚地的等待时长,从而辅助船东优化航速、协助港口优化调度,推动绿色航运发展。

赛题任务

参赛者需要利用提供的船舶港口挂靠历史数据集(源自 AIS 数据清洗)、气象环境数据集及船舶静态档案,构建模型预测船舶的等泊时长(即从船舶进入锚地到靠泊开始作业之间的时间差)。

选手需要自行进行特征工程,充分挖掘气象因素(风、浪)、船舶属性(大小、吃水)与排队时长之间的关系,可以用时间区间多分类或者回归方法对等泊时长进行预测。

技术建议

  • 鼓励参赛者运用时间序列分析、机器学习(如 XGBoost/LightGBM)、深度学习等技术
  • 允许使用额外的时间/日历信息(如节假日),以增强模型的准确性
  • 重视对"长尾数据"(如极端天气导致的超长等待)的处理能力

数据描述

  1. 港口挂靠历史数据训练集:包含过去一年内多个枢纽港的船舶进出港完整记录。涵盖船舶 ID、到达锚地时间、实际靠泊时间、挂靠的码头泊位等关键参数。
  2. 待预测进港数据测试集:仅包含船舶到达锚地的时间点、船舶 ID、对应的气象预报数据。
  3. 船舶资料数据:包含船舶的基础属性,如船公司、TEU、船长、船型等。
  4. 气象历史数据:包含该港口海域每日的风速、风向、能见度等记录。

评分标准

本赛题为多分类和回归任务。评分标准如下:

1. 多分类方法评分标准

为了兼顾各类别的预测准确性(平衡样本不均衡问题),比赛采用 MacroF1-Score(宏平均 F1 分数)作为核心评价指标。

假设共有 K 个类别(0,1,……,K-1),针对第 k 个类别的 Precision(查准率)记为 Pk,Recall(查全率)记为 Rk

第 k 类的 F1-Score 计算如下:

$$ F1_k = \frac{2 \times P_k \times R_k}{P_k + R_k} $$

最终的 MacroF1-Score 为所有类别 F1-Score 的算术平均值:

$$ MacroF1 = \frac{1}{K} \sum_{k=0}^{K-1} F1_k $$

最终得分换算公式(满分 100 分):

$$ Score = MacroF1 \times 100 $$

注:MacroF1 指标能够有效避免模型只倾向于预测"大多数样本"(如短时等待),而忽略了"少数关键样本"(如长时严重拥堵)的情况,要求模型在长尾区间也有较好的表现。

2. 回归方法评分标准

对于回归模型,请采用均方误差来衡量模型预测的准确性。公式如下:

$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

其中,n 是样本的总数量;yi 是第 i 个样本的真实值;ŷi 是第 i 个样本的预测值。

数据格式

1. 港口挂靠历史数据

列名类型说明
leg_start_port_codestr起始港编码
leg_end_port_codestr目的港编码
start_postimestr开始靠泊时间,格式 YYYY-MM-dd HH:MM:SS
end_postimestr靠泊结束时间,格式 YYYY-MM-dd HH:MM:SS
leg_start_postimestr航次开始时间(以青岛港-洋山港为例,该时间为青岛港的出发时间)
arrival_timestr到港时间,若先锚后靠,则该时间为进入锚地的时间(开始排队);若直接靠泊,则该时间为开始靠泊时间。格式 YYYY-MM-dd HH:MM:SS
utc_datestr日期,关联港口气象使用。格式 YYYY/MM/dd
berth_durationfloat泊位停留时间(小时)
moor_duration_portfloat等待泊位时间(小时)
berth_uuidstr泊位编号
mmsistr船舶唯一标识码
flag_ctrystr船旗
dwtint载重吨,单位吨
grtint总吨,单位吨
netint净吨,单位吨
teuint船舶最多可承载的箱量
liquidint船舶最多可承载的液体重量,单位吨
gasint船舶最多可承载的气体,单位立方米
lengthint船长,单位米
widthint船宽,单位米
heightint船高,单位米
draughtint设计吃水,单位米
operator_bodystr运营公司

2. 港口气象

列名类型说明
port_codestr港口代码
utc_datestr日期,用于跟港口历史挂靠表关联
temperaturefloat温度
pressureint气压
humidityint湿度
dew_pointfloat露点
cloudsint云量
visibilityint能见度
wind_speedfloat风速
wind_degint风向
raindict雨量
daily_temp_maxfloat日最高温度
daily_temp_minfloat日最低温度
daily_rainfloat日降水量
daily_humidityint日均湿度
weather_idint无实际意义
weather_icon气象编码无实际意义
weather_mainstr主要天气状况
weather_descriptionstr天气描述

3. 港口泊位码头信息

列名类型说明
berth_typeint泊位种类
load_typestr1为装,0为卸。其余为异常
cargo-typestr货物种类
name_cnstr泊位名称
berth_lengthfloat泊位长度(米)
terminal_idint码头 id
terminal_uuidstr码头编号
terminal_lengthfloat码头长度(米)

4. 待预测进港数据测试集:为 arrival_time 为 2026 年的数据,与上述字段相同,berth_uuid、berth_duration、moor_duration 为空。

提交要求

参赛队伍需提交一个包含模型代码预测结果的压缩文件,预测结果需包含测试集中的原始字段和预测结果。

备注

最终的排名根据参赛者选择的方法和官方计算的精度共同决定。

赛题资料