智能航运算法与优化 赛题

赛题概述

算法与优化赛道

本赛道主要围绕航运数据中的算法优化与智能预测展开。

随着航运产业数字化进程的不断加速,大规模船舶数据(包括地理位置、历史轨迹、船舶属性等)的积累为智能决策提供了充分的可能性。如何充分利用这些海量数据,高效挖掘关键特征,准确预测船舶抵达时间和航行轨迹,对优化港口调度、保障航运安全、促进绿色发展都有深远意义。

本赛道鼓励参赛者采用机器学习、深度学习、时空数据分析等前沿技术,通过实战化场景解决真实行业痛点,为智能航运提供更具价值的算法和工具。

赛题 A : 全球航运预抵识别

一、赛题背景

随着全球化的发展,海上运输在国际贸易中占据核心地位。为了优化物流管理和减少运输延误,准确预测船舶的抵达时间和抵达港口变得至关重要。本次挑战赛旨在通过分析船舶动态信息数据,提高港口到港口预测的准确性,从而助力全球物流行业的效率提升。

二、赛题任务

参赛者需要利用提供的船舶动态信息数据集,建立模型预测船舶的预计抵达港口(end_port_code)和预计抵达时间(leg_end_postime)。选手需要自行进行数据预处理操作,应当充分利用提供数据集中各个字段的特征,并构建算法模型来预测船舶的预计抵达港口和预计抵达时间。

  • 鼓励参赛者运用先进的数据分析、机器学习、深度学习等技术。
  • 允许使用额外的公开数据源,以增强模型的准确性和泛化能力。
  • 重视数据预处理和特征工程,以提高模型性能。

三、数据描述

  1. 船舶动态信息数据训练集:包含历史船舶抵达各港口的时间记录,航行轨迹等关键参数。
  2. 船舶动态信息数据测试集:仅包含船舶MMSI、船舶起始港与船舶起始时间。
  3. 船舶静态信息数据:包含有关船舶的特征描述,如MMSI号、船舶类型、建造年份、载重吨、尺寸和吃水深度等信息。
  4. 船舶静态信息数据(船型映射关系表):用于将船舶类型和子类型代码映射到相应的描述信息。
  5. 港口静态信息数据:包含有关港口的基本描述,如港口代码、名称、位置、国家、类型等信息。

四、模型预测结果评分标准

选手需要同时预测船舶的预计抵达港口与预计抵达时间,即预测结果需包括每条船舶的预计抵达港口和预计抵达时间。当预计抵达港口预测错误时,该次动态的预测结果,该次动态的预测得分将得0分。当预计抵达港口预测正确时,将继续评估预计抵达时间与实际抵达时间的差值,单位为小时,如果预计抵达时间与真实抵达时间差值不超过7天,则计算( 168 - 预测时间)与168的比值为该次动态的预测得分。

如果预计抵达时间与真实抵达时间差值超过7天,该次动态的预测得分将得0分。

预测结果评分标准公式为:

$$ \text{评分} = \begin{cases} \frac{168 - \text{预测时间差值}}{168}, & \text{如果港口预测正确且时间差值} \leq 168\text{小时} \\ 0, & \text{其他情况} \end{cases} $$

船舶动态信息数据测试集共有19191条数据,则该模型预测结果满分为19191分。

五、数据格式

船舶动态信息数据训练集共有807条船舶的33968条船舶动态数据,船舶动态信息数据训练集格式说明:

列名 类型 说明
ship_mmsi str 船舶的MMSI号码
start_port_code str 起始港口的代码
end_port_code str 目的港口的代码
leg_start_postime str 航段开始的时间,格式为yyyy-MM-dd HH:mm:ss+tz
leg_end_postime str 航段结束的时间,格式为yyyy-MM-dd HH:mm:ss+tz
route_line str 航线的表示,格式为WKT(Well-Known Text)的LINESTRING类型
distance float 航段距离,单位为海里

船舶动态信息数据测试集共有807条船舶的19191条船舶动态数据,船舶动态数据测试集格式说明:

列名 类型 说明
uuid str 唯一标识符,用于区分每条记录的独特ID
ship_mmsi str 脱敏后的船舶MMSI号,用于标识船舶的唯一号码
start_port_code str 起始港口代码,表示货物出发的港口
leg_start_postime datetime 起始航段的开始时间,格式为:yyyy-MM-dd HH:mm:ss+tz
end_port_code str 需补充提交,目的港口代码,表示货物到达的港口
leg_end_postime datetime 需补充提交,起始航段的结束时间,格式为:yyyy-MM-dd HH:mm:ss+tz

船舶静态信息数据包含843条船舶的静态信息,船舶静态信息数据格式说明:

列名 类型 说明
ship_mmsi str 船舶的MMSI号
vessel_type int 船舶类型代码
vessel_sub_type int 船舶子类型代码
build_year int 船舶建造年份
deadweight int 船舶的载重吨
length float 船舶的长度(米)
width float 船舶的宽度(米)
height float 船舶的高度(米)
draught float 船舶的吃水深度(米)
max_speed float 船舶的最大速度(节)

船舶静态信息数据(船型映射关系表)包含6类船舶的类型映射关系,与41个船舶子类型映射关系,船舶静态信息数据格式说明:

列名 类型 说明
dict_type str 字典类型(字符串类型)
dict_code str 字典代码(字符串类型)
parent_code str 父级字典代码,可为空(字符串类型),仅当dict_type为vessel_sub_type时不为空
name_en str 英文名称(字符串类型)
name_cn str 中文名称(字符串类型)

港口静态信息数据包含1101个港口的地理位置数据,港口静态信息数据格式说明:

列名 类型 说明
port_code str 港口代码(字符串类型)
ctry_code str 国家代码(字符串类型)
name_en str 英文名称(字符串类型)
name_cn str 中文名称(字符串类型)
lon float 经度(浮点数类型)
lat float 纬度(浮点数类型)
timezone_offset int 时区偏移(整数类型,单位为小时)

赛题 B : 全球航运轨迹预测

一、赛题背景

全球贸易飞速发展的当下,水上交通占据主导地位。不同于有固定道路的路上交通,水上交通更为复杂,路径规划更具挑战性。为提升船舶水上交通的决策水平,准确生成船舶的轨迹至关重要。本次挑战赛旨在通过分析船舶AIS信息数据,较为准确地生成在途船舶的剩余航行轨迹,从而提升水上交通的管理水平。

二、赛题任务

参赛者需要利用提供的船舶AIS信息数据集,构建模型预测在途船舶的剩余轨迹(一系列longitude和latitude)。选手需要自行进行数据预处理操作,应当充分利用提供数据集中各个字段的特征,并搭建算法模型来进行在途船舶的剩余轨迹生成,并要求模型可以自主判断是否停止生成,从而达到模拟到港的效果。

  • 鼓励参赛者运用先进的数据分析、机器学习、深度学习等技术。
  • 允许使用额外的公开数据源,以增强模型的准确性和泛化能力。
  • 重视数据预处理和特征工程,以提高模型性能。

三、数据描述

  1. 船舶AIS信息数据训练集:包含完整的历史AIS船舶从离港到到港,在途航行的经纬度、状态、吃水、船艏向、航迹向、对地速度等关键参数。
  2. 船舶AIS信息数据测试集:仅包含部分航段的AIS信息,包括在途航行的经纬度、状态、吃水、船艏向、航迹向、对地速度。
  3. 港口静态信息数据:包含有关港口的基本描述,如港口代码、名称、位置、国家、类型等信息。

四、模型预测结果评分标准

选手需要生成在途船舶的剩余轨迹并使模型自主停止生成,以模拟到港。当模型生成的剩余轨迹长度为0时,该次轨迹生成的得分将是0分。当模型生成的剩余轨迹长度大于等于1时,将继续比较选手生成的轨迹和真实轨迹之间的差距,匹配与选手生成的轨迹点的对应时间最接近的真实点,并计算匹配后的生成轨迹点和真实点之间的距离之和D1。若选手生成的轨迹点数与真实的轨迹点数不匹配,则未匹配上的点数将与经纬度都为0的虚拟点计算距离并求和D2。100/(1+D1+D2)即为该条轨迹生成的分数F,满分为100分。

假设测试集中有n条航段轨迹,则最终的评分将为:

$$ \frac{\sum_1^n F}{n} $$

其中,\(D_1\),\(D_2\),\(F\) 的具体计算公式如下:

\[ \begin{aligned} D_1 &= \sum \sqrt{(\text{long}_{\text{true},i} - \text{long}_{\text{pred},i})^2 + (\text{lat}_{\text{true},i} - \text{lat}_{\text{pred},i})^2} \\ D_2 &= \sum \sqrt{\text{long}_{\text{mismatch}}^2 + \text{lat}_{\text{mismatch}}^2} \\ F &= \frac{100}{1 + D_1 + D_2} \end{aligned} \]

最终模型预测结果评分满分为100分。

五、提交要求

参赛队伍需提交一个包含模型代码和预测结果的压缩文件。预测结果需包括每条航段的给定轨迹和特征参数,以及生成的轨迹。

六、数据格式

船舶AIS信息数据训练集共有100条船舶的295810条AIS信息数据(ship_name在三张船舶AIS信息表中贯穿一致),数据说明如下:

列名 类型 说明
ship_name int 船舶的名称(已用阿拉伯数字代替)
ship_mmsi str 船舶的MMSI号码
start_port_code str 起始港口的代码
end_port_code str 目的港口的代码
leg_start_postime str 航段开始的时间,格式为yyyy-MM-dd HH:mm:ss+tz
leg_end_postime str 航段结束的时间,格式为yyyy-MM-dd HH:mm:ss+tz
route_line str 航线的表示,格式为WKT(Well-Known Text)的LINESTRING类型
distance float 航段距离,单位为海里

船舶AIS信息数据测试集共有97条船舶的59560条AIS信息数据,slice_time为三小时一个点位,选手需要自行判断航段划分,数据说明如下:

列名 类型 说明
ship_name int 船舶的名称(已用阿拉伯数字代替)
slice_time str AIS当前时间对应的切片时间,格式为YYYY-MM-dd HH:MM:SS+tz
longitude float AIS航段当前位置经度
latitude float AIS航段当前位置纬度
status str AIS航段当前位置对应的船舶状态(5代表靠泊,1代表锚泊,0代表航行)
hdg float 船艏向,船艏朝向的方向
cog float 航迹向,船舶航行的方向
sog float 对地速度,船舶的对地速度
draught float AIS航段当前位置的吃水

船舶AIS信息数据测试集共有97条船舶的59560条AIS信息数据,slice_time为三小时一个点位,选手需要自行判断航段划分,数据说明如下:

列名 类型 说明
ship_name int 船舶的名称(已用阿拉伯数字代替)
slice_time str AIS当前时间对应的切片时间,格式为YYYY-MM-dd HH:MM:SS+tz
longitude float AIS航段当前位置经度
latitude float AIS航段当前位置纬度
status str AIS航段当前位置对应的船舶状态(5代表靠泊,1代表锚泊,0代表航行)
hdg float 船艏向,船艏朝向的方向
cog float 航迹向,船舶航行的方向
sog float 对地速度,船舶的对地速度
draught float AIS航段当前位置的吃水

船舶AIS信息数据测试集_真值共有97条船舶的58765条AIS信息数据,该数据集是船舶AIS信息数据测试集的后续航程轨迹,数据说明如下:

列名 类型 说明
ship_name int 船舶的名称(已用阿拉伯数字代替)
ship_mmsi str 船舶的MMSI号码
start_port_code str 起始港口的代码
end_port_code str 目的港口的代码
leg_start_postime str 航段开始的时间,格式为yyyy-MM-dd HH:mm:ss+tz
leg_end_postime str 航段结束的时间,格式为yyyy-MM-dd HH:mm:ss+tz
route_line str 航线的表示,格式为WKT(Well-Known Text)的LINESTRING类型
distance float 航段距离,单位为海里
leg_end_port_code str AIS当前航段的目的港

港口静态信息数据包含154条港口的静态信息,数据格式说明如下:

列名 类型 说明
port_code str 港口代码(字符串类型)
ctry_code str 国家代码(字符串类型)
name_en str 英文名称(字符串类型)
name_cn str 中文名称(字符串类型)
lon float 经度(浮点数类型)
lat float 纬度(浮点数类型)
timezone_offset int 时区偏移(整数类型,单位为小时)

赛题作品要求及评分规则

一、数据下载

赛题 下载链接
赛题 A : 全球航运预抵识别 数据下载
赛题 B : 全球航运轨迹预测 数据下载

二、提交要求

参赛队伍需提交一个包含研究报告、预测结果、模型源代码(需要清晰注释)和程序运行环境说明的ZIP压缩文件。

三、考评要求

满分100分,由下面3部分构成:

  1. 研究报告需介绍研发思路和结论,该部分占比50%;
  2. 模型预测结果需解决赛题任务,该部分占比25%;
  3. 模型源代码需体现完整性并添加清晰的注释,该部分占比25%。
赛题 研究报告 模型预测结果 模型源代码 总分
全球航运预抵识别 50分 25分 25分 100分
全球航运轨迹预测 50分 25分 25分 100分

四、评分细则

研究报告(50分)
评分项 评分标准 分值
问题分析与数据理解 准确识别赛题核心目标(港口与时间预测),深入分析数据特征(如轨迹稀疏性、船型分布),明确行业痛点(如港口调度效率)。 10分
方法论与技术路线 清晰阐述模型框架(如时序预测+分类联合建模),结合航运场景优化算法(如处理轨迹中断、多船型适配)。 15分
实验设计与结果分析 包含消融实验(验证特征/模型有效性)、误差分析(如高误差样本归因)、对比实验(与基线模型如XGBoost/LSTM等对比)。 15分
文档结构与表达 逻辑清晰(问题→方法→结果),图文并茂(如架构图、特征重要性热力图),语言简洁专业。 10分
模型预测结果(25分)
评分赛题 评分标准 分值范围
全球航运预抵识别 \(19191 × \frac{25}{19191}\)分 25分
全球航运轨迹预测 \(100 × \frac{25}{100}\)分 25分
模型源代码(25分)
评分标准 分值范围
深入结合航运场景,代码可运行,代码模块化且注释完整。 21-25分
方法合理但创新性不足,代码可运行但部分冗余。 16-20分
仅实现基础功能(如逻辑回归),缺乏深度分析。 10-15分
代码抄袭或敷衍,混乱或无法运行。 0-9分

版权说明:参赛的数据与文档不可用于其他用途;代码使用权归参赛团队和船视宝双方共享使用。