本赛道主要围绕航运数据中的算法优化与智能预测展开。
随着航运产业数字化进程的不断加速,大规模船舶数据(包括地理位置、历史轨迹、船舶属性等)的积累为智能决策提供了充分的可能性。如何充分利用这些海量数据,高效挖掘关键特征,准确预测船舶抵达时间和航行轨迹,对优化港口调度、保障航运安全、促进绿色发展都有深远意义。
本赛道鼓励参赛者采用机器学习、深度学习、时空数据分析等前沿技术,通过实战化场景解决真实行业痛点,为智能航运提供更具价值的算法和工具。
随着全球化的发展,海上运输在国际贸易中占据核心地位。为了优化物流管理和减少运输延误,准确预测船舶的抵达时间和抵达港口变得至关重要。本次挑战赛旨在通过分析船舶动态信息数据,提高港口到港口预测的准确性,从而助力全球物流行业的效率提升。
参赛者需要利用提供的船舶动态信息数据集,建立模型预测船舶的预计抵达港口(end_port_code)和预计抵达时间(leg_end_postime)。选手需要自行进行数据预处理操作,应当充分利用提供数据集中各个字段的特征,并构建算法模型来预测船舶的预计抵达港口和预计抵达时间。
选手需要同时预测船舶的预计抵达港口与预计抵达时间,即预测结果需包括每条船舶的预计抵达港口和预计抵达时间。当预计抵达港口预测错误时,该次动态的预测结果,该次动态的预测得分将得0分。当预计抵达港口预测正确时,将继续评估预计抵达时间与实际抵达时间的差值,单位为小时,如果预计抵达时间与真实抵达时间差值不超过7天,则计算( 168 - 预测时间)与168的比值为该次动态的预测得分。
如果预计抵达时间与真实抵达时间差值超过7天,该次动态的预测得分将得0分。
预测结果评分标准公式为:
船舶动态信息数据测试集共有19191条数据,则该模型预测结果满分为19191分。
船舶动态信息数据训练集共有807条船舶的33968条船舶动态数据,船舶动态信息数据训练集格式说明:
列名 | 类型 | 说明 |
---|---|---|
ship_mmsi | str | 船舶的MMSI号码 |
start_port_code | str | 起始港口的代码 |
end_port_code | str | 目的港口的代码 |
leg_start_postime | str | 航段开始的时间,格式为yyyy-MM-dd HH:mm:ss+tz |
leg_end_postime | str | 航段结束的时间,格式为yyyy-MM-dd HH:mm:ss+tz |
route_line | str | 航线的表示,格式为WKT(Well-Known Text)的LINESTRING类型 |
distance | float | 航段距离,单位为海里 |
船舶动态信息数据测试集共有807条船舶的19191条船舶动态数据,船舶动态数据测试集格式说明:
列名 | 类型 | 说明 |
---|---|---|
uuid | str | 唯一标识符,用于区分每条记录的独特ID |
ship_mmsi | str | 脱敏后的船舶MMSI号,用于标识船舶的唯一号码 |
start_port_code | str | 起始港口代码,表示货物出发的港口 |
leg_start_postime | datetime | 起始航段的开始时间,格式为:yyyy-MM-dd HH:mm:ss+tz |
end_port_code | str | 需补充提交,目的港口代码,表示货物到达的港口 |
leg_end_postime | datetime | 需补充提交,起始航段的结束时间,格式为:yyyy-MM-dd HH:mm:ss+tz |
船舶静态信息数据包含843条船舶的静态信息,船舶静态信息数据格式说明:
列名 | 类型 | 说明 |
---|---|---|
ship_mmsi | str | 船舶的MMSI号 |
vessel_type | int | 船舶类型代码 |
vessel_sub_type | int | 船舶子类型代码 |
build_year | int | 船舶建造年份 |
deadweight | int | 船舶的载重吨 |
length | float | 船舶的长度(米) |
width | float | 船舶的宽度(米) |
height | float | 船舶的高度(米) |
draught | float | 船舶的吃水深度(米) |
max_speed | float | 船舶的最大速度(节) |
船舶静态信息数据(船型映射关系表)包含6类船舶的类型映射关系,与41个船舶子类型映射关系,船舶静态信息数据格式说明:
列名 | 类型 | 说明 |
---|---|---|
dict_type | str | 字典类型(字符串类型) |
dict_code | str | 字典代码(字符串类型) |
parent_code | str | 父级字典代码,可为空(字符串类型),仅当dict_type为vessel_sub_type时不为空 |
name_en | str | 英文名称(字符串类型) |
name_cn | str | 中文名称(字符串类型) |
港口静态信息数据包含1101个港口的地理位置数据,港口静态信息数据格式说明:
列名 | 类型 | 说明 |
---|---|---|
port_code | str | 港口代码(字符串类型) |
ctry_code | str | 国家代码(字符串类型) |
name_en | str | 英文名称(字符串类型) |
name_cn | str | 中文名称(字符串类型) |
lon | float | 经度(浮点数类型) |
lat | float | 纬度(浮点数类型) |
timezone_offset | int | 时区偏移(整数类型,单位为小时) |
全球贸易飞速发展的当下,水上交通占据主导地位。不同于有固定道路的路上交通,水上交通更为复杂,路径规划更具挑战性。为提升船舶水上交通的决策水平,准确生成船舶的轨迹至关重要。本次挑战赛旨在通过分析船舶AIS信息数据,较为准确地生成在途船舶的剩余航行轨迹,从而提升水上交通的管理水平。
参赛者需要利用提供的船舶AIS信息数据集,构建模型预测在途船舶的剩余轨迹(一系列longitude和latitude)。选手需要自行进行数据预处理操作,应当充分利用提供数据集中各个字段的特征,并搭建算法模型来进行在途船舶的剩余轨迹生成,并要求模型可以自主判断是否停止生成,从而达到模拟到港的效果。
选手需要生成在途船舶的剩余轨迹并使模型自主停止生成,以模拟到港。当模型生成的剩余轨迹长度为0时,该次轨迹生成的得分将是0分。当模型生成的剩余轨迹长度大于等于1时,将继续比较选手生成的轨迹和真实轨迹之间的差距,匹配与选手生成的轨迹点的对应时间最接近的真实点,并计算匹配后的生成轨迹点和真实点之间的距离之和D1。若选手生成的轨迹点数与真实的轨迹点数不匹配,则未匹配上的点数将与经纬度都为0的虚拟点计算距离并求和D2。100/(1+D1+D2)即为该条轨迹生成的分数F,满分为100分。
假设测试集中有n条航段轨迹,则最终的评分将为:
其中,\(D_1\),\(D_2\),\(F\) 的具体计算公式如下:
最终模型预测结果评分满分为100分。
参赛队伍需提交一个包含模型代码和预测结果的压缩文件。预测结果需包括每条航段的给定轨迹和特征参数,以及生成的轨迹。
船舶AIS信息数据训练集共有100条船舶的295810条AIS信息数据(ship_name在三张船舶AIS信息表中贯穿一致),数据说明如下:
列名 | 类型 | 说明 |
---|---|---|
ship_name | int | 船舶的名称(已用阿拉伯数字代替) |
ship_mmsi | str | 船舶的MMSI号码 |
start_port_code | str | 起始港口的代码 |
end_port_code | str | 目的港口的代码 |
leg_start_postime | str | 航段开始的时间,格式为yyyy-MM-dd HH:mm:ss+tz |
leg_end_postime | str | 航段结束的时间,格式为yyyy-MM-dd HH:mm:ss+tz |
route_line | str | 航线的表示,格式为WKT(Well-Known Text)的LINESTRING类型 |
distance | float | 航段距离,单位为海里 |
船舶AIS信息数据测试集共有97条船舶的59560条AIS信息数据,slice_time为三小时一个点位,选手需要自行判断航段划分,数据说明如下:
列名 | 类型 | 说明 |
---|---|---|
ship_name | int | 船舶的名称(已用阿拉伯数字代替) |
slice_time | str | AIS当前时间对应的切片时间,格式为YYYY-MM-dd HH:MM:SS+tz |
longitude | float | AIS航段当前位置经度 |
latitude | float | AIS航段当前位置纬度 |
status | str | AIS航段当前位置对应的船舶状态(5代表靠泊,1代表锚泊,0代表航行) |
hdg | float | 船艏向,船艏朝向的方向 |
cog | float | 航迹向,船舶航行的方向 |
sog | float | 对地速度,船舶的对地速度 |
draught | float | AIS航段当前位置的吃水 |
船舶AIS信息数据测试集共有97条船舶的59560条AIS信息数据,slice_time为三小时一个点位,选手需要自行判断航段划分,数据说明如下:
列名 | 类型 | 说明 |
---|---|---|
ship_name | int | 船舶的名称(已用阿拉伯数字代替) |
slice_time | str | AIS当前时间对应的切片时间,格式为YYYY-MM-dd HH:MM:SS+tz |
longitude | float | AIS航段当前位置经度 |
latitude | float | AIS航段当前位置纬度 |
status | str | AIS航段当前位置对应的船舶状态(5代表靠泊,1代表锚泊,0代表航行) |
hdg | float | 船艏向,船艏朝向的方向 |
cog | float | 航迹向,船舶航行的方向 |
sog | float | 对地速度,船舶的对地速度 |
draught | float | AIS航段当前位置的吃水 |
船舶AIS信息数据测试集_真值共有97条船舶的58765条AIS信息数据,该数据集是船舶AIS信息数据测试集的后续航程轨迹,数据说明如下:
列名 | 类型 | 说明 |
---|---|---|
ship_name | int | 船舶的名称(已用阿拉伯数字代替) |
ship_mmsi | str | 船舶的MMSI号码 |
start_port_code | str | 起始港口的代码 |
end_port_code | str | 目的港口的代码 |
leg_start_postime | str | 航段开始的时间,格式为yyyy-MM-dd HH:mm:ss+tz |
leg_end_postime | str | 航段结束的时间,格式为yyyy-MM-dd HH:mm:ss+tz |
route_line | str | 航线的表示,格式为WKT(Well-Known Text)的LINESTRING类型 |
distance | float | 航段距离,单位为海里 |
leg_end_port_code | str | AIS当前航段的目的港 |
港口静态信息数据包含154条港口的静态信息,数据格式说明如下:
列名 | 类型 | 说明 |
---|---|---|
port_code | str | 港口代码(字符串类型) |
ctry_code | str | 国家代码(字符串类型) |
name_en | str | 英文名称(字符串类型) |
name_cn | str | 中文名称(字符串类型) |
lon | float | 经度(浮点数类型) |
lat | float | 纬度(浮点数类型) |
timezone_offset | int | 时区偏移(整数类型,单位为小时) |
参赛队伍需提交一个包含研究报告、预测结果、模型源代码(需要清晰注释)和程序运行环境说明的ZIP压缩文件。
满分100分,由下面3部分构成:
赛题 | 研究报告 | 模型预测结果 | 模型源代码 | 总分 |
---|---|---|---|---|
全球航运预抵识别 | 50分 | 25分 | 25分 | 100分 |
全球航运轨迹预测 | 50分 | 25分 | 25分 | 100分 |
评分项 | 评分标准 | 分值 |
---|---|---|
问题分析与数据理解 | 准确识别赛题核心目标(港口与时间预测),深入分析数据特征(如轨迹稀疏性、船型分布),明确行业痛点(如港口调度效率)。 | 10分 |
方法论与技术路线 | 清晰阐述模型框架(如时序预测+分类联合建模),结合航运场景优化算法(如处理轨迹中断、多船型适配)。 | 15分 |
实验设计与结果分析 | 包含消融实验(验证特征/模型有效性)、误差分析(如高误差样本归因)、对比实验(与基线模型如XGBoost/LSTM等对比)。 | 15分 |
文档结构与表达 | 逻辑清晰(问题→方法→结果),图文并茂(如架构图、特征重要性热力图),语言简洁专业。 | 10分 |
评分赛题 | 评分标准 | 分值范围 |
---|---|---|
全球航运预抵识别 | \(19191 × \frac{25}{19191}\)分 | 25分 |
全球航运轨迹预测 | \(100 × \frac{25}{100}\)分 | 25分 |
评分标准 | 分值范围 |
---|---|
深入结合航运场景,代码可运行,代码模块化且注释完整。 | 21-25分 |
方法合理但创新性不足,代码可运行但部分冗余。 | 16-20分 |
仅实现基础功能(如逻辑回归),缺乏深度分析。 | 10-15分 |
代码抄袭或敷衍,混乱或无法运行。 | 0-9分 |
版权说明:参赛的数据与文档不可用于其他用途;代码使用权归参赛团队和船视宝双方共享使用。