MaritimeBench 航运知识挑战 - 船视宝主题赛道 - 第二十一届全国大学生交通运输科技大赛

赛题背景

航运领域对专业知识的准确性要求极高，涉及航海、轮机、电子电气员、GMDSS 以及船员培训等核心模块。通用大模型在该领域常出现术语理解不足、知识点混淆、推理不严谨等问题，影响其在船舶管理、导航操作、海上通信与培训测评等场景的可靠落地。

MaritimeBench 是航运行业首个基于"学科（一级）- 子学科（二级）- 具体考点（三级）"分类体系构建的专业知识评测集，包含 1888 道客观单选题，题目源自真实行业考试题库与专业教材，严格遵循行业权威标准，难度分布合理、覆盖全面，可用于评估与提升 AI 模型在关键航运知识点上的理解与推理能力，并可服务于航运专业考试、船员培训与资质认证的自动化测评需求。

本赛题以 MaritimeBench 为统一评测基准，参赛者在固定基座模型约束下，通过微调、提示工程、知识增强方式、智能体方式或工作流方式提升准确率。

赛题任务

任务名称：航运专业知识单选题作答（Multiple Choice QA）

对于评测集中每一道单选题，模型会收到一个由"任务指令 + 1 个上下文样例（in-context example）+ 当前题目与选项"组成的 prompt。参赛者需要让模型输出该题的唯一正确选项。

 强制输出要求 只允许输出一个选项字母，且必须放在英文方括号中：[A] / [B] / [C] / [D]
 不要求输出解释；评测只解析方括号内的选项字母

数据描述

评测数据集

HiDolphin/MaritimeBench

evalscope 中 benchmark 名称：maritime_bench

题目规模

1888 道客观单选题

领域覆盖

航海、轮机、电子电气员、GMDSS、船员培训等

分类体系

学科（一级）- 子学科（二级）- 考点（三级）

相关链接：

评测框架：https://github.com/modelscope/evalscope/tree/v1.4.2
评测数据集地址：https://modelscope.cn/datasets/HiDolphin/MaritimeBench

数据样本的评测 Prompt 结构（固定）

评测时使用如下模板（内含 1 个示例题，用于演示输出格式）：

指令：要求只输出选项，将选项放在 [] 中
示例题：给出题干、选项与示例答案 [A]
当前题目：题干 question + 选项 choices（格式为 A. ...、B. ... 等）
模型需要在最后输出例如 [C]

模型与方法约束

固定基座模型

本赛题唯一允许使用的基座模型为：Qwen3-8B

https://modelscope.cn/models/Qwen/Qwen3-8B

约束限制

 允许参赛者进行 SFT / LoRA / QLoRA / 继续预训练 / 偏好对齐等训练方式，但所用基模必须是 Qwen3-8B
 允许参赛者进行 RAG / GraphRAG 等方式挂载航运知识，但所用基模必须是 Qwen3-8B
 允许参赛者进行 Agent / Workflow 等技术构建智能体或工作流，但所用基模必须是 Qwen3-8B

禁止事项

禁止使用互联网检索工具
禁止更换为任何其他基座模型（包括但不限于其他 Qwen 版本、Llama、DeepSeek、GLM 等）
禁止通过手工规则"按题库背答案/硬编码映射"绕过模型推理（如发现可判无效）
禁止直接将评测集数据作为 SFT / LoRA / QLoRA / 继续预训练 / 偏好对齐等训练方式的知识来源
禁止直接将评测集数据作为 RAG / GraphRAG 的知识来源
禁止直接将评测集数据作为 Agent / Workflow 的知识来源

模型预测结果评分标准

主指标：准确率（Accuracy / acc）

评测指标为 acc，定义如下：

对每道题，评测程序用正则提取模型输出中的答案：
- 解析规则：re.search(r'\[([A-D])\]', prediction)
- 若匹配到，取括号内字母作为预测答案
- 若匹配不到，预测答案为空字符串，视为答错
单题得分：
- 预测 == 标准答案：1
- 否则：0
总分：acc = 正确题数 / 总题数

输出格式的判分规则（与评测一致）

只要输出文本中出现形如 [A]~[D] 的片段即可被解析（即使同时输出了其他文字）
若输出为 <C>、C、【C】、[c]、[E]、[AC] 等，均无法被当前解析规则正确处理（会判错或提取失败）

说明：目前评测以代码为准。本赛题最终版默认以现有 evalscope v1.4.2 版本代码执行。

提交要求

参赛队伍必须按要求提交完整材料，以确保结果可复现、可审计、可用于教学复盘。所有提交材料默认使用 UTF-8 编码；除特别说明外，建议以压缩包形式提交（如 teamname_submission.zip）。

提交清单

技术报告（Word/PDF）

提交一份技术报告

预测结果 JSONL 文件

使用 evalscope 进行评测产出的预测结果 jsonl 文件。（此项为唯一用于最终评分的提交结果。其他材料用于合规核验与复现检查。）

训练数据（如涉及训练/微调）

若你的方案包含任何形式的训练（如 SFT/LoRA/QLoRA/继续预训练/偏好对齐等），必须同时提交：训练数据本体、数据字段说明与数据来源说明、数据处理脚本或处理流程说明。

知识库或图谱数据（如涉及 RAG / GraphRAG）

若你的方案使用检索增强（RAG）或图检索增强（GraphRAG），必须提交：

RAG：知识库语料数据（原始文档/分块后的 chunks/索引构建输入等至少一种"可复现重建"的数据形式）
GraphRAG：知识图谱三元组数据（如 (head, relation, tail)），并说明实体/关系 schema
数据来源说明与合规声明

项目代码或工作流配置（如涉及 Agent / Workflow）

若你的方案包含 Agent、多工具调用、工作流编排，必须提交：

Agent 项目代码（最小可运行版本）或工作流配置文件（如 YAML/JSON 等）与运行说明
所需依赖与环境说明（requirements/conda 环境文件等）

附录

1. 评测参考代码

evalscope eval \
  --model your_model_name \
  --api-url your_api_url \
  --api-key your_api_key \
  --eval-type openai_api \
  --datasets maritime_bench

2. 参考提交的 JSONL 文件

见附件。

赛题资料

赛题二：MaritimeBench 航运知识挑战（说明文档）

下载

赛题二：参考提交文件（JSONL）

下载