船视宝主题赛道
第二十一届全国大学生交通运输科技大赛
赛题二

MaritimeBench 航运知识挑战

航运行业首个专业知识评测基准,评估与提升 AI 模型在关键航运知识点上的理解与推理能力

赛题背景

MaritimeBench 航运知识挑战

航运领域对专业知识的准确性要求极高,涉及航海、轮机、电子电气员、GMDSS 以及船员培训等核心模块。通用大模型在该领域常出现术语理解不足、知识点混淆、推理不严谨等问题,影响其在船舶管理、导航操作、海上通信与培训测评等场景的可靠落地。

MaritimeBench 是航运行业首个基于"学科(一级)- 子学科(二级)- 具体考点(三级)"分类体系构建的专业知识评测集,包含 1888 道客观单选题,题目源自真实行业考试题库与专业教材,严格遵循行业权威标准,难度分布合理、覆盖全面,可用于评估与提升 AI 模型在关键航运知识点上的理解与推理能力,并可服务于航运专业考试、船员培训与资质认证的自动化测评需求。

本赛题以 MaritimeBench 为统一评测基准,参赛者在固定基座模型约束下,通过微调、提示工程、知识增强方式、智能体方式或工作流方式提升准确率。

赛题任务

任务名称:航运专业知识单选题作答(Multiple Choice QA)

对于评测集中每一道单选题,模型会收到一个由"任务指令 + 1 个上下文样例(in-context example)+ 当前题目与选项"组成的 prompt。参赛者需要让模型输出该题的唯一正确选项。

强制输出要求

  • 只允许输出一个选项字母,且必须放在英文方括号中:[A] / [B] / [C] / [D]
  • 不要求输出解释;评测只解析方括号内的选项字母

数据描述

评测数据集

HiDolphin/MaritimeBench

evalscope 中 benchmark 名称:maritime_bench

题目规模

1888 道客观单选题

领域覆盖

航海、轮机、电子电气员、GMDSS、船员培训等

分类体系

学科(一级)- 子学科(二级)- 考点(三级)

数据样本的评测 Prompt 结构(固定)

评测时使用如下模板(内含 1 个示例题,用于演示输出格式):

  • 指令:要求只输出选项,将选项放在 [] 中
  • 示例题:给出题干、选项与示例答案 [A]
  • 当前题目:题干 question + 选项 choices(格式为 A. ...、B. ... 等)
  • 模型需要在最后输出例如 [C]

模型与方法约束

固定基座模型

本赛题唯一允许使用的基座模型为:Qwen3-8B

https://modelscope.cn/models/Qwen/Qwen3-8B

约束限制

  • 允许参赛者进行 SFT / LoRA / QLoRA / 继续预训练 / 偏好对齐等训练方式,但所用基模必须是 Qwen3-8B
  • 允许参赛者进行 RAG / GraphRAG 等方式挂载航运知识,但所用基模必须是 Qwen3-8B
  • 允许参赛者进行 Agent / Workflow 等技术构建智能体或工作流,但所用基模必须是 Qwen3-8B

禁止事项

  • 禁止使用互联网检索工具
  • 禁止更换为任何其他基座模型(包括但不限于其他 Qwen 版本、Llama、DeepSeek、GLM 等)
  • 禁止通过手工规则"按题库背答案/硬编码映射"绕过模型推理(如发现可判无效)
  • 禁止直接将评测集数据作为 SFT / LoRA / QLoRA / 继续预训练 / 偏好对齐等训练方式的知识来源
  • 禁止直接将评测集数据作为 RAG / GraphRAG 的知识来源
  • 禁止直接将评测集数据作为 Agent / Workflow 的知识来源

模型预测结果评分标准

主指标:准确率(Accuracy / acc)

评测指标为 acc,定义如下:

  • 对每道题,评测程序用正则提取模型输出中的答案:
    • 解析规则:re.search(r'\[([A-D])\]', prediction)
    • 若匹配到,取括号内字母作为预测答案
    • 若匹配不到,预测答案为空字符串,视为答错
  • 单题得分:
    • 预测 == 标准答案:1
    • 否则:0
  • 总分:acc = 正确题数 / 总题数

输出格式的判分规则(与评测一致)

  • 只要输出文本中出现形如 [A]~[D] 的片段即可被解析(即使同时输出了其他文字)
  • 若输出为 <C>、C、【C】、[c]、[E]、[AC] 等,均无法被当前解析规则正确处理(会判错或提取失败)

说明:目前评测以代码为准。本赛题最终版默认以现有 evalscope v1.4.2 版本代码执行。

提交要求

参赛队伍必须按要求提交完整材料,以确保结果可复现、可审计、可用于教学复盘。所有提交材料默认使用 UTF-8 编码;除特别说明外,建议以压缩包形式提交(如 teamname_submission.zip)。

提交清单

1

技术报告(Word/PDF)

提交一份技术报告

2

预测结果 JSONL 文件

使用 evalscope 进行评测产出的预测结果 jsonl 文件。(此项为唯一用于最终评分的提交结果。其他材料用于合规核验与复现检查。)

3

训练数据(如涉及训练/微调)

若你的方案包含任何形式的训练(如 SFT/LoRA/QLoRA/继续预训练/偏好对齐等),必须同时提交:训练数据本体、数据字段说明与数据来源说明、数据处理脚本或处理流程说明。

4

知识库或图谱数据(如涉及 RAG / GraphRAG)

若你的方案使用检索增强(RAG)或图检索增强(GraphRAG),必须提交:

  • RAG:知识库语料数据(原始文档/分块后的 chunks/索引构建输入等至少一种"可复现重建"的数据形式)
  • GraphRAG:知识图谱三元组数据(如 (head, relation, tail)),并说明实体/关系 schema
  • 数据来源说明与合规声明
5

项目代码或工作流配置(如涉及 Agent / Workflow)

若你的方案包含 Agent、多工具调用、工作流编排,必须提交:

  • Agent 项目代码(最小可运行版本)或工作流配置文件(如 YAML/JSON 等)与运行说明
  • 所需依赖与环境说明(requirements/conda 环境文件等)

附录

1. 评测参考代码

evalscope eval \
  --model your_model_name \
  --api-url your_api_url \
  --api-key your_api_key \
  --eval-type openai_api \
  --datasets maritime_bench

2. 参考提交的 JSONL 文件

见附件。

赛题资料