航运行业首个专业知识评测基准,评估与提升 AI 模型在关键航运知识点上的理解与推理能力

航运领域对专业知识的准确性要求极高,涉及航海、轮机、电子电气员、GMDSS 以及船员培训等核心模块。通用大模型在该领域常出现术语理解不足、知识点混淆、推理不严谨等问题,影响其在船舶管理、导航操作、海上通信与培训测评等场景的可靠落地。
MaritimeBench 是航运行业首个基于"学科(一级)- 子学科(二级)- 具体考点(三级)"分类体系构建的专业知识评测集,包含 1888 道客观单选题,题目源自真实行业考试题库与专业教材,严格遵循行业权威标准,难度分布合理、覆盖全面,可用于评估与提升 AI 模型在关键航运知识点上的理解与推理能力,并可服务于航运专业考试、船员培训与资质认证的自动化测评需求。
本赛题以 MaritimeBench 为统一评测基准,参赛者在固定基座模型约束下,通过微调、提示工程、知识增强方式、智能体方式或工作流方式提升准确率。
任务名称:航运专业知识单选题作答(Multiple Choice QA)
对于评测集中每一道单选题,模型会收到一个由"任务指令 + 1 个上下文样例(in-context example)+ 当前题目与选项"组成的 prompt。参赛者需要让模型输出该题的唯一正确选项。
[A] / [B] / [C] / [D]HiDolphin/MaritimeBench
evalscope 中 benchmark 名称:maritime_bench
1888 道客观单选题
航海、轮机、电子电气员、GMDSS、船员培训等
学科(一级)- 子学科(二级)- 考点(三级)
相关链接:
评测时使用如下模板(内含 1 个示例题,用于演示输出格式):
[C]本赛题唯一允许使用的基座模型为:Qwen3-8B
评测指标为 acc,定义如下:
re.search(r'\[([A-D])\]', prediction)说明:目前评测以代码为准。本赛题最终版默认以现有 evalscope v1.4.2 版本代码执行。
参赛队伍必须按要求提交完整材料,以确保结果可复现、可审计、可用于教学复盘。所有提交材料默认使用 UTF-8 编码;除特别说明外,建议以压缩包形式提交(如 teamname_submission.zip)。
技术报告(Word/PDF)
提交一份技术报告
预测结果 JSONL 文件
使用 evalscope 进行评测产出的预测结果 jsonl 文件。(此项为唯一用于最终评分的提交结果。其他材料用于合规核验与复现检查。)
训练数据(如涉及训练/微调)
若你的方案包含任何形式的训练(如 SFT/LoRA/QLoRA/继续预训练/偏好对齐等),必须同时提交:训练数据本体、数据字段说明与数据来源说明、数据处理脚本或处理流程说明。
知识库或图谱数据(如涉及 RAG / GraphRAG)
若你的方案使用检索增强(RAG)或图检索增强(GraphRAG),必须提交:
项目代码或工作流配置(如涉及 Agent / Workflow)
若你的方案包含 Agent、多工具调用、工作流编排,必须提交:
evalscope eval \
--model your_model_name \
--api-url your_api_url \
--api-key your_api_key \
--eval-type openai_api \
--datasets maritime_bench见附件。