Kaggle MAP:学生数学误区识别竞赛方案复盘

891 字
4 分钟
Kaggle MAP:学生数学误区识别竞赛方案复盘

相关资源#

比赛在做什么#

MAP(Misconception Annotation Project)比赛的核心目标是:

  • 根据学生的数学开放式解释文本,自动识别其潜在误解类型
  • 输出每个样本的 Top-3 候选标签(Category:Misconception
  • 使用 MAP@3 评估模型在前 3 个候选中的命中质量

这项任务的实际价值在于,帮助教师更高效地定位学生“看起来会做题、但概念理解有偏差”的关键问题,从而支持更有针对性的教学反馈。

通俗解释#

可以把它理解成一个“自动阅卷助教”:

  • 它不只看学生答案对不对,还会读学生写的“为什么这么做”
  • 然后判断这个学生最可能属于哪种“理解误区”
  • 每题给出 3 个最可能的误区(Top-3),用于老师快速定位问题

比如一道小数比较题,学生说“0.355 比 0.8 大,因为 355 比 8 大”。

  • 模型要识别这背后的误区是“把小数当整数位数比较”
  • 如果这个正确误区被排在第 1 个,得分最高
  • 排在第 2 或第 3 个也有分,但更低
  • 前 3 个都没猜中就 0 分

这就是 MAP@3 的直觉:猜中很重要,猜中的位置越靠前越好

MAP 比赛任务概览
MAP 比赛任务概览

我在项目中的主要工作#

  • 设计并实现多模型融合方案,组合 10 个大语言模型进行协同预测
  • 负责核心训练策略调优(LoRA 微调 + Focal Loss)
  • 迭代提示词工程,从自然文本输入优化到结构化 XML 输入
  • 设计集成打分机制,提升最终 Top-3 预测质量

方法核心#

1) 多模型协同与模型多样性#

方案整合了 4 个自训练模型和 6 个公开预训练模型,覆盖 Qwen、DeepSeek、Hunyuan 等不同架构,利用模型差异性降低单模型偏差。

2) 训练策略优化#

  • Focal Loss:缓解 Misconception 类别不平衡问题,提升难样本学习能力
  • LoRA 微调:在有限算力下高效适配任务,兼顾训练速度与效果

3) 提示词工程与输入结构化#

将输入从普通文本逐步优化为结构化 XML 格式,让模型更清晰地理解“题干—作答—解释”的语义关系,降低歧义噪声。

4) 集成层三重评分#

最终预测不是简单投票,而是融合三类信号:

  • 基础概率分
  • 模型一致性分
  • 置信度分

并结合模型性能做精细化加权,输出更稳定的 Top-3 候选结果。

方案流程图
方案流程图
Kaggle MAP 比赛银牌照片
Kaggle MAP 竞赛银牌

结果与产出#

  • 在 Kaggle MAP 竞赛中获得 银牌
  • 在精度与效率之间取得较优平衡
  • 形成可复用的教育 NLP 误解识别技术框架

我的收获#

  • 对“任务定义—训练策略—集成决策”全链路优化有了系统理解
  • 在真实竞赛约束下,强化了模型工程化与快速迭代能力
  • 更清晰地理解了教育 AI 场景中“可解释误差诊断”的落地价值

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

Kaggle MAP:学生数学误区识别竞赛方案复盘
https://example.com/posts/interview/07-kaggle-map-silver/
作者
王睿之
发布于
2025-10-20
许可协议
CC BY-NC-SA 4.0
最后更新于 2025-10-20,距今已过 160 天

部分内容可能已过时

Profile Image of the Author
王睿之
浙大 AI 方向硕士生|CV/多模态学习|AAAI & CVPR Findings 一作 | 校十佳大学生 | 国家奖学金
个人主页导航
欢迎访问我的个人作品站。可优先查看首页置顶的 6 篇项目/实习文章,快速了解科研与工程能力。
分类
标签
站点统计
文章
7
分类
4
标签
30
总字数
11,522
运行时长
0
最后活动
0 天前

目录