DoorDash 新零售垂直(UGP)业务扩张中,需要将不同商户的商品数据(名称、尺寸、UPC 等字段不规范)与内部统一目录对齐。原有人工匹配效率低、一致性差。
多层匹配引擎
Layer 0 名称/图片尺寸提取 → Layer 1 尺寸兼容校验 → Layer 2 LLM 打分(logprobs)→ Layer 3 CLIP 图片相似度验证
Fine-tuned 模型
使用 DoorDash 自有 fine-tuned GPT-4o-mini 完成商品对比,logprobs 置信度输出直接用于阈值决策
视觉验证
CLIP clip-vit-base-patch32 计算图片余弦相似度(阈值 0.8);GPT-4o Vision OCR 提取包装上的尺寸信息
Devil's Advocate
高置信度匹配触发反驳验证,防止过拟合 false positive,二次校验高风险决策
成本追踪
实时统计 Token 用量(输入/输出分离),按模型单价估算 API 花费,支持批次成本分析
桌面应用
Electron 多 Tab 界面,实时进度条、日志流、Token 用量展示;打包为 Windows NSIS / macOS DMG
将纯人工商品目录匹配改造为 AI 辅助批量处理,处理速度提升数倍
多层验证(LLM + 视觉)显著降低误匹配率,Devil's Advocate 二次校验高置信度决策
实时成本追踪帮助团队控制 API 预算,优化模型选择策略
打包为桌面应用,非技术运营人员直接使用,无需配置 Python 环境
多层短路逻辑
尺寸不兼容直接拒绝,无需调用 LLM;大幅降低 API 调用量和成本。只有通过前置校验的候选才进入昂贵的 LLM + 视觉验证阶段。
Electron + Python 后端分离
Electron 主进程管理 Python subprocess,通过 localhost HTTP 通信。Python 侧保留完整 ML 生态,JS 侧专注 UI,职责清晰不相互污染。
Fine-tuned 模型的 logprobs 置信度
专门针对商品对比任务微调的模型,logprobs 置信度输出可直接用于阈值决策,比通用模型效果更稳定,也让 Devil's Advocate 触发条件有依据。