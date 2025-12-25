人们谈到电商规模化时，往往关注的是一些高成本的工程挑战：分布式搜索、实时库存、推荐引擎和结账优化。但在这背后，却隐藏着一个几乎所有零售商都面临的更为隐蔽、更为持久的问题：属性值。 属性是产品发现的基石。它们驱动筛选、比较、搜索排名和推荐逻辑。但在实际产品目录中，属性值很少是干净的。它们往往不一致、重复、格式错误或语义模糊。 以 这个简单的概念为例。您可能会看到： “尺寸” 代码 ["XL", "S", "12cm", "L", "M", "S"] 或 ： 颜色 代码 ["RAL 3020", "深红色", "红色", "深红色"] 单独来看，这些不一致之处似乎无关紧要。但如果将它们乘以超过300万个SKU（每个SKU都有数十个属性），问题就会变得系统性。筛选器运行不稳定，搜索引擎的搜索结果相关性降低，商家疲于应对繁琐的手动清理工作，顾客发现商品的速度也变慢，体验更加糟糕。 这是我在 Zoro 担任全栈软件工程师时面临的挑战，这个问题很容易被忽视，但却会影响到每个产品页面。 我的方法：混合人工智能与确定性 我不想要一个神秘的黑箱式人工智能，它只会简单地对数据进行排序。这样的系统难以信任、调试和扩展。相反，我的目标是构建一个这样的流程： 可解释的 可预测的 可扩展 可由人类控制 最终成果是一个混合型人工智能流程，它结合了生命周期管理（LLM）的上下文推理、清晰的规则和商品陈列员的控制措施。它能在必要时做出智能决策，但始终保持可预测性。这是一种有安全保障的人工智能，而非失控的人工智能。 后台任务：专为吞吐量而生 所有属性处理都在离线后台作业中完成，而非实时进行。这并非妥协，而是一项战略性的架构选择。 实时流水线听起来很有吸引力，但在电子商务规模下，它们会带来以下问题： 不可预测的延迟 脆弱的依赖关系 昂贵的计算高峰 运营脆弱性 另一方面，线下工作给我们带来了： 高吞吐量：处理海量批次而不影响运行系统 韧性：故障从未影响客户流量 成本控制：计算任务可以安排在流量低谷时段进行。 隔离性：LLM延迟从未影响产品页面 一致性：更新是原子性的且可预测的。 在处理数百万个 SKU 时，将面向客户的系统与数据处理管道分开至关重要。 清洗和标准化 在对数据应用人工智能之前，我先进行了一个清晰的预处理步骤，以去除噪声和干扰因素。这一步骤看似简单，但却极大地提升了逻辑推理模型（LLM）的推理能力。 清洗流程包括： 修剪空白 删除空值 去重值 将类别面包屑扁平化为上下文字符串 这确保了LLM接收到清晰准确的输入，这是获得稳定结果的关键。输入垃圾数据，输出也垃圾数据。在这种规模下，即使是微小的错误也可能导致后续更大的问题。 具有上下文的 LLM 服务 LLM 不仅仅是按字母顺序对数值进行排序，它还对这些数值进行推理。 所接受的服务： 已清理的属性值 类别面包屑 属性元数据 有了这样的背景，模型就能理解： 中的“电压”是一个数值。 电动工具 中的“尺码”遵循着一个已知的发展规律。 服装 中的“颜色”可能遵循 RAL 标准 油漆 中的“材料”具有语义关系 硬件 模型返回结果： 有序值 精细化属性名称 决策：确定性排序还是情境性排序 这样一来，管道就可以处理不同的属性类型，而无需为每个类别硬编码规则。 确定性回退 并非所有属性都需要人工智能。 事实上，许多属性用确定性逻辑处理会更好。 数值范围、基于单位的值和简单集合通常受益于： 更快的处理速度 可预测的顺序 成本更低 零歧义 该流程会自动检测这些情况，并采用确定性逻辑进行处理。这既保证了系统的高效性，又避免了不必要的LLM调用。 手动标记与LLM标记 商家仍然需要控制权，尤其是一些对业务敏感的属性。 因此，每个类别都可以标记为： LLM_SORT — 让模型决定 手动排序 — 商品陈列员定义排序方式 这种双标签系统让人们可以做出最终决策，而人工智能则完成了大部分工作。它还建立了信任，因为商家可以在需要时调整模型，而不会中断销售流程。 坚持与控制 所有结果都直接存储在产品 MongoDB 数据库中，保持架构简单集中。 MongoDB 成为以下应用的唯一运营存储： 已排序的属性值 精细化属性名称 类别级排序标签 产品级排序字段 这样就可以轻松地查看更改、覆盖值、重新处理类别以及与其他系统同步。 搜索集成 分类完成后，数值流入： Elasticsearch 用于关键词驱动搜索 Vespa 用于语义和基于向量的搜索 这确保了： 筛选器按逻辑顺序排列 产品页面显示一致的属性 搜索引擎对产品进行更准确的排名 顾客可以更轻松地浏览类别。 在搜索中，属性排序最为明显，一致性也最为重要。 架构概述 为了使该系统能够应用于数百万个 SKU，我设计了一个模块化流程，该流程围绕后台作业、AI 推理和搜索集成构建。下图展示了完整的流程： 产品数据从产品信息系统输入 属性提取作业会提取属性值和类别上下文 这些信息将传递给人工智能分拣服务。 更新后的产品文档会写入产品 MongoDB 数据库。 出站同步作业会将排序顺序更新到产品信息系统中。 Elasticsearch 和 Vespa 同步作业会将排序后的数据推送到各自的搜索系统中。 API 服务将 Elasticsearch 和 Vespa 连接到客户端应用程序。 此流程确保每个属性值（无论是由 AI 排序还是手动设置）都能反映在搜索、商品销售和客户体验中。 实际解决方案 以下是对混乱数值的转换过程： 属性 原始值 有序输出 尺寸 XL、S、12厘米、L、M、S 小号、中号、大号、加大号、12厘米 颜色 RAL 3020，深红色，红色，暗红色 红色、深红色、深红色、红色（RAL 3020） 材料 钢、碳钢、不锈钢、不锈钢 钢、不锈钢、碳钢 数字 5厘米、12厘米、2厘米、20厘米 2厘米、5厘米、12厘米、20厘米 这些例子表明，该流程如何将上下文推理与清晰的规则相结合，从而创建清晰、易于理解的序列。 为什么选择离线作业而不是实时处理？ 实时处理本应带来以下好处： 不可预测的延迟 更高的计算成本 脆弱的依赖关系 运营复杂性 线下工作给我们带来了： 批次效率 异步LLM调用 重试逻辑和错误队列 人工审核窗口 可预测的计算支出 这样做的代价是数据摄取和显示之间存在一点延迟，但好处是能够大规模地保持一致性，而客户更看重这一点。 影响 结果意义重大： 300多万个SKU的属性顺序保持一致 通过确定性回退实现可预测的数值排序 商品陈列员通过人工贴标签进行控制 更简洁的产品页面和更直观的筛选器 提高搜索相关性 客户信心和转化率更高 这不仅是一次技术上的胜利，也是一次用户体验和收入上的胜利。 经验教训 混合流水线在规模化应用中优于纯人工智能。安全防护措施至关重要。 上下文显著提高了LLM的准确性 离线作业对于吞吐量和系统弹性至关重要。 人为干预机制能够建立信任和促进用户采纳。 干净的输入是可靠人工智能输出的基础 最后想说 对属性值进行排序听起来很简单，但当需要对数百万种产品进行排序时，就变成了一项真正的挑战。 通过将 LLM 智能与明确的规则和商品销售控制相结合，我将一个复杂、隐蔽的问题转化为一个清晰、可扩展的系统。 这提醒我们，一些最大的成功来自于解决那些枯燥乏味的问题，那些容易被忽视但却出现在每个产品页面上的问题。