确定是否使用 Claude 进行工单路由
以下是一些关键指标,表明您应该使用像 Claude 这样的 LLM 而不是传统的机器学习方法来完成分类任务:您可用的标记训练数据有限
您可用的标记训练数据有限
传统机器学习流程需要大量标记数据集。Claude 的预训练模型只需几十个标记示例就能有效分类工单,显著减少数据准备时间和成本。
您的分类类别可能会随时间变化或演进
您的分类类别可能会随时间变化或演进
一旦建立了传统机器学习方法,改变它是一项费力且数据密集的工作。另一方面,随着您的产品或客户需求的发展,Claude 可以轻松适应类别定义的变化或新类别,无需大量重新标记训练数据。
您需要处理复杂的非结构化文本输入
您需要处理复杂的非结构化文本输入
传统机器学习模型通常难以处理非结构化数据,需要大量特征工程。Claude 的高级语言理解能力允许基于内容和上下文进行准确分类,而不是依赖严格的本体结构。
您的分类规则基于语义理解
您的分类规则基于语义理解
传统机器学习方法通常依赖词袋模型或简单模式匹配。当类别由条件而非示例定义时,Claude 擅长理解和应用底层规则。
您需要对分类决策进行可解释的推理
您需要对分类决策进行可解释的推理
许多传统机器学习模型对其决策过程提供很少的洞察。Claude 可以为其分类决策提供人类可读的解释,建立对自动化系统的信任,并在需要时便于轻松适应。
您希望更有效地处理边缘情况和模糊工单
您希望更有效地处理边缘情况和模糊工单
传统机器学习系统通常难以处理异常值和模糊输入,经常错误分类或默认为通用类别。Claude 的自然语言处理能力使其能够更好地解释支持工单中的上下文和细微差别,可能减少需要人工干预的错误路由或未分类工单数量。
您需要多语言支持而无需维护单独的模型
您需要多语言支持而无需维护单独的模型
传统机器学习方法通常需要为每种支持的语言建立单独的模型或进行大量翻译过程。Claude 的多语言能力使其能够分类各种语言的工单,无需单独的模型或大量翻译过程,简化了对全球客户群的支持。
构建和部署您的 LLM 支持工作流
了解您当前的支持方法
在深入自动化之前,了解您现有的工单系统至关重要。首先调查您的支持团队目前如何处理工单路由。 考虑以下问题:- 使用什么标准来确定应用什么 SLA/服务产品?
- 工单路由是否用于确定工单分配给哪个支持层级或产品专家?
- 是否已有任何自动化规则或工作流?在什么情况下它们会失败?
- 如何处理边缘情况或模糊工单?
- 团队如何优先处理工单?
定义用户意图类别
明确定义的用户意图类别列表对于使用 Claude 进行准确的支持工单分类至关重要。Claude 在您系统内有效路由工单的能力与您系统类别的明确定义程度成正比。 以下是一些示例用户意图类别和子类别。技术问题
技术问题
- 硬件问题
- 软件错误
- 兼容性问题
- 性能问题
账户管理
账户管理
- 密码重置
- 账户访问问题
- 账单查询
- 订阅变更
产品信息
产品信息
- 功能查询
- 产品兼容性问题
- 价格信息
- 可用性查询
用户指导
用户指导
- 操作方法问题
- 功能使用协助
- 最佳实践建议
- 故障排除指导
反馈
反馈
- 错误报告
- 功能请求
- 一般反馈或建议
- 投诉
订单相关
订单相关
- 订单状态查询
- 运输信息
- 退货和换货
- 订单修改
服务请求
服务请求
- 安装协助
- 升级请求
- 维护安排
- 服务取消
安全问题
安全问题
- 数据隐私查询
- 可疑活动报告
- 安全功能协助
合规和法律
合规和法律
- 监管合规问题
- 服务条款查询
- 法律文档请求
紧急支持
紧急支持
- 关键系统故障
- 紧急安全问题
- 时间敏感问题
培训和教育
培训和教育
- 产品培训请求
- 文档查询
- 网络研讨会或工作坊信息
集成和 API
集成和 API
- 集成协助
- API 使用问题
- 第三方兼容性查询
建立成功标准
与您的支持团队合作,定义明确的成功标准,包括可衡量的基准、阈值和目标。 以下是使用 LLM 进行支持工单路由时的一些标准标准和基准:分类一致性
分类一致性
此指标评估 Claude 随时间对相似工单分类的一致性。这对于维护路由可靠性至关重要。通过定期使用一组标准化输入测试模型来衡量,目标是达到 95% 或更高的一致性率。
适应速度
适应速度
这衡量 Claude 适应新类别或变化的工单模式的速度。通过引入新的工单类型并测量模型在这些新类别上达到满意准确率(例如 >90%)所需的时间来测试。目标是在 50-100 个样本工单内适应。
多语言处理
多语言处理
这评估 Claude 准确路由多种语言工单的能力。测量不同语言的路由准确率,目标是非主要语言的准确率下降不超过 5-10%。
边缘情况处理
边缘情况处理
这评估 Claude 在异常或复杂工单上的表现。创建边缘情况测试集并测量路由准确率,目标是在这些具有挑战性的输入上至少达到 80% 的准确率。
偏见缓解
偏见缓解
这衡量 Claude 在不同客户人口统计数据间路由的公平性。定期审核路由决策的潜在偏见,目标是在所有客户群体中保持一致的路由准确率(在 2-3% 范围内)。
提示效率
提示效率
在最小化令牌数量至关重要的情况下,此标准评估 Claude 在最少上下文下的表现。测量提供不同数量上下文时的路由准确率,目标是仅使用工单标题和简要描述就达到 90%+ 的准确率。
可解释性评分
可解释性评分
这评估 Claude 对其路由决策解释的质量和相关性。人类评分员可以按比例(例如 1-5)对解释进行评分,目标是达到 4 或更高的平均分数。
路由准确率
路由准确率
路由准确率衡量工单首次正确分配给适当团队或个人的频率。这通常以正确路由工单占总工单的百分比来衡量。行业基准通常目标是 90-95% 的准确率,尽管这可能因支持结构的复杂性而有所不同。
分配时间
分配时间
此指标跟踪工单提交后分配的速度。更快的分配时间通常导致更快的解决和更高的客户满意度。一流的系统通常实现平均分配时间少于 5 分钟,许多系统目标是近乎即时的路由(这在 LLM 实现中是可能的)。
重新路由率
重新路由率
重新路由率表示初始路由后需要重新分配的工单频率。较低的率表明初始路由更准确。目标是重新路由率低于 10%,顶级系统达到 5% 或更低的率。
首次联系解决率
首次联系解决率
这衡量在与客户首次互动期间解决的工单百分比。较高的率表明高效的路由和准备充分的支持团队。行业基准通常范围从 70-75%,顶级表现者达到 80% 或更高的率。
平均处理时间
平均处理时间
平均处理时间衡量从开始到结束解决工单所需的时间。高效的路由可以显著减少这个时间。基准因行业和复杂性而差异很大,但许多组织目标是将非关键问题的平均处理时间保持在 24 小时以下。
客户满意度评分
客户满意度评分
通常通过互动后调查来衡量,这些评分反映客户对支持过程的整体满意度。有效的路由有助于提高满意度。目标是 CSAT 评分达到 90% 或更高,顶级表现者通常达到 95%+ 的满意率。
升级率
升级率
这衡量工单需要升级到更高支持层级的频率。较低的升级率通常表明更准确的初始路由。努力实现低于 20% 的升级率,一流系统达到 10% 或更低的率。
代理生产力
代理生产力
此指标查看实施路由解决方案后代理能够有效处理多少工单。改进的路由应该提高生产力。通过跟踪每个代理每天或每小时解决的工单来衡量,目标是在实施新路由系统后提高 10-20%。
自助服务转移率
自助服务转移率
这衡量在进入路由系统之前通过自助服务选项解决的潜在工单百分比。较高的率表明有效的预路由分流。目标是 20-30% 的转移率,顶级表现者达到 40% 或更高的率。
每工单成本
每工单成本
此指标计算解决每个支持工单的平均成本。高效的路由应该有助于随时间降低这个成本。虽然基准差异很大,但许多组织目标是在实施改进的路由系统后将每工单成本降低 10-15%。
选择合适的 Claude 模型
模型的选择取决于成本、准确性和响应时间之间的权衡。 许多客户发现claude-3-5-haiku-20241022 是工单路由的理想模型,因为它是 Claude 3 系列中最快且最具成本效益的模型,同时仍能提供出色的结果。如果您的分类问题需要深度主题专业知识或大量意图类别的复杂推理,您可以选择更大的 Sonnet 模型。
构建强大的提示
工单路由是一种分类任务。Claude 分析支持工单的内容,并根据问题类型、紧急程度、所需专业知识或其他相关因素将其分类到预定义类别中。 让我们编写一个工单分类提示。我们的初始提示应包含用户请求的内容,并返回推理和意图。在 Claude Console 上尝试提示生成器,让 Claude 为您编写初稿。
- 我们使用 Python f-strings 创建提示模板,允许将
ticket_contents插入到<request>标签中。 - 我们给 Claude 一个明确定义的角色,作为仔细分析工单内容以确定客户核心意图和需求的分类系统。
- 我们指导 Claude 正确的输出格式,在这种情况下,在
<reasoning>标签内提供其推理和分析,然后在<intent>标签内提供适当的分类标签。 - 我们指定有效的意图类别:“支持、反馈、投诉”、“订单跟踪”和”退款/换货”。
- 我们包含一些示例(即少样本提示)来说明输出应如何格式化,这提高了准确性和一致性。
部署您的提示
在不在测试生产环境中部署提示并运行评估的情况下,很难知道您的提示效果如何。 让我们构建部署结构。首先定义包装我们对 Claude 调用的方法签名。我们将采用已经开始编写的方法,该方法以ticket_contents 作为输入,现在返回 reasoning 和 intent 的元组作为输出。如果您有使用传统机器学习的现有自动化,您将希望遵循该方法签名。
- 导入 Anthropic 库并使用您的 API 密钥创建客户端实例。
- 定义一个接受
ticket_contents字符串的classify_support_request函数。 - 使用
classification_prompt将ticket_contents发送给 Claude 进行分类 - 返回从响应中提取的模型的
reasoning和intent。
stream=False(默认值)。
评估您的提示
提示通常需要测试和优化才能准备好投入生产。要确定您解决方案的准备情况,请根据您之前建立的成功标准和阈值评估性能。 要运行您的评估,您需要测试用例来运行它。本指南的其余部分假设您已经开发了测试用例。构建评估函数
我们本指南的示例评估沿三个关键指标衡量 Claude 的性能:- 准确性
- 每次分类的成本
- 我们将测试用例中的
actual_intent添加到classify_support_request方法中,并设置比较以评估 Claude 的意图分类是否与我们的黄金意图分类匹配。 - 我们提取 API 调用的使用统计信息,以根据使用的输入和输出令牌计算成本
运行您的评估
适当的评估需要明确的阈值和基准来确定什么是好结果。上面的脚本将为我们提供准确性、响应时间和每次分类成本的运行时值,但我们仍需要明确建立的阈值。例如:- 准确性: 95%(100 次测试中)
- 每次分类成本: 比当前路由方法平均降低 50%(100 次测试中)
提高性能
在复杂场景中,除了标准提示工程技术和护栏实施策略之外,考虑其他策略来提高性能可能会有所帮助。以下是一些常见场景:对于 20+ 意图类别的情况使用分类层次结构
随着类别数量的增长,所需示例的数量也会扩大,可能使提示变得笨重。作为替代方案,您可以考虑使用分类器混合实施分层分类系统。- 将您的意图组织成分类树结构。
- 在树的每个级别创建一系列分类器,实现级联路由方法。

- 优点 - 更大的细微差别和准确性: 您可以为每个父路径创建不同的提示,允许更有针对性和特定于上下文的分类。这可以提高准确性并更细致地处理客户请求。
- 缺点 - 增加延迟: 请注意,多个分类器可能导致延迟增加,我们建议使用我们最快的模型 Haiku 实施此方法。
使用向量数据库和相似性搜索检索来处理高度可变的工单
尽管提供示例是提高性能的最有效方法,但如果支持请求高度可变,很难在单个提示中包含足够的示例。 在这种情况下,您可以使用向量数据库从示例数据集中进行相似性搜索,并检索给定查询的最相关示例。 这种方法在我们的分类配方中有详细概述,已被证明可以将性能从 71% 的准确率提高到 93% 的准确率。专门考虑预期的边缘情况
以下是 Claude 可能错误分类工单的一些场景(可能还有其他对您的情况独特的场景)。在这些场景中,考虑在提示中提供明确的指令或示例,说明 Claude 应如何处理边缘情况:客户提出隐含请求
客户提出隐含请求
客户经常间接表达需求。例如,“我已经等我的包裹超过两周了”可能是对订单状态的间接请求。
- 解决方案: 为 Claude 提供这些类型请求的一些真实客户示例,以及潜在意图是什么。如果您为特别细致的工单意图包含分类理由,您可以获得更好的结果,以便 Claude 可以更好地将逻辑推广到其他工单。
Claude 优先考虑情绪而非意图
Claude 优先考虑情绪而非意图
当客户表达不满时,Claude 可能优先处理情绪而不是解决潜在问题。
- 解决方案: 为 Claude 提供何时优先考虑客户情绪或不优先考虑的指导。可以简单如”忽略所有客户情绪。只专注于分析客户请求的意图以及客户可能询问的信息。”
多个问题导致问题优先级混乱
多个问题导致问题优先级混乱
当客户在单次互动中提出多个问题时,Claude 可能难以识别主要关注点。
- 解决方案: 澄清意图的优先级,以便 Claude 可以更好地对提取的意图进行排名并识别主要关注点。
将 Claude 集成到您更大的支持工作流中
适当的集成需要您就基于 Claude 的工单路由脚本如何适应您更大的工单路由系统架构做出一些决定。您可以通过两种方式做到这一点:- 推送式: 您使用的支持工单系统(例如 Zendesk)通过向您的路由服务发送 webhook 事件来触发您的代码,然后分类意图并路由它。
- 这种方法更具网络可扩展性,但需要您公开一个公共端点。
- 拉取式: 您的代码根据给定的时间表拉取最新工单并在拉取时路由它们。
- 这种方法更容易实施,但当拉取频率过高时可能对支持工单系统进行不必要的调用,或者当拉取频率过低时可能过于缓慢。