20260519功能上新通知

座席和客户在 Line 渠道上沟通时可以触发系统的满意度规则，由于 Line 渠道的菜单消息仅支持 4 个选项，因此满意度配置里的点赞点踩不可用，满意度仅支持 1 星，3 星和 5 星三个等级，客户点击菜单消息即可完成评价。

从 AI 项目冷启动到上线后持续迭代的全生命周期，面临核心痛点：

1.如何快速的进行大量的测试集验证AI回复效果

2.如何系统、高效地评估AI助手的实际效果。传统手动测试方法耗时耗力，且缺乏客观标准。

为此，我们构建了一个评估平台，支持导入大量真实用户问题

1.支持用户进行批量自动化测试，生成AI应答

2.支持LLM-as-a-Judge（大语言模型作为裁判）能力，能自动从准确性、相关性等个自定义的维度对AI回复进行智能评分，大幅提升评估效率和客观性。同时，为了对比优化后的效果，当团队优化提示词或更新知识库后，可快速进行新一轮评估，并通过清晰的对比报告直观展示效果提升，从而用数据驱动决策，确保交付质量，有力推动项目取得成功。

产品的配置&使用

将用于测试的问题集以Excel表格的方式进行上传；

用户问题：即用于测试Agent应答的测试问题；必填预期输出：用户问题预期回复的答案；非必填；参考知识：回复当前用户问题可以参考的正确的文本类型的知识；非必填

对Agent回复的答案进行评估的方法与标准

内置了诸多评估模板，通过定义评估器的提示词，写清楚【对谁进行评估】【如何进行评估】【评估后如何打分/标记】【评估后输出哪些结果】

1.支持插入变量

变量取值：{{用户问题}}、{{预期输出}}、{{AI输出内容}}、{{参考知识}}

a.{用户问题}}插入后{{query}}：对应测试集中的用户问题

b.{AI输出内容}}插入后{{ai_output}}：对应Agent/flowbot/RAG AI回答的答案

c.{预期输出}}插入后{{expected_output}}：对应测试集中的预期输出

d.{参考知识}}插入后{{referenceKnowledge}}：对应测试集中的参考知识

参考示例提示词：

Tips ：提示词中的变量部分，如 {{query}}、 {{expected_output}}、{{ai_output}}等，在提示词中所处的位置越靠后，token消耗越少

你是一个专业的问答质量评估员。请根据提供的“用户问题”“预期输出”，评估“AI输出内容”的准确性和相关性。

[变量上下文]
用户问题: {{query}}
预期输出: {{expected_output}}
AI输出内容: {{ai_output}}

[评估标准]
1. AI输出内容 是否准确回答了 用户问题？
2. 是否与 预期输出 的核心意思保持一致？

请直接给出结论（合格/不合格）并说明理由。

2.评估模型选择用于Agent评估使用的模型，系统内置了两种模型：

高性能模式：能模式：适合深度推理，结果更准确。

高时效模式：适合大批量，速度更快

3.评分标准

选项模式：单选选项，如“合格/不合格”“优/良/中/差”等；并为每个选项赋予一个分值；