# 人工盲测任务虽然自动化评估很方便，但在模型上线的最后阶段，或者两个模型分数咬得很死的时候，还是需要人来看一眼。**盲测任务是什么？** * 盲测任务 = 把多个模型的回答“匿名化”，让评审者只看回答质量做选择/打分 * 适合： * 你希望排除“模型名偏见” * 你更在意主观体验（可读性、风格、说服力、完整性等） * 开放题/对话型内容的最终质量评估 *** 就像在之前的章节中我们讲到到 `LMArena`，人工盲测对于垂直领域的模型评估同等重要，在实际测试中，系统会隐藏两个模型的回答结果，评判者仅根据回答的质量、逻辑、语气进行主观判断，彻底消除对特定品牌的固有偏见。我们来到【评估-人工盲测任务】模块，然后点击创建任务，然后配置：

* **两两对比**：从模型库中选择两个你最想对比的模型。 * **题目范围**：选择简答题或开放题并设置抽样数量。任务开启后，您将进入一个类似 **Chatbot Arena** 的沉浸式的对比界面：

* **左右对照**：左边展示候选 A 的回答，右边展示候选 B 的回答，但不告诉标注人员具体是哪个模型。 * **流式加载**：系统支持流式输出，您可以实时看到模型的生成过程。 * **四选一投票**：标注人员只需要根据直观感受，选择“左边好”、“右边好”或者“平局”。 * **👈 左边更好**：左侧回答在准确性、流畅度或安全性上更优。 * **👉 右边更好**：右侧回答更符合你的预期。 * **🤝 平局**：两者难分伯仲，或都存在明显的严重错误。

这种 Side-by-Side 的比较数据，是目前公认最符合人类真实体感的评估方式。当所有题目投票完成后，系统会 “揭晓谜底” 并生成胜率统计，系统将展示每个模型在对比中获胜的百分比。如果平局较多，说明这两个模型在当前题库下的表现非常接近。你还可以回顾具体某个题目的回答结果：

回到任务列表，我们能清晰的看到每次盲测任务的结果：

*** --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://docs.easy-dataset.com/ping-gu/ren-gong-mang-ce-ren-wu.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.