阿里云人工智能平台 PAI新功能/规格：裁判员模型服务发布提供高效精准的LLM评估工具

418阅读

0评论

0点赞

裁判员模型服务正式发布，为客户提供高效、精准且经济实惠的大语言模型评估工具。该服务特别适合AI服务提供商、自主开发LLM的企业、应用LLM的企业及AI学术研究人员。其主要优势包括准确性、高效性、易用性和低成本。

裁判员模型服务为客户提供了一种高效、精准且经济实惠的大语言模型（LLM）评估工具。

适用客户

该服务特别适合需要评估和优化大语言模型的各类客户，包括但不限于AI服务提供商、自主开发LLM的企业、应用LLM的企业以及AI学术研究人员或研究机构等。

PAI-裁判员模型服务采用基于Qwen2微调的大模型作为评估工具，能够对被评估模型的生成结果进行精确评分，尤其适用于开放性和复杂的问答场景。其主要优势如下：

准确性：裁判员模型擅长处理主观问题的评估，能够智能地对问题进行场景分类，如开放性问题（闲聊、咨询、推荐等）、创意写作、代码生成、角色扮演等，并针对不同场景设定相应的评估标准，显著提升了评估的准确性。
高效性：裁判员模型无需人工标注数据，只需输入问题和模型的回答，即可自动完成对大语言模型的分析与评价，大大提高了评估效率。
易用性：提供多种使用方式，包括控制台创建评估任务、API调用和SDK调用，既方便用户快速上手体验，又便于开发者灵活集成。
低成本：以较低的成本，在中文评估场景中提供与ChatGPT-4相当的评估性能。