您所在的位置: 需求库 技术需求 ⼤模型评估

⼤模型评估

发布时间: 2023-10-02
来源: 科技服务团
截止日期:2023-10-07

价格 双方协商

地区: 北京市 市辖区 海淀区

需求方: 北京***公司

行业领域

电子信息技术

需求背景

通过全⾯、客观的评测,我们可以了解⼤模型的性能和效果,⽐较不同模型之间的优劣,发现模型存在的问题和不⾜,为未来的研究提供参考和⽅向。现有的评测⽅法主要是在固定的benchmark数据集上对模型进⾏评估。⼤部分benchmark采⽤了⼈类不同阶段的考试题,尤其是其中的选择题,作为评测数据。此类常⻅的数据集包括MMLU、C-Eval等。这类数据集要求模型从若⼲个选项中选择正确的选项。另⼀些benchmark数据集则要求模型根据问题⽣成相应的内容,并对⽣成的内容进⾏评估。 如⽤于数学评估的GSM8K,⽤于代码评估的HumanEval等。

需解决的主要技术难题

1.研究⼤模型的能⼒分类体系。2.研究选择题的形式是否能够客观反映⼤模型的能⼒。3.研究选择题的形式和⽣成的形式对⼤模型的评估是否具有⼀致性。4.研究能够全⾯、客观评估⼤语⾔模型的评测⽅法,并构建相应的评测数据集。

期望实现的主要技术目标

1.选择题的形式和⽣成的形式孰优孰劣。2.当前榜单对模型的评估是否具有⼀致性。3.现有的benchmark是否能够全⾯客观的评估⼤语⾔模型。

需求解析

解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-10-13

李华康

西交利物浦大学

副教授

综合评价

1. 多样性评测任务。需要设计多样化的评测任务,涵盖不同的语言能力和应用场景。包括文本理解、文本生成、问答系统、对话模型等,以全面评估大模型在不同任务上的性能。 2. 评估数据集的规范性。数据集要具有代表性,也需要覆盖多样化的语言样本和应用场景;并要经过专业人士的标注和验证,确保数据质量和评估的可靠性。 3. 制定评估指标和标准。制定科学合理的评估指标和标准来评估大模型的性能。这些指标和标准应该能够准确地衡量大模型在各个评测任务上的性能,如准确率、召回率、BLEU指标等。 4. 人工评估与自动评估相结合。人工评估可以通过专家对模型输出结果的质量进行评判,获取更准确的评估结果。自动评估通过计算机算法和指标对模型性能进行快速评估,提高评估效率。
查看更多>

解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-10-11

赵娜

云南大学

副教授

综合评价

随着大模型的不断发展和应用,大模型评估领域面临着广阔的前景和机遇。大模型评估至关重要,它能确保大模型的性能和可信度,评估其准确性、鲁棒性和泛化等能力,有效的评估可以指导模型的改进和优化,提高应用的质量和可靠性。 现今行业内已存在一些用于评估大模型的基准数据集,然而市面上现有的基准并不能全面地测评大模型的能力,所以构建更客观更全面的大模型评估基准是市场所亟需的,通过建立这样的基准,我们可以更好地了解模型的优点和限制,推动大模型技术的发展和应用。
查看更多>
更多

处理进度

  1. 提交需求
    2023-10-02 22:38:08
  2. 确认需求
    2023-10-07 17:58:12
  3. 需求服务
    2023-10-07 17:58:12
  4. 需求签约
  5. 需求完成