⼤模型评估
价格 双方协商
地区: 北京市 市辖区 海淀区
需求方: 北京***公司
行业领域
电子信息技术
需求背景
通过全⾯、客观的评测,我们可以了解⼤模型的性能和效果,⽐较不同模型之间的优劣,发现模型存在的问题和不⾜,为未来的研究提供参考和⽅向。现有的评测⽅法主要是在固定的benchmark数据集上对模型进⾏评估。⼤部分benchmark采⽤了⼈类不同阶段的考试题,尤其是其中的选择题,作为评测数据。此类常⻅的数据集包括MMLU、C-Eval等。这类数据集要求模型从若⼲个选项中选择正确的选项。另⼀些benchmark数据集则要求模型根据问题⽣成相应的内容,并对⽣成的内容进⾏评估。 如⽤于数学评估的GSM8K,⽤于代码评估的HumanEval等。
需解决的主要技术难题
1.研究⼤模型的能⼒分类体系。2.研究选择题的形式是否能够客观反映⼤模型的能⼒。3.研究选择题的形式和⽣成的形式对⼤模型的评估是否具有⼀致性。4.研究能够全⾯、客观评估⼤语⾔模型的评测⽅法,并构建相应的评测数据集。
期望实现的主要技术目标
1.选择题的形式和⽣成的形式孰优孰劣。2.当前榜单对模型的评估是否具有⼀致性。3.现有的benchmark是否能够全⾯客观的评估⼤语⾔模型。
需求解析
解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-10-13
李华康
西交利物浦大学
副教授
综合评价
解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-10-11
赵娜
云南大学
副教授
综合评价
处理进度