刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

今天凌晨,OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。包括OpenAI自己发 ...

8 2024-10-31