题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。 史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。