我们构建了LIFECHOICE数据集,包含395本书中1,401个角色决策点,用于评估大型语言模型在角色驱动决策方面的能力,结果表明最先进的LLMs在这项任务中表现出有希望的能力,但仍有很大的改进空间。
Apr 1, 2024