FACTS 的初步结果向业界发出了明确信号:尽管模型越来越智能,但它们远非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有参测模型,在所有问题上的综合准确率均未能超过 70% 。
近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。