Habitat Fact - 搜索 News

5 天

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均 ...

FACTS 的初步结果向业界发出了明确信号:尽管模型越来越智能，但它们远非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有参测模型，在所有问题上的综合准确率均未能超过 70% 。

5 天

近日，谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件，旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架，特别适用于法律、金融和医疗等行业，其中准确性至关重要。

一些您可能无法访问的结果已被隐去。