ChatGPT可能主导着AI聊天机器人市场,但一份新报告表明受欢迎程度并不等同于可信度。一...ChatGPT可能主导着AI聊天机器人市场,但一份新报告表明受欢迎程度并不等同于可信度。一...

ChatGPT在新的人工智能可靠性报告中被评为最不可靠的工作聊天机器人

2025/12/11 02:38

ChatGPT可能主导着AI聊天机器人市场,但一份新报告表明,受欢迎程度并不等同于可信度。2025年12月的一项研究考察了领先的AI聊天机器人在日常工作场景中的表现,将ChatGPT评为专业任务中最不可靠的选择。这些发现为越来越依赖AI工具进行日常运营的企业带来了新的担忧。

这项由Relum进行的研究不仅仅看纸面规格;他们在真实世界的专业场景中对十个主要AI聊天机器人进行了压力测试。结果?炒作与现实之间存在巨大差距。

该研究根据四个关键标准评估了每个聊天机器人。这些标准是幻觉率、客户产品评分、跨任务的响应一致性和停机频率。每个因素都对综合可靠性风险评分有所贡献,分数越高表示工作场所潜在问题越大。

这里有一个应该让企业领导者夜不能寐的统计数据:尽管控制了市场81%的份额并拥有高用户评分,ChatGPT记录的幻觉率为35%。

用简单的话说,这意味着它给出的每三个答案中就有一个以上包含虚构或不正确的信息。如果你用它来起草一部奇幻小说,那没问题,但如果你用它来做合规报告或财务决策,那就是灾难的配方。因此,该研究给ChatGPT打了99分(满分99分)的可靠性风险评分,是该组中最差的。

ChatGPT named least reliable work chatbot in new AI reliability reportChatGPT

谷歌的表现也好不到哪去。虽然Gemini的运行时间更长,但在纯粹的准确性方面表现更差,整个组中最高的幻觉率达到38%。这突显了当前AI市场的一个奇怪悖论:我们使用最多的工具往往是最难以保持事实准确的工具。

Claude和Meta AI处于模糊的中间地带。Claude尽管因其写作风格而备受喜爱,但由于频繁停机和17%的幻觉率而被评为第二不可靠的。Meta AI更准确(15%的幻觉),但用户似乎不喜欢这种体验,给它的满意度评分是该组中最低的(5分中的3.4分)。

"黑马" – Grok和DeepSeek从ChatGPT手中抢走了风头

如果大牌都在掉链子,谁在真正做事?令人惊讶的是,研究指出Grok和DeepSeek是专业用途最可靠的工具。它们没有OpenAI那样庞大的营销预算或品牌知名度,但它们就是表现得更好。DeepSeek记录了零服务中断,并将幻觉保持在最低水平。

Kimi的得分也很好,在一致性和运行时间之间找到了一个甜蜜点。同时,像Perplexity AI这样的付费选项表现稳定,但引发了一个问题:当更便宜、知名度较低的替代品表现更好时,订阅费用是否值得。

ChatGPT named least reliable work chatbot in new AI reliability report

Relum的首席产品官Razvan-Lucian Haiduc警告说,可靠性应该是AI采用决策的核心因素。他指出,目前约65%的美国公司在日常工作流程中使用AI聊天机器人。近45%的员工承认与这些工具分享敏感的公司信息。

随着AI越来越嵌入到日常工作中,错误信息的风险也在增加。Haiduc强调,使用最广泛的聊天机器人并不总是适合每个行业的最佳选择。准确性、运行时间和特定任务的性能应该超过品牌熟悉度。

这份报告为该行业提供了一个现实检验。信任不应该仅仅因为一个聊天机器人很有名而给予;它应该通过一致、可验证的真实性来赢得。现在,看起来市场领导者有一些严肃的追赶工作要做。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。