9개 AI 중 가장 정확한 건?…WP &quot3위 빙 코파일럿&quot

"AI 맹신하지 말고 검증 거쳐야" 강조

워싱턴포스트 실혐 결과 구글의 'AI 모드'가 9개 주요 AI 도구 중 가장 정확한 답변을 내놓는 것으로 평가됐다. /더팩트 DB

[더팩트 | 공미나 기자] 미국 워싱턴포스트(WP)가 주요 인공지능(AI) 도구의 정확성과 신뢰성을 비교한 결과 구글의 'AI 모드'가 가장 높은 평가를 받은 것으로 나타났다.

27일(현지시간) WP는 9개 주요 AI 도구를 대상으로 30개 질문에 대한 900개 답변을 평가한 결과 AI 모드가 가장 높은 점수를 받았다고 보도했다.

이번 실험은 마이크로소프트의 빙 코파일럿(Bing Copilot), 오픈AI의 ChatGPT, 앤트로픽의 클로드(Claude), xAI의 그록(Grok), 메타의 메타 AI(Meta AI), 퍼플렉시티(Perplexity), 구글 AI 오버뷰와 구글 AI 모드 등을 대상으로 진행됐다. 챗GPT는 GPT-4 터보와 GPT-5 두 모델이 사용됐다.

평가 결과 구글 AI 모드는 100점 만점 중 60.2점을 받아 종합 1위를 차지했다. AI 모드는 구글 제미나이 2.5 기반의 검색 도구다.

2위는 GPT-5로 55.1점을 받았다. 뒤이어 퍼플렉시티가 51.3점으로 3위, 빙 코파일럿이 49.4점으로 4위를 기록했다. 메타 AI는 33.7점으로 가장 낮은 순위를 차지했다.

다만 AI는 정보의 최신성과 출처 신뢰도를 판별하는 데 어려움을 겪고 있으며, 없는 사실을 실제처럼 답하는 이른바 '환각' 현상을 보이기도 했다.

WP는 "이번 테스트는 AI의 약점을 의도적으로 공략했지만, 여전히 AI가 일상적인 질문 중 상당수를 제대로 답하지 못했다"며 "결국 AI 답변을 그대로 믿기보다는 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다는 교훈이 강조됐다"고 전했다.

mnmn@tf.co.kr

발로 뛰는 <더팩트>는 24시간 여러분의 제보를 기다립니다.: · 카카오톡: '더팩트제보' 검색; · 이메일: jebo@tf.co.kr; · 뉴스 홈페이지: https://talk.tf.co.kr/bbs/report/write; · 네이버 메인 더팩트 구독하고 [특종보자→]; · 그곳이 알고싶냐? [영상보기→]