구글 AI 모드 1위, 그러나 드러난 AI의 한계...비판적 사고의 중요성 강조
구글 로고 (사진= 로이터 연합뉴스)
주요 인공지능(AI) 모델을 대상으로 한 검색 정확도 테스트에서 구글의 'AI 모드'가 가장 높은 점수를 받으며 1위를 차지했다. 오픈AI의 최신 모델인 GPT-5 기반 챗GPT는 2위에 머물렀다. 이번 테스트는 AI가 복잡한 질문에 얼마나 정확하고 신뢰성 높은 답을 제공하는지 평가하기 위해 진행됐다.
워싱턴포스트(WP)는 지난 27일(현지시간) 미국 공공·대학 도서관 사서들과 함께 총 9개의 주요 AI 검색 도구를 대상으로 심도 있는 테스트를 진행했다고 보도했다. 테스트 대상에는 구글의 AI 모드와 AI 오버뷰를 비롯해 챗GPT(GPT-5, GPT-4 터보), 클로드(앤스로픽), 메타 AI, 그록(xAI), 퍼플렉시티, 빙 코파일럿(마이크로소프트)이 포함됐다. 모든 도구는 7~8월 기준 무료 기본 버전으로만 평가가 이뤄졌다.
총 30개의 까다로운 질문을 던져 얻은 900건의 답변을 점수화한 결과, 구글 AI 모드가 100점 만점에 60.2점으로 1위를 차지했다. 이는 웹을 깊이 탐색해 여러 출처를 종합하는 AI 모드의 강점이 반영된 결과로 풀이된다. 2위는 55.1점을 받은 GPT-5 기반 챗GPT가 차지했고, 퍼플렉시티가 51.3점으로 그 뒤를 이었다. 반면, 일론 머스크의 그록3는 40.1점으로 8위에 그쳤으며, 메타 AI는 33.7점으로 가장 낮은 점수를 얻었다.
---
퀴즈·최신 사건 부문 강세, 분야별로는 희비 갈려
이번 테스트는 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지 분야에 걸쳐 진행됐다. 종합 점수와 별개로 각 부문에서는 AI 모델별로 희비가 엇갈렸다. 구글 AI 모드는 퀴즈와 최신 사건 부문에서 가장 정확하고 우수한 답변을 제공하며 강세를 보였다. 특히 최신 정보에 대한 검색 능력에서 다른 모델을 압도했다.
전문 출처를 검색하고 요약하는 능력에서는 빙 코파일럿이 가장 높은 점수를 받았다. 이미지 인식 부문에서는 퍼플렉시티가 최우수 모델로 꼽혔으며, 편향되지 않은 균형 잡힌 답변을 제공하는 데에는 GPT-4 터보가 가장 좋은 평가를 받았다. 한편, 전반적인 성능 개선을 보이며 2위를 차지한 GPT-5는 일부 영역에서는 오히려 GPT-4보다 낮은 점수를 받기도 해 모델별 편차를 드러냈다.
AI의 한계와 비판적 사고의 중요성
WP는 이번 테스트가 AI의 약점을 의도적으로 파고들었지만, 일상적인 질문에서도 AI가 여전히 제대로 답하지 못하는 경우가 많다는 사실이 드러났다고 분석했다. 특히 AI는 정보의 최신성이나 출처의 신뢰성을 판별하는 데 어려움을 겪는 것으로 나타났다. 때로는 잘못된 정보를 마치 사실인 양 자신 있게 내놓는 경향도 문제점으로 지적됐다.
WP는 "결국 AI가 내놓은 답변을 그대로 믿기보다는 사서처럼 출처를 확인하고, 최신성을 검증하며, 비판적으로 사고하는 능력이 여전히 중요하다는 교훈을 강조했다"고 전했다. AI는 인간의 사고를 돕는 도구일 뿐, 최종적인 판단은 여전히 인간의 몫이라는 의미다.
– 저작권자 ⓒ 국일일보, 무단전재•재배포 금지, AI 학습 및 활용 금지 –
이우창
기자
-
"올해는 손길 하나 더"… 앞치마 두른 英 왕세손의 특별한 크리스마스
-
이재명·민주당 동반 하락, 국힘은 상승… 지지율 격차 줄었다
-
일본은행, 30년 철옹성 ‘0.5% 벽’ 깼다… 기준금리 0.75%로 인상
-
"정권 2번 뺏긴 건 우리 부족 탓"… 장동혁, '강성' 벗고 쇄신 승부수
-
"리튬 줄게, 달러 다오"… 벼랑 끝 볼리비아, 미국 향해 'SOS'
-
국힘 "환율 1,500원 목전인데 정부는 뒷짐"… 경제 정책 '대전환' 압박
-
트럼프 2기 1년, '관세 폭탄'과 '돈로주의'로 세계 질서를 다시 쓰다
-
확 바뀌는 새해 부동산, '이것' 준비 안 하면 낭패 본다
-
핏빛으로 얼룩진 시드니 '빛의 축제'…반유대주의 테러 가능성
-
20대 8%p '와르르'… 이재명 대통령, 54.3%로 숨 고르기
-
"국민에게 돌려준다"더니... 도로 '구중궁궐'로 숨는가
▲대통령 집무실 청와대 복귀가 임박한 21일 종로구 청와대 앞에 경찰 초소가 설치돼 있다. 연합뉴스 올해 연말, 대통령실이 현재의 용산 청사에서 다시 청와대로 복귀한다는 소식이 전해지며 정국이 술렁이고 있다. 정부는 안보와 경호 효율성, 그리고 집무 공간의 협소함 등을 이유로 들고 있지만, 이를 바라보는 국민의 시선은 싸늘하다 못해 허탈감마저 감돌고
-
"AI가 지키는 명동의 크리스마스… 인파 꽉 차면 '경고 방송' 뜬다"
서울 중구(구청장 김길성)는 크리스마스와 새해맞이 행사를 앞두고 내년 1월 4일까지 명동 일대 안전관리를 대폭 강화한다고 22일 밝혔다. 구는 지난 19일부터 특별대책 가동에 들어갔으며, 인파가 집중될 것으로 예상되는 12월 24~27일, 31일, 1월 1일 등 총 6일간을 집중관리 기간으로 지정했다. 특히 구는 크리스마스인 25일 순간 최대 5만 명
-
1심 유죄→2심 무죄→대법 파기… '누디즘' 립스틱 반전 판결의 전말
자사 브랜드명을 제품명 앞에 붙였더라도 타인이 먼저 등록한 식별력 있는 단어를 제품명에 포함했다면 상표권 침해에 해당한다는 대법원 판결이 나왔다. 제품명의 특정 부분이 독립적인 식별력을 가진다면, 그 부분(요부)의 유사성을 근거로 침해 여부를 판단해야 한다는 취지다. 22일 법조계에 따르면 대법원 3부(주심 이흥구 대법관)는 상표법 위반 혐의로 기소된
-
"크게 도우면 크게 요구하라"... 통일교, '청와대 진입' 시나리오 법정서 공개
통일교(세계평화통일가정연합)가 지난 20대 대선을 앞두고 조직적으로 정치권에 개입하려 한 정황이 법정에서 구체적인 증거와 함께 공개됐다. 한학자 통일교 총재의 재판에서 공개된 회의록과 간부 간 대화 내용에는 청와대 진입과 공천권 확보를 넘어 2027년 대권 도전까지 논의한 사실이 포함됐다. 서울중앙지법 형사합의27부(부장판사 우인성) 심리로 19일 열린
-
박범계·박주민 '선고유예' vs 나경원 '벌금형'... 패스트트랙 판결 '형평성' 도마 위
이른바 '국회 패스트트랙 충돌' 사건으로 재판에 넘겨진 더불어민주당 박범계, 박주민 의원이 1심에서 벌금형의 선고를 유예받았다. 이에 대해 국민의힘은 "형평성을 잃은 판결"이라며 강력히 반발했다. 서울남부지법 형사합의12부(김정곤 부장판사)는 19일 폭력행위처벌법 위반(공동폭행) 등 혐의로 기소된 박범계·박주민 의원에게 각각 벌금 300만 원의 선고를
-
챗GPT 독주 체제, 제미나이가 흔들까?… 국내 AI 지형도 분석
국내 휴대전화 이용자 4명 중 3명은 인공지능(AI) 서비스를 이용한 경험이 있는 것으로 나타났다. 오픈AI의 '챗GPT'가 시장을 주도하는 가운데 구글 '제미나이'가 급성장하며 양강 구도를 형성하고 있다. 18일 이동통신 전문 조사기관 컨슈머인사이트가 발표한 '2025년 하반기 이동통신 기획조사'에 따르면, 국내 14세 이상 소비자 중 AI 서비스를
-
'당구 여제' 김가영부터 인천유나이티드까지… 2025년을 빛낸 인천의 별들
인천시와 인천사랑운동센터는 지난 16일 송도컨벤시아에서 '2025년 올해의 인천인 대상' 시상식을 개최했다. 올해로 11회째를 맞은 이번 시상식에서는 인천의 명예를 높이고 지역 발전에 기여한 개인 9명과 단체 1팀이 수상의 영예를 안았다. 개인 부문 수상자는 ▲박용열 대한노인회 인천시연합회장 ▲김학찬 인천펜싱협회장(치과의사) ▲이재구 국경없는학교짓기 대표
-
'여대'가 사라진다... 30곳에서 14곳으로 '반토막' 난 이유
동덕여자대학교가 2029년 남녀공학 전환을 추진한다는 소식이 전해지며 학내 갈등이 격화하고 있다. 이번 사태를 계기로, 한때 30여 곳에 달했던 국내 여대가 시대적 변화 속에서 어떠한 길을 걸어왔는지 그 변천사와 현주소를 심층적으로 조명했다. ◆ 국내 여대, 30여 곳에서 14곳으로 축소 과거 4년제 대학과 전문대, 간호·사범계 단과대학을 포함해 30곳이
-
"‘한 잔은 약주’는 옛말… 고혈압 예방엔 완전 금주가 답"
소량의 음주라도 중단하면 혈압 강하 효과가 있다는 연구 결과가 나왔다. 일본 도쿄과학대와 세이루카국제병원 연구팀은 약 6만 명의 건강진단 자료를 분석해 이 같은 사실을 확인했다고 16일 밝혔다. 연구팀은 2012년부터 2024년까지 세이루카국제병원에서 건강진단을 받은 5만 8,943명의 검진 데이터 35만 9,717건을 분석했다. 연구진은 연령,
-
114억 챙긴 '가짜 AI 의사'와 '짝퉁 약'… 식약처 철퇴
식품의약품안전처는 온라인 쇼핑몰과 SNS 등에서 인공지능(AI) 기술을 악용해 가짜 전문가를 내세우거나 일반식품을 의약품으로 오인하게 만든 업체 16곳(판매 규모 약 114억 원)을 적발했다고 15일 밝혔다. 식약처는 해당 업체에 대해 관할 기관에 행정처분을 요청하고 수사를 의뢰했다. 이번 점검은 지난 10월 28일부터 이달 12일까지 진행됐다. 식약처는
국일일보 © 국일일보 All rights reserved.
국일일보의 모든 콘텐츠(기사 등)는 저작권법의 보호를 받은바, 무단 전재, 복사, 배포 등을 금합니다.
RSS




