이용자 검색 데이터, AI 활용해 검색 의도 파악

현대인이 손에서 놓지 못하는 스마트폰부터 일상을 돕는 인공지능(AI)까지, 정보기술(IT)은 실생활과 뗄레야 뗄 수 없게 됐습니다. 그런데 편리하게 사용 중인 기술이 어떻게 작동하는지, 어려운 용어의 뜻은 무엇인지 호기심이 생길 때가 많습니다. 이 코너에서는 일상 속 궁금한 IT 정보를 알기 쉽게 설명하겠습니다. <편집자주>
[더팩트|우지수 기자] 검색은 우리 일상과 아주 가까이 있는 서비스다. 스마트폰의 좁은 화면에서 검색을 하다 보면 오타가 나는 일도 비일비재하다. 그런데 '유투브'나 '네비게이션'처럼 잘못 입력한 단어를 검색해도 원래 찾고자 했던 결과(유튜브, 내비게이션)를 찰떡같이 찾아 준다. 수많은 오타 속에서 어떤 원리로 이용자의 진짜 의도를 파악해 내는 것일까.
오타를 찾는 가장 기초적인 원리는 '편집 거리(Edit Distance)' 알고리즘이다. 글자를 자음과 모음 단위로 분해해 수학적으로 계산하는 방식이다. 예를 들어 '유투브'를 '유튜브'로 바꾸려면 자음과 모음 중 'ㅜ'를 'ㅠ'로 한 번만 교체하면 된다. 이 변환 횟수가 적을수록 두 단어의 거리가 가깝다고 판단하고 올바른 단어를 유추하는 것이다.
글로벌 검색 플랫폼은 더 발전된 방법으로 검색 서비스를 고도화했다. 가장 큰 무기는 방대하게 축적된 이용자 행동 데이터다. 사람들은 오타를 낸 후 원하는 결과가 나오지 않으면 곧바로 올바른 단어를 다시 검색하는 경향이 있다. '김치지개'를 검색했다가 연이어 '김치찌개'를 다시 검색하는 행동이 수만 번 반복되면 두 단어를 연결해 기억하는 식이다. 국내 검색 플랫폼 점유율 1위 네이버의 경우 자주 발생하는 오타를 통계적으로 파악해 약속처럼 변환 규칙을 만든다. 한영 키를 잘못 눌러 작성한 'spdlqj(네이버)', '네이ㅂ검색(네이버검색)' 같은 경우가 이에 해당한다.
검색창에서는 오타 외에도 폭넓은 교정이 이뤄진다. 맞춤법이 잘못된 경우(백분률→백분율), 유의어를 검색한 경우(사잇길→샛길), 바뀐 단어의 과거형(지불준비율→지급준비율)을 입력해도 대체 검색어를 추천한다. 검색 결과가 전혀 없는 새로운 오타가 발생하면 시스템이 유추한 올바른 단어를 검색해 결과를 보여주기도 한다.

데이터를 기반으로 작동하기 때문에 명백한 오타임에도 굳이 교정하지 않는 경우도 있다. '없다'를 잘못 친 'ㅇ벗다'나 '관리'의 오타인 '고나리' 등이 대표적이다. 이용자들이 일종의 유행어처럼 의도적으로 즐겨 쓰면서 검색창에 해당 단어를 그대로 입력하고 사용하는 데이터가 많이 쌓인 사례다. 이를 독립된 단어로 인식해 단독으로 검색할 경우에는 더 이상 오타로 바로잡지 않게 된 것이다.
반대로 이용자가 거의 쓰지 않는 단어나 신조어를 입력했을 때 이를 제대로 검색했음에도 불구하고 오타로 인식하는 상황도 발생한다. 이용자들이 많이 검색한 비슷한 단어의 데이터 가중치가 커서 시스템이 낯선 단어를 인기 검색어의 오타로 짐작해 버리기 때문에 발생한다. 다만 오타로 인식되더라도 대부분 포털에서는 원래 검색어 그대로 찾아보는 옵션을 제공한다.
검색 서비스가 고도화되면서 이용자들도 복잡한 질문을 검색하기 시작했다. 이 과정에서 발생하는 복잡한 오류는 대규모 언어 모델(LLM)을 장착한 생성형 인공지능(AI)이 해결한다. 네이버는 지난 2021년부터 한국어 GPT 기술을 검색어 제안에 적용했다. 띄어쓰기가 잘못됐거나 질문한 문장의 의미 자체가 모호할 경우 AI가 검색어의 의미를 해석해 적절한 단어로 바꿔준다. 네이버 관계자는 "이용자 검색 활동 데이터와 생성형 AI를 활용한 의미 해석이 검색 오타 교정의 가장 큰 축"이라고 설명했다.
방대한 데이터와 AI가 결합한 문맥 파악 기술은 포털 검색창 외에도 일상 속 다양한 서비스에 널리 쓰인다. 대표적인 예는 스마트폰 키보드의 자동완성 기능이다. 이용자가 메신저에서 문자를 빠르게 입력할 때 발생하는 오타를 실시간으로 분석해 올바른 단어를 추천한다. 금융 앱이나 쇼핑몰의 고객센터 챗봇에도 필수적으로 활용된다.
한 IT업계 관계자는 "이용자가 낸 오타의 진짜 의도를 빠르고 정확하게 파악하는 능력은 검색 서비스 만족도를 결정하는 핵심 경쟁력"이라며 "앞으로 AI 기술이 검색 서비스와 결합되면 이용자 편의성이 눈에 띄게 개선될 것으로 본다"고 전망했다.
index@tf.co.kr
- 발로 뛰는 <더팩트>는 24시간 여러분의 제보를 기다립니다.
- · 카카오톡: '더팩트제보' 검색
- · 이메일: jebo@tf.co.kr
- · 뉴스 홈페이지: https://talk.tf.co.kr/bbs/report/write
- · 네이버 메인 더팩트 구독하고 [특종보자→]
- · 그곳이 알고싶냐? [영상보기→]




