네이버 뉴스 검토위 "절차적 합리성, 투명성 가지고 있어"
[더팩트ㅣ중구=서민지 기자] '댓글 조작' 사건 등으로 공정성 논란에 휩싸였던 네이버가 알고리즘에 맞춰 운영, 합리성과 투명성을 갖고 있다는 결과가 나왔다. 알고리즘으로 자동화돼 원칙적으로 관리자의 개입이 불가능한 구조라는 설명이다.
네이버 뉴스 알고리즘 검토위원회(검토위)는 29일 서울 중구 프레스센터에서 네이버 뉴스 서비스 검토 결과를 발표했다. 검토위는 지난 5월 컴퓨터 공학, 정보학, 커뮤니케이션 등 3개 분야의 전문가 11인으로 발족됐다.
검토위는 뉴스 검색(랭킹 알고리즘), AiRS 뉴스 추천(에어스, 개인 맞춤형 뉴스), 연예·스포츠 뉴스 등 3가지 서비스를 중심으로 분석했다. 각 서비스에 대한 ▲데이터 확보 및 사용 ▲자질 및 알고리즘 선정 ▲서비스 공개 및 운영 ▲전 과정에 걸친 절차에 대해 수립된 업무 절차의 적절성 등을 검토했다.
네이버는 알고리즘 교체보다는 자질 발굴에 집중할 계획이다. 네이버는 뉴스 랭킹 학습에 알고리즘으로 보편적인 SVMRank(SVM랭크)를 사용하고 있다. 검토위는 검색엔진이 다른 학습 알고리즘을 사용하기에 적합하지 않아 더 좋은 자질의 발굴에 초점을 두고 개선하고 있다고 설명했다.
이날 발표회에서 가장 집중된 부분은 네이버가 뉴스를 어떤 방식으로 분류하는지와 이 과정에서 편집자 개입 등 조작 여부였다.
이와 관련해 맹성현 검토위 위원장(카이스트 전산학과 교수)은 "뉴스검색 결과는 알고리즘을 통해 자동으로 배치되기 때문에 관리자의 개입은 원칙적으로 불가능하다"며 "정확도 기반 종합만족도 측정 방식은 절차적 합리성과 투명성을 가지고 있다"고 말했다.
다만 뉴스 편집 알고리즘은 영업비밀을 이유로 공개하지 않았다. 또한 알고리즘을 공개할 경우 이를 이용해 어뷰징에 적용하는 사례가 생길 수 있어 이를 막겠다는 취지다.
어뷰징 또한 알고리즘을 통해 최대한 막고 있다고 강조했다. 네이버는 낚시성 기사를 제공하는 언론사 및 기사에 벌점을 부과하고 있다. 만일 어뷰징 행위라고 판단하는 행동이 중지되면 알고리즘을 통해 점수 또한 정상화된다.
에어스 뉴스 또한 뉴스 이용자들의 피드백 데이터만을 이용해 학습데이터를 자동으로 생성하고 있는 것으로 확인됐다. 최근에 로그인 사용자가 본 뉴스 기사와 기사 생성 후 일정 기간 동안 누적조회수, 누적 체류시간 등을 데이터로 활용하고 있다. 가중치 상위·하위 기사는 긍정적·부정적 학습데이터로 사용하고 있다.
데이터를 통해 협력필터 기술과 품질모델을 결합, 이용자들의 기사 선호도와 기사 품질에 따라 개인화된 추천 점수가 계산된다. 기사 품질과 이슈성, 기사 및 섹션 선호도 항목에 걸친 여러 자질을 선형합으로 결합한다.
맹 위원장은 "에어스 기사가 기존 편집 뉴스의 기사에 비해 다양한 관점의 기사와 여러 언론사에서 작성한 기사를 접할 기회를 제한하지 않는 것으로 확인됐다"면서 "부정 이용자가 전체 이용자에게 미치는 영향은 크지 않은 것을 확인했다"고 설명했다.
연예·스포츠 뉴스 알고리즘의 경우 다른 분야와 달리 전문 매체 여부에 따른 가산점, 실시간 업데이트 등 특화된 자질을 사용하고, 최신성을 강조하고 있다. 동일한 기사라 할지라도 연예 전문 매체, 스포츠 전문 매체이거나 신속한 대응 등에 따라 노출이 잘될 수 있다는 것이다.
클러스터링(유사한 기사를 묶는 것) 기반 알고리즘은 공공성과 중립성을 확보하기 위한 방책이라 설명했다. 또한 댓글 어뷰징 방지를 위해 댓글 가중치 최대값 제한, 작성자 프로필 강화, 시간 간격에 따른 작성 횟수 제한, 동일 내용 제한 등의 방안이 마련된 것으로 나타났다.
검토위는 학습 데이터 구축 주기를 더욱 단축시키고 다양한 연령층을 포괄하며, 알고리즘 선을 위한 연구개발에 힘쓸 것을 권고했다. 또한 '좋은 기사'에 대한 공통 기준을 확립하고, 기사 품질 평가 방법을 개발해 주기적으로 실행한 뒤 문서화된 결과를 전체 서비스에 공유하는 업무 관리체계를 갖출 것을 요구했다.
맹 위원장은 "네이버가 사적, 공적 가치를 동시에 추구하기 위해 내세운 전략 중 하나인 뉴스 서비스 자동화는 공정성·신뢰성 문제의 해결을 위한 하나의 대안이 될 수 있다"며 "인간편집과 AI 기술의 조합이 선호되는 만큼 좀 더 다각적인 추가 논의가 필요하다"고 말했다.
이어 "뉴스 알고리즘 및 관련 데이터는 네이버의 고유자산이므로 전체 공개가 어렵더라도 어뷰징에 악용되지 않는 범위에서 개략적인 프로세스와 자료 일부를 공개해 공정성 및 객관성을 확보하는 전략을 유지해야 한다"며 "여러 뉴스 서비스 간 공통적으로 좋은 기사에 대한 기준 및 기사 품질 평가 방법을 개발하고 평가자 풀과 평가 관점을 다변화해 품질과 투명성을 향상해야 한다"고 총평했다.