본문 바로가기
상상발전소/문화기술

쇼핑몰과 동영상 플랫폼이 내 취향을 분석한다고? '추천 알고리즘'

by KOCCA 2019. 12. 17.

 

유튜브나 넷플릭스의 추천 알고리즘은 우리가 보고 싶어할 것 같은 콘텐츠를 골라 제안하는 식으로 이용자들의 눈길을 사로잡고 있습니다이러한 추천 알고리즘의 역사와 주된 작동 원리적용 예시는 무엇이 있을까요?

 

▲ 이미지 : 아마존 AI 스피커 ECHO

 

먼저,  인공지능(Artificial Intelligence, AI)이란 무엇인가?’라는 질문을 불쑥 해보고자 합니다. ‘AI’란 개념은 역사적으로 백가쟁명(百家爭鳴)이 벌어진 격전장입니다. 연구자들이 AI를 바로 본 견해만 정리해도 하나의 책이 될 정도인데요. 반복된 논의를 통해 인공지능이란 개념은 ‘인간처럼’, 그리고 ‘이성적으로 보이는’ 체계로 수렴됩니다.

 

알파고(AlphaGo)와 이세돌 9단의 대국 덕에, AI는 우리 사회 내 보편적 용어로 자리 잡았고미래에 살아남기 위해 알아야 할 조건이 됐으며코딩(coding)이란 새로운 항목이 사교육의 영역 안으로 진입했습니다. 그래서 일각에서는 AI의 시대가 왔다고들 합니다. 그러면서, 적어도 시류에 합류해야 한다는 생각에 조바심을 내고, AI와 관련된 상징성 용어에 집착합니다. 코딩기계학습(machine learning), 그리고 미디어 산업에서는 넷플릭스(Netflix)가 그러한 예로 볼 수 있을 것입니다.

 

우리도 ‘넷플릭스처럼’ 해야 하는 거 아니야?

 

방송을 대표한 전통(legacy) 기업의 혁신 전략 회의에서 ‘상사’들의 레퍼토리(repertory) 핵심인 ‘넷플릭스처럼’이 담고 있는 의미 중 하나는 추천 알고리즘(recommendation algorithm)의 적용일 것입니다. d오늘은 바로 이 추천 알고리즘의 역사와 주된 작동 원리, 그리고 적용 예시를 소개하고자 합니다.

 

추천 알고리즘의 목표는 고객관계관리(Customer Relationship Management, CRM)의 극대화입니다. CRM은 고객이 누구인지를 파악해서고객이 원할 것 같은(정확하게는 소비할 것 같은)’ 상품이나 서비스를 제안하는 마케팅 활동입니다조금 과장하면추천 알고리즘을 고도화하는 과정이 CRM 활동이라고 말할 수 있습니다추천 알고리즘의 전제에는 고객을 알아야 물건을 팔 수 있다는 마케팅의 기본 원리가 담겨 있습니다.
 


역사에 대한 논의에 앞서추천 알고리즘의 큰 뼈대에 대해 이야기하고자 합니다추천 알고리즘은 크게 추천할 학습 기반 데이터에 따라 콘텐츠 기반 필터링(content based filtering)과 협업 필터링(collaborative filtering)으로 분류될 수 있습니다콘텐츠 기반 필터링은 추천의 기준이 콘텐츠인데요. 이용자가 소비한 콘텐츠의 특성을 기준으로 그 사람의 취향과 선호를 파악한 뒤 그에 부합하는 콘텐츠를 제공하여 구매 의도를 높이는 것이 콘텐츠 기반 필터링입니다이용자가 이미 소비한’ 콘텐츠를 기준으로 유사한 특성을 가진 콘텐츠를 추천하는 것입니다콘텐츠 기반 필터링의 기반이 된 학습 데이터를 콘텐츠 제공 기업은 최대한 잘게 쪼갭니다이 과정을 특성(feature) 추출이라고 합니다이 특성을 묶어서분석 대상 콘텐츠는 각자의 특성 프로파일(item profile)을 갖게 됩니다음원을 예로 들어보자각각의 음원은 가수장르작사가작곡가 등을 기준으로 재정리한 특성 프로파일에 따라 추천 알고리즘에 분류됩니다. ‘이 곡과 유사한 노래가 특성 프로파일에 기초를 둔 추천인 것입니다.

 

▲ 이미지 : 유튜브 뮤직 이용자 화면 캡처

 

반면협업 필터링은 콘텐츠가 아닌 이용자를 분석 대상의 기초로 삼습니다. 소비자와 유사한 성향이나 선호를 가질 것으로 추정되는 이용자를 유사 이용자군으로 상정하고이들의 소비 결과를 토대로 목표 소비자(targeted customer)에게 콘텐츠를 추천합니다성별연령별로 이뤄지는 추천이 바로 협업 필터링의 대표적인 결과물입니다페이스북이나 링크드인에서 이용자가 친구를 맺은 이들이 본 콘텐츠혹은 친구들이 가입한 그룹에 대한 추천이 협업 필터링에 기반을 둔 것입니다.
 


협업 필터링은 유사 이용자군까지의 데이터 확보라는 전제 조건 때문에데이터 확보가 어려운 기술적 환경 하에서는 시도가 어려운 영역입니다이 같은 한계로 인해, 1980년대 추천 알고리즘의 주류는 콘텐츠 기반 필터링입니다협업 필터링은 1990년대 이후에서야 추천 알고리즘의 중심으로 부상했는데요. AI 기반의 디지털 기업이 적극 활용하면서추천 알고리즘이 일종의 첨단 기법으로 사회적 위상을 갖게 됐지만사실 추천 알고리즘의 역사는 사반세기가 넘는 셈입니다.
 


세월의 흐름과 더불어 알고리즘이 발달을 거듭했는데그 방향은 콘텐츠 기반 알고리즘과 협업 필터링의 장점을 섞기 위해두 알고리즘을 비롯한 여타의 알고리즘을 융합한 앙상블(ensemble) 체계의 형성입니다기실이용자의 소비 이력에 근거하기에콘텐츠 기반 필터링은 이용자의 소비라인을 보다 깊게 만들 수 있습니다그러나 콘텐츠 기반 필터링으로는 이용자의 과거 소비 틀에서 벗어난 상품이나 서비스의 추천이 어렵습니다반면협업 필터링은 이용자가 포함된 집단의 소비 결과를 토대로 추천이 이뤄지기에이용자의 기존 소비 틀에서 벗어난 새로운 분야의 상품이나 서비스의 추천도 가능합니다기업 입장에서는 고객의 소비라인 폭을 확장시키는 효과의 창출을 꾀할 수 있습니다.

 

▲ 이미지 : SKT-SK브로드밴드 <T&B 코드 챌린지> 공식 이미지

 

여러 분야에 다양하게 적용되어 왔지만, 추천 알고리즘이 가장 광범위하게 활용된 콘텐츠는 영화입니다영화를 위한 추천 시스템은 1997년 무비렌즈(Movielens)가 선보였고, 2006년에 100만 달러의 상금을 걸고 추천 알고리즘 경진 대회를 연 넷플릭스에 의해 일반화됐습니다추천 알고리즘 경진 대회는 SK텔레콤과 SK브로드밴드가 2018년 ‘T&B 코드 챌린지’ 란 이름으로 국내에서 진행하기도 했습니다경연 주제는 영화나 드라마 등 미디어 콘텐츠의 추천 정확도였는데요영상 콘텐츠에 대한 추천 알고리즘 도입은 KT도 SK통신 진영 못지않게 빨랐습니다KT는 2014년 올레 TV의 데이터를 초 단위 미만으로 잘게 잘라 분석한 뒤 소비자에게 맞춤형 콘텐츠를 제공하기도 했으며, 2016년에는 쇼핑 큐레이션 서비스인 쇼닥을 출시했다가 1년 뒤 내린 바 있습니다쇼닥은 쇼핑(shopping)과 닥터(doctor)의 앞 글자를 따서 만든 말입니다

넷플릭스가 추천 알고리즘의 경쟁력에 집중했던 까닭은 당시에 DVD 업체였던 사업 구조상의 체계적(systematic) 문제를 돌파하기 위함입니다. DVD는 신작 효과가 떨어지면대여 빈도가 대폭으로 떨어지게 됩니다. DVD가 소비되는 기간을 늘리고 재고 자산을 활용할 방안을 찾지 못하면비용만 늘고 매출 증가는 더디게 되는 구조적 체계에서 허우적댈 수밖에 없습니다신작 효과가 떨어진 콘텐츠의 유통 기간을 늘리는 것은 모든 콘텐츠 기업의 숙원이라 해도 과언은 아닐 것입니다이러한 실질적 필요성 때문인지 영화논문 등 콘텐츠를 쌓아 두고 이를 매개하는 서비스 업체들 중심으로 추천 알고리즘은 발달했습니다.

 

▲ 이미지 : 웨이브(Wavve) 이용자 화면 캡처

 

아울러, 발견(finding)’이 소비의 결정적 순간으로 작용하는 분야에서도 추천 알고리즘은 적극 채택되어 왔는데관련된 대표 산업이 온라인 쇼핑즉 e-커머스(e-commerce)입니다. 제한된 쇼핑 시간 동안에 이용자의 소비 행동을 극대화하기 위해 선택될 가능성이 높은 품목을 선별해서 전달하는 능력은 동서고금을 막론하고 커머스 산업의 승패를 가르는 요인입니다디지털 환경에서는 양극단의 규모가 사람이 일일이 관리하기에는 벅찹니다공급되는 상품도관리해야 할 고객 규모도 너무 많기 때문입니다. 추천 알고리즘은 이러한 물리적 한계를 극복하는데 기여할 뿐만 아니라본래 취지에 맞게 적합한 추천을 제공함에 따라 활용 폭이 확대되고 있습니다이로 인해 머스 외 뉴스, 유튜브와 같이 영상 콘텐츠를 매개하는 미디어 플랫폼도 뉴스 배열 및 전달의 역할을 ‘인간 에디터’가 아닌 ‘알고리즘’에 맡기고 있는 것입니다.
 


스마트 기기의 보편화와 여러 기기에서 인터넷을 자유로이 활용하여 끊김 없이 콘텐츠를 소비할 수 있는 N-스크린(N-screen)의 시대가 도래하면서이용자의 미디어 콘텐츠 활용 시간을 두고 경쟁이 첨예화되고 있습니다경쟁의 국면을 톺아보면콘텐츠의 형질이 만들었던 벽은 무의미해졌습니다이제 콘텐츠 시장은 언론사방송사통신사인터넷업체 간 만인에 대한만인의 투쟁의 무대가 됐고제한된 시간 속 고객의 이목을 잡을 수 있는 순간의 경쟁력을 제고하는 추천 알고리즘의 중요성은 날로 높아지고 있습니다.
 


추천 알고리즘이 고객을 알아가는 1차 단계는 관련 자료의 수집입니다. 현재도 소비자의 데이터는 기업에서 긴요하게 쓰입니다데이터 경쟁력이 더욱 중요해지는 AI 시대가 본격화될수록소비자 데이터의 중요성은 더욱 커집니다. 이러한 맥락에서추천 알고리즘의 시발점이자 그것의 경쟁력 결정 요인이 되는 데이터 수집에 대한 국내외 기업 간의 차이가 발생하고 있습니다국내 기업은 우리 사회 제도의 틀을 준수해야 하기에서비스 별로 소비자 동의를 받아야 합니다반면해외 기업은 가입 시자사의 정책 동의를 근거로 포괄적인 데이터 수집이 가능합니다.
 


확보할 수 있는 이용자 정보량은 알고리즘의 경쟁을 좌우합니다전투에 나갈 때 상대를 얼마나 알고 나가느냐에 따라 승률이 영향을 받는 것과 같은 이치입니다OTT 중심의 콘텐츠 유통 경쟁 본격화는 곧 데이터 경쟁력에 기반한 추천 알고리즘 능력 격차 심화로 이어질 것이며이는 유치원생과 대학생 간 경주(競走)로 빗대어 설명할 수 있습니다. 콘텐츠 시장이 글로벌한 공간이 된 상황임을 감안할 때이는 AI 경쟁력 강화 및 확보를 위해 챙겨야 할 이슈입니다.  

 

 

 

 김대원(언론학 박사, 미디어 전략·정책 전공)
이 글은 한국콘텐츠진흥원 정기간행물 "방송트렌드&인사이트 20호"에 게재된 글을 활용하였습니다.

 

 

 

 

한국콘텐츠진흥원 포스트 더보기 

 

 

 

5천만 뷰 돌파! 웹툰 일진에게 찍혔을 때 인기 있을 수 밖에 없는 이유

[BY 한국콘텐츠진흥원] 그야말로 콘텐츠 레드오션입니다. 지상파 3사가 전부였던 시대에서 종편, 케이...

m.post.naver.com

 

내 꿈은 지자체 유튜브 1위. 충주를 키우는 충주의 아들 공무원 유튜버 '충주시 홍보맨'

[BY 한국콘텐츠진흥원] 수많은 공공기관들이 유튜브 채널 개설에 나서고 있지만 흥행에는 난항을 겪고 ...

m.post.naver.com

 

"비오는 날에 어울리는 음악 틀어줘"AI(인공지능), 스마트 스피커에 빠지다

[BY 한국콘텐츠진흥원] 첫째도 AI(인공지능, Artificial Intelligence), 둘째도 AI, 셋째도 AI.지난 7월,...

m.post.naver.com

 

[컬처in피플] 인터뷰② 1인 크리에이터 박막례 할머니

[BY 한국콘텐츠진흥원] 1인 크리에이터 박막례 할머니 - 이미지 출처 : 한국콘텐츠진흥원 오늘 <컬처i...

m.post.naver.com