CWN(CHANGE WITH NEWS) - 추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

  • 흐림장수23.5℃
  • 구름많음양산시28.0℃
  • 흐림영천25.6℃
  • 흐림울산24.6℃
  • 구름많음속초25.2℃
  • 흐림목포26.1℃
  • 흐림흑산도24.7℃
  • 흐림고창군26.4℃
  • 구름많음의성24.8℃
  • 흐림양평23.1℃
  • 흐림추풍령21.6℃
  • 흐림울진24.0℃
  • 흐림동해25.5℃
  • 흐림금산24.1℃
  • 흐림인제21.2℃
  • 구름많음백령도24.8℃
  • 구름많음서울25.1℃
  • 흐림대관령19.1℃
  • 흐림부산28.2℃
  • 흐림보성군26.5℃
  • 구름많음밀양27.2℃
  • 흐림원주22.8℃
  • 흐림정선군21.8℃
  • 구름많음고산29.3℃
  • 흐림정읍26.3℃
  • 흐림세종24.8℃
  • 구름많음진도군28.1℃
  • 흐림거제26.1℃
  • 흐림경주시24.9℃
  • 흐림부안23.8℃
  • 흐림강릉25.0℃
  • 흐림순창군25.2℃
  • 흐림합천24.8℃
  • 흐림청주24.8℃
  • 흐림태백21.1℃
  • 흐림제천22.7℃
  • 흐림광주25.8℃
  • 흐림대구25.6℃
  • 구름많음인천25.1℃
  • 흐림청송군24.1℃
  • 구름많음창원26.3℃
  • 흐림영광군25.2℃
  • 구름많음고흥28.4℃
  • 흐림영월24.1℃
  • 흐림춘천22.3℃
  • 흐림산청23.2℃
  • 구름많음강화25.0℃
  • 흐림통영26.3℃
  • 흐림철원23.8℃
  • 구름많음파주25.1℃
  • 흐림남해24.1℃
  • 흐림안동24.2℃
  • 흐림임실25.5℃
  • 흐림광양시25.1℃
  • 흐림완도27.6℃
  • 흐림장흥27.2℃
  • 흐림진주24.8℃
  • 흐림거창24.1℃
  • 구름조금제주28.4℃
  • 흐림홍천21.1℃
  • 흐림강진군26.3℃
  • 구름많음북부산27.8℃
  • 흐림봉화25.1℃
  • 구름많음서귀포30.0℃
  • 흐림보령25.5℃
  • 흐림북춘천22.6℃
  • 흐림충주24.2℃
  • 흐림북강릉24.4℃
  • 흐림대전24.9℃
  • 흐림순천24.5℃
  • 흐림구미24.0℃
  • 흐림서청주23.4℃
  • 흐림영주25.1℃
  • 구름많음성산30.7℃
  • 흐림함양군23.6℃
  • 흐림상주22.6℃
  • 흐림의령군24.9℃
  • 흐림서산24.0℃
  • 흐림포항24.8℃
  • 흐림이천22.9℃
  • 구름많음북창원26.5℃
  • 흐림울릉도24.4℃
  • 흐림보은23.6℃
  • 흐림군산23.8℃
  • 흐림부여24.2℃
  • 구름많음여수24.1℃
  • 구름많음동두천26.1℃
  • 흐림문경22.8℃
  • 흐림홍성23.9℃
  • 흐림김해시27.9℃
  • 흐림해남26.7℃
  • 흐림천안23.6℃
  • 흐림영덕23.9℃
  • 흐림전주27.1℃
  • 흐림남원24.8℃
  • 흐림수원24.6℃
  • 흐림고창25.7℃
  • 2025.09.12 (금)

추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

김미경 / 기사승인 : 2021-02-21 22:15:31
  • -
  • +
  • 인쇄

바야흐로 추천 서비스의 시대다. 내가 원하는 콘텐츠를 직접 검색하지 않아도 유튜브에는 추천 동영상이, 쇼핑몰 사이트에는 추천 상품이 끊임없이 펼쳐진다. 나도 잘 모르던 내 취향까지 더 자세히 알고있는 듯한 알고리즘. 추천 콘텐츠는 어떤 기준으로 결정되는 걸까? 추천 알고리즘의 작동 원리를 살펴본다.

사용자가 선호할 만한 아이템을 추측하여 적합한 특정 항목을 제공해 주는 기본적인 알고리즘에는 협업 필터링(Collaborative filtering)과 콘텐츠 기반 필터링(Content-based filtering)이 있다. 협업 필터링은 사용자의 ‘행동 기록’을, 콘텐츠 기반 필터링은 ‘콘텐츠의 특성 자체’를 분석하여 추천한다.

1. 협업 필터링: 사람들의 행동 기록을 분석하다
‘협업 필터링’이란 특정 집단에서 발생하는 ‘유사한 사용행동’을 파악하여, 비슷한 성향의 사람들에게 아이템을 추천하는 기술이다. 협업 필터링은 성향이 비슷하면, 선호하는 것도 비슷할 것이라는 가정을 전제로 한다. 협업 필터링은 사용자 기반 협업 필터링(User-based CF), 아이템 기반 협업 필터링(Item-based CF)으로 구분된다.

사용자 기반 협업 필터링

나와 성향이 비슷한 사람들이 사용한 아이템을 추천해 주는 방식이다. 예를 들어, 사용자 A가 온라인 몰에서 선크림과 튜브, 그리고 수영복 함께 구매하고, 또 다른 사용자 B는 선크림과 튜브를 구매했다고 가정해 보자. 알고리즘은 구매 목록이 겹치는 이 두 사용자가 유사하다고 판단해, 사용자 B에게 수영복을 추천한다.

페이스북이나 링크드인 등의 SNS ‘친구 추천' 서비스 역시 같은 방식을 적용한다. 나와 친구를 비슷한 성향으로 인식하여, 친구의 친구들을 나에게도 추천한다.

아이템 기반 협업 필터링

내가 구매하려는 물품과 함께 구매된 경우가 많은 아이템을 추천해 주는 필터링 방식이다. 예를 들어, 다이어리와 볼펜을 함께 구매하는 소비자가 많다면, 다이어리를 구매한 사용자에게 볼펜을 추천한다.

이때, 두 상품의 특징은 파악하지 않는다. 즉, 다이어리와 만년필이 사무용품인지, 서로 같이 사용되는 관계인지 등은 고려하지 않는다. 다만, 두 제품이 같이 구매된 기록이 많기에 새로운 사용자에게도 추천할 뿐이다.

협업 필터링의 장·단점

많은 사용자에게서 얻은 기호 정보로 새로운 아이템을 추천하는 협업필터링은 직관적으로 이해하기 쉽고, 합리적인 것처럼 보인다. 하지만, 기존의 기록으로 분석하기 때문에 다음의 문제를 야기한다.

첫째, 콜드 스타트(Cold start) 문제이다. 새로운 아이템이나 사용자가 추가되면, 충분한 사용기록이 확보될 때까지는 적절한 추천을 하기 어렵다.

둘째, 롱테일(Long tail)의 문제이다. 인기 편향성의 문제라고도 한다. 사용자가 소수의 아이템만 선호하여, 대다수의 비인기 아이템들은 추천을 위한 충분한 정보가 쌓이지 못한다.

둘째, 사용기록 규모성의 문제이다. 사용기록 데이터가 적으면, 추천의 정확성도 낮아지지만 사용기록이 너무 많을 경우에도 문제가 발생한다. 유사집단을 분류할 때 적용해야 하는 알고리즘이 많고, 처리시간도 길어지기 때문이다.

2. 콘텐츠 기반 필터링: 콘텐츠의 특성 자체를 분석하다
콘텐츠 기반 필터링은 콘텐츠(아이템)의 특성과 사용자의 선호도를 비교해 추천하는 방식이다. 먼저, 콘텐츠를 설명하는 요소를 쪼갠다.

예를 들어, 영화라면 줄거리나 등장인물, 상품이라면 상세 페이지의 설명, 음악은 장르, 가수, 비트 등이 분석 대상이다. 다음으로 사용자가 기존에 좋아한 콘텐츠가 어떤 특징을 가지고 있는지 확인한다. 이렇게 해당 특징을 갖춘 다른 콘텐츠를 추천하는 게 가능해진다.

콘텐츠 기반 필터링은 콘텐츠 자체를 분석하기 때문에 사용자 행동 정보가 많이 필요하다는 협업 필터링의 단점을 해결할 수 있다. 하지만, 다양한 형식의 항목을 추천하기 어렵다는 단점이 있다. 예를 들어, 음악과 사진은 얻을 수 있는 정보가 다르기 때문에, 음악의 데이터를 바탕으로 사진을 추천해주기 어렵다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue