CWN(CHANGE WITH NEWS) - 추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

  • 흐림인제16.6℃
  • 흐림금산21.1℃
  • 구름많음속초20.7℃
  • 흐림순창군20.9℃
  • 흐림부안21.4℃
  • 흐림울산23.8℃
  • 흐림세종21.1℃
  • 흐림흑산도23.9℃
  • 구름많음북춘천18.2℃
  • 흐림이천19.1℃
  • 흐림원주19.6℃
  • 흐림김해시23.8℃
  • 흐림봉화17.6℃
  • 흐림목포23.6℃
  • 흐림창원23.3℃
  • 흐림추풍령20.0℃
  • 흐림영광군21.8℃
  • 흐림동해20.6℃
  • 흐림남해22.6℃
  • 흐림북부산25.1℃
  • 구름많음인천23.6℃
  • 흐림광주22.7℃
  • 구름많음고창21.6℃
  • 흐림전주22.4℃
  • 흐림영월17.1℃
  • 흐림태백16.2℃
  • 흐림춘천18.7℃
  • 구름많음통영23.6℃
  • 흐림의령군20.5℃
  • 흐림서청주20.1℃
  • 흐림강릉21.1℃
  • 흐림홍성21.6℃
  • 흐림남원23.6℃
  • 흐림진주21.7℃
  • 흐림문경18.8℃
  • 흐림고흥24.4℃
  • 흐림수원22.7℃
  • 흐림함양군20.2℃
  • 흐림경주시22.9℃
  • 흐림장흥25.1℃
  • 흐림청송군19.3℃
  • 흐림고창군21.7℃
  • 흐림거제24.0℃
  • 흐림여수24.0℃
  • 흐림청주23.0℃
  • 흐림동두천19.2℃
  • 흐림성산23.4℃
  • 흐림천안20.9℃
  • 흐림충주21.0℃
  • 흐림진도군24.1℃
  • 흐림부여21.6℃
  • 흐림영덕22.7℃
  • 흐림제천18.6℃
  • 흐림해남25.2℃
  • 흐림완도23.7℃
  • 흐림양산시25.2℃
  • 흐림임실20.2℃
  • 흐림밀양24.7℃
  • 흐림구미21.3℃
  • 흐림영주19.4℃
  • 흐림제주23.9℃
  • 흐림강진군24.6℃
  • 흐림서울22.9℃
  • 흐림상주20.1℃
  • 흐림울진21.5℃
  • 구름많음강화20.4℃
  • 흐림군산22.2℃
  • 흐림합천21.2℃
  • 비서귀포24.3℃
  • 흐림장수18.4℃
  • 흐림보은21.6℃
  • 흐림순천19.6℃
  • 흐림북강릉20.9℃
  • 흐림울릉도23.4℃
  • 흐림양평20.2℃
  • 흐림보성군24.0℃
  • 흐림북창원23.8℃
  • 흐림정선군16.2℃
  • 흐림대전21.9℃
  • 흐림파주18.5℃
  • 구름많음고산24.8℃
  • 흐림정읍21.8℃
  • 흐림산청20.2℃
  • 흐림포항24.0℃
  • 흐림보령23.2℃
  • 흐림부산24.6℃
  • 흐림홍천17.7℃
  • 구름많음백령도22.6℃
  • 흐림광양시23.9℃
  • 흐림의성19.2℃
  • 흐림대관령17.0℃
  • 구름많음안동20.1℃
  • 구름많음철원18.3℃
  • 흐림대구21.7℃
  • 흐림거창20.0℃
  • 흐림서산22.2℃
  • 흐림영천20.7℃
  • 2025.09.12 (금)

추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

김미경 / 기사승인 : 2021-02-21 22:15:31
  • -
  • +
  • 인쇄

바야흐로 추천 서비스의 시대다. 내가 원하는 콘텐츠를 직접 검색하지 않아도 유튜브에는 추천 동영상이, 쇼핑몰 사이트에는 추천 상품이 끊임없이 펼쳐진다. 나도 잘 모르던 내 취향까지 더 자세히 알고있는 듯한 알고리즘. 추천 콘텐츠는 어떤 기준으로 결정되는 걸까? 추천 알고리즘의 작동 원리를 살펴본다.

사용자가 선호할 만한 아이템을 추측하여 적합한 특정 항목을 제공해 주는 기본적인 알고리즘에는 협업 필터링(Collaborative filtering)과 콘텐츠 기반 필터링(Content-based filtering)이 있다. 협업 필터링은 사용자의 ‘행동 기록’을, 콘텐츠 기반 필터링은 ‘콘텐츠의 특성 자체’를 분석하여 추천한다.

1. 협업 필터링: 사람들의 행동 기록을 분석하다
‘협업 필터링’이란 특정 집단에서 발생하는 ‘유사한 사용행동’을 파악하여, 비슷한 성향의 사람들에게 아이템을 추천하는 기술이다. 협업 필터링은 성향이 비슷하면, 선호하는 것도 비슷할 것이라는 가정을 전제로 한다. 협업 필터링은 사용자 기반 협업 필터링(User-based CF), 아이템 기반 협업 필터링(Item-based CF)으로 구분된다.

사용자 기반 협업 필터링

나와 성향이 비슷한 사람들이 사용한 아이템을 추천해 주는 방식이다. 예를 들어, 사용자 A가 온라인 몰에서 선크림과 튜브, 그리고 수영복 함께 구매하고, 또 다른 사용자 B는 선크림과 튜브를 구매했다고 가정해 보자. 알고리즘은 구매 목록이 겹치는 이 두 사용자가 유사하다고 판단해, 사용자 B에게 수영복을 추천한다.

페이스북이나 링크드인 등의 SNS ‘친구 추천' 서비스 역시 같은 방식을 적용한다. 나와 친구를 비슷한 성향으로 인식하여, 친구의 친구들을 나에게도 추천한다.

아이템 기반 협업 필터링

내가 구매하려는 물품과 함께 구매된 경우가 많은 아이템을 추천해 주는 필터링 방식이다. 예를 들어, 다이어리와 볼펜을 함께 구매하는 소비자가 많다면, 다이어리를 구매한 사용자에게 볼펜을 추천한다.

이때, 두 상품의 특징은 파악하지 않는다. 즉, 다이어리와 만년필이 사무용품인지, 서로 같이 사용되는 관계인지 등은 고려하지 않는다. 다만, 두 제품이 같이 구매된 기록이 많기에 새로운 사용자에게도 추천할 뿐이다.

협업 필터링의 장·단점

많은 사용자에게서 얻은 기호 정보로 새로운 아이템을 추천하는 협업필터링은 직관적으로 이해하기 쉽고, 합리적인 것처럼 보인다. 하지만, 기존의 기록으로 분석하기 때문에 다음의 문제를 야기한다.

첫째, 콜드 스타트(Cold start) 문제이다. 새로운 아이템이나 사용자가 추가되면, 충분한 사용기록이 확보될 때까지는 적절한 추천을 하기 어렵다.

둘째, 롱테일(Long tail)의 문제이다. 인기 편향성의 문제라고도 한다. 사용자가 소수의 아이템만 선호하여, 대다수의 비인기 아이템들은 추천을 위한 충분한 정보가 쌓이지 못한다.

둘째, 사용기록 규모성의 문제이다. 사용기록 데이터가 적으면, 추천의 정확성도 낮아지지만 사용기록이 너무 많을 경우에도 문제가 발생한다. 유사집단을 분류할 때 적용해야 하는 알고리즘이 많고, 처리시간도 길어지기 때문이다.

2. 콘텐츠 기반 필터링: 콘텐츠의 특성 자체를 분석하다
콘텐츠 기반 필터링은 콘텐츠(아이템)의 특성과 사용자의 선호도를 비교해 추천하는 방식이다. 먼저, 콘텐츠를 설명하는 요소를 쪼갠다.

예를 들어, 영화라면 줄거리나 등장인물, 상품이라면 상세 페이지의 설명, 음악은 장르, 가수, 비트 등이 분석 대상이다. 다음으로 사용자가 기존에 좋아한 콘텐츠가 어떤 특징을 가지고 있는지 확인한다. 이렇게 해당 특징을 갖춘 다른 콘텐츠를 추천하는 게 가능해진다.

콘텐츠 기반 필터링은 콘텐츠 자체를 분석하기 때문에 사용자 행동 정보가 많이 필요하다는 협업 필터링의 단점을 해결할 수 있다. 하지만, 다양한 형식의 항목을 추천하기 어렵다는 단점이 있다. 예를 들어, 음악과 사진은 얻을 수 있는 정보가 다르기 때문에, 음악의 데이터를 바탕으로 사진을 추천해주기 어렵다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue