콘텐츠로 건너뛰기
Home » 검색엔진 최적화 » 구글 검색 알고리즘 유출 11가지 핵심 내용

구글 검색 알고리즘 유출 11가지 핵심 내용

구글 검색 알고리즘 유출 11가지 핵심 내용
구글 검색 알고리즘 유출 11가지 핵심 내용
구글 검색 알고리즘 유출 11가지 핵심 내용

소비자의 검색 쿼리에 최선의 응답을 하기 위해 노력하는 구글은 어떠한 검색 알고리즘을 지니고 있을까요?

구글은 사용자의 의도에 가장 적합한 검색 결과를 내는 것을 목표로 합니다. 그리고 그러한 목표에 가까워지기 위해 자체 구글 검색 순위 알고리즘을 활용하고 있습니다.

그간 구글은 검색 알고리즘을 비밀로 유지해왔고, 구글 상위 노출에 가까워지고자 하는 사람들은 구글 검색 순위가 어떠한 알고리즘이 반영되어 작동되는 것인지 궁금해 해왔습니다. 그러나 최근 이러한 구글 검색 알고리즘에 대한 정보가 유출되었습니다. 이번 글에서는 구글 검색 알고리즘 유출 내용의 핵심사항을 함께 살펴보려고 합니다.


💡 아래에서 관심 있는 주제를 클릭하여 해당 본문으로 바로 이동해보세요.

구글 검색 알고리즘 유출이란?

구글 검색 작동 시스템

구글 검색 알고리즘 유출 핵심 내용 11가지


구글 검색 알고리즘 유출이란?

2024년 3월 13일 구글 API 콘텐츠 웨어하우스(Google API Content Warehouse)에서 가져온 것으로 보이는 수천 개의 문서가 yoshi-code-bot이라는 자동화 봇에 의해 깃허브 공개 리포지토리에 올라왔습니다. 구글 API 콘텐츠 웨어하우스는 구글 내부 문서로, 구글의 순위 알고리즘이 어떻게 작동하는지에 대한 요소가 담겨있는 것으로 알려졌습니다. 문서에는 2,596개 모둘, 14,014개 속성에 대한 기술이 있습니다. 검색 결과 순위에서 고려되는 요소에 대한 내용은 기술되어 있지만, 어떤 요소가 어떤 가중치를 지니고 있는지에 대한 구체적인 내용은 기술되어 있지 않았습니다.

구글 API 콘텐츠 웨어하우스 문서는 구글 검색의 비밀 소스, 즉 알고리즘의 일부인 것으로 보입니다. 웹사이트나 콘텐츠의 다양한 특성에 할당하는 가중치를 검색 순위 시스템이 직접적으로 표시하지는 않지만, 구글이 웹사이트에서 수집하고 있는 세부정보를 표시하고 있습니다. 따라서 이번 유출 내용을 통해서 구글 검색이 실제로 어떻게 작동하는가에 대한 매우 중요한 정보를 얻을 수 있습니다. 또 이것이 그동안 구글이 공개적으로 언급한 내용과 모순된다는 것도 주목해 볼 만한 지점입니다.


구글 검색 작동 시스템

구글 검색 알고리즘 유출 내용에서 새롭게 얻을 수 있는 정보를 알아보기 전, 구글 검색의 작동 시스템부터 함께 살펴봅시다. 구글 검색 쿼리는 사용자에게는 그저 단순한 하나의 서비스일 뿐이라고 받아들여질 수 있지만, 실은 어마어마한 규모의 산업이 연결되어 있는 시스템이라고 볼 수 있습니다. 유출의 심각성 및 구글 검색 알고리즘의 중요성을 인지하기 위해서는 구글 검색을 수행할 때 어떤 일이 발생하는지 이해할 필요가 있습니다.

크롤링 – 인덱싱 – 랭킹

사용자는 정보가 필요할 때 검색 엔진을 이용합니다. 그들은 검색 엔진에 조회할 쿼리를 입력하고, 검색 엔진은 그들의 질문에 대답이 될 수 있는 답변을 제시합니다. 검색 엔진 작동 방식의 원리는 크게 세 가지로 나누어 살펴볼 수 있습니다.

  • 크롤링(Crawling) : 크롤링이란 검색 엔진에서 새롭게 업데이트된 콘텐츠를 찾고 발견하는 것을 말합니다. 검색 엔진은 누가 무엇에 대답할 수 있는지를 찾아내기 위해 인터넷 데이터 전체를 알아야 합니다. 이를 위해 검색 엔진은 전체 인터넷을 크롤링합니다. 즉, 모든 단일 웹사이트를 방문하는 것이죠.
  • 인덱싱(Indexing) : 인덱싱은 크롤링 과정 중 발견한 웹사이트를 저장하고 정리하는 것입니다. 크롤러가 방문한 페이지의 데이터와 콘텐츠가 분석되며 이 정보는 검색하기 쉬운 방식으로 저장되게 됩니다. 페이지가 인덱싱까지 완료됐다면 검색 엔진에서 콘텐츠와 관련성 있는 검색어로 노출될 준비가 되었다고 볼 수 있습니다.
  • 랭킹(Ranking) : 수백개의 웹사이트가 동일한 쿼리에 답하려고 하기 때문에 사용자에게 누가 먼저 표시되는지 보여주는 시스템이 필요합니다. 가장 눈에 띄는 형태는 검색 엔진 결과 페이지(SERP)에서 웹사이트가 나타나는 위치입니다. 순위 시스템은 누가 첫 번째 자리에 배치되는지, 누가 첫 페이지에 배치되는지, 특정 기사에 어떤 검색어 조합이 표시되는지 등을 결정합니다.

검색 엔진 순위의 중요성

구글은 검색 트래픽의 대부분을 제어하는 세계 최대의 검색 엔진입니다. 따라서 이러한구글에서 인기있는 SERP에 첫 번째 웹사이트로 상위 노출되는 것은 매우 큰 영향력을 지닐 수 있습니다.

대부분의 사용자는 첫 번째 결과만 클릭합니다. 검색 순위가 아래에 있을수록 트래픽의 유입은 더 적어지는 것이죠. 구글 검색 시, 네 번째 또는 다섯 번째 결과를 클릭했던 순간이 기억나시나요? 대게 아래 검색 결과까지 클릭한 경우는 첫 번째 결과가 만족스럽지 않았기 때문일 것입니다. 그러나 이러한 경우에도 구글 검색 결과의 첫 페이지의 모든 결과를 다 살펴보기도 전에, 검색어를 변경하거나 구체화하여 다시 검색할 가능성이 큽니다. 즉, 사용자는 처음 보이는 몇 가지의 상위 노출 콘텐츠를 대부분 넘어서지 않는다는 것입니다. 그렇다면 우리는 어떤 콘텐츠를 어떻게 만들어야  우리의 웹사이트를 구글 검색 결과 상위에 안착시킬 수 있을까요?

구글의 검색 품질 평가 지침, E-E-A-T

E-E-A-T는 구글 검색 알고리즘에서 랭킹을 정하는 요소는 아니지만, 웹사이트에서 콘텐츠를 게시할 때 따라야 할 콘텐츠 지침의 형식으로 ‘사람 중심 콘텐츠’를 권고하고 있습니다. 경험(Experience), 전문성(Expertise), 권위성(Authoritativeness), 신뢰성(Trustworthness)을 의미하는 E-E-A-T에 대해 더 자세히 알고 싶다면 E-E-A-T, 검색 품질을 높이는 4가지 기준 글을 참고해주시길 바랍니다. E-E-A-T 지침을 준수한다면, 구글이 해당 사용자의 콘텐츠를 좋은 콘텐츠로 식별하고 그에 따라 높은 랭킹을 부여받을 수 있습니다. 그러나, 이번 구글 검색 알고리즘 유출을 통해 구글이 밝혀온 가이드라인 이외의 다른 정보들을 얻을 수 있었습니다.


구글 검색 알고리즘 유출 핵심 내용 11가지

이번 유출은 구글이 웹사이트에서 수집하고 있는 세부정보를 표시하고 있는 실제 내부 문서임은 확인되었습니다. 그러나 이는 과거에 사용되었던 지표로, 현재까지 유효한 것일지 또 미래에도 사용될 것인지는 불분명하다는 점을 감안해주시길 바랍니다.

(1) 클릭 관련 데이터 수집

그간 구글은 클릭 관련 지표를 사용하지 않는다고 반복 강조해왔으나 클릭 수, 클릭 사이 시간 간격 등 클릭 관련 데이터를 수집하고 있는 것으로 문서에 드러났습니다. 이를 통해 검색 순위 결정에 사용되지 않는다고 밝혔던 클릭 및 클릭 후 행동 데이터를 수집하고 사용할 가능성이 있다는 것을 알 수 있습니다. 구글은 badClicks, goodClicks, lastLongestClicks, unsquashedClicks 등 다양한 클릭을 측정하고 있었습니다. 세션 중에 가장 긴 클릭이 발생한 결과도 저장하는 것으로 보아, 단순히 검색하고 해당 결과를 클릭하는 것만으로 그치는 것으로는 부족하며 사용자가 페이지에서 상당한 시간을 소비해야 한다는 것을 알 수 있습니다. 즉, 구글이 순위 알고리즘의 일부로 클릭과 클릭 후 행동을 사용하며, 성과로 이어질 수 있는 클릭이 중요하다는 사실은 의심의 여지가 없는 것입니다.

(2) 샌드박스

샌드박스가 없다고 밝히는 구글
출처 : ipullrank

샌드박스란 신생 웹사이트나 의심스러운 웹사이트를 일정 기간 동안 검색 결과에서 낮은순위에 위치하는 시스템을 의미합니다. 현재 삭제된 트윗에서 구글의 수석 검색 기술자 John Muller는 순위를 매기는데 시간이 얼마나 걸리는가에 대한 질문에, “There is. No sandbox.”라며 샌드박스가 없다고 밝혔던 바가 있습니다. 그러나 PerDocData 모듈에서 제공 시간에 새로운 스팸을 샌드박스 처리하는데 사용되는 hostAge 속성이 있는 것으로 확인되었습니다. 신뢰를 기준으로 웹사이트를 분류하는 샌드박스가 없다고 주장했으나, 신생 웹사이트나 신뢰가 부족한 웹사이트를 검색 결과에서 분리하는 샌드박스의 존재가 발견된 것입니다.

(3) 크롬 데이터 반영

구글 엔지니어였던 Matt Cutts는 이전에 구글이 자연 검색(Organic Search)의 일부로 크롬 데이터를 사용하지 않는다고 말했습니다. 그러나 페이지 품질 점수와 관련된 모듈 중 하나는 크롬의 사이트 수준과 조회수 측정 기능을 제공합니다. 또 사이트 링크 생성과 관련된 것으로 보이는 또 다른 모듈에도 크롬 관련 속성이 있었습니다. 구글이 공개적으로 밝혀왔던 것과 모순되는 내용에, 마케팅기업 아이풀랭크(iPullRank)의 CEO이자 SEO 전문가인 마이크 킹(Mike King)은 “거짓말이라는 것이 가혹한 표현일 수 있지만, 여기에서 사용할 수 있는 유일하게 정확한 단어이다”라며 비판하기도 했습니다.

(4) 도메인 권위

유출 문서 내에서 2011년 검색 엔진 알고리즘 구글 판다(Google Panda) 업데이트 후 존재를 시사했다가 부인했던 siteAuthority 기능이 발견되었습니다. 구글은 문서별로 저장되는 압축 품질 신호의 일부로 siteAuthority를 계산합니다. 특정 웹사이트의 신뢰성과 권위를 평가하는 도메인 권위 지표가 발견된 것인데요. 도메인 권위는 쉽게 말하면 도메인의 유명세라고도 할 수 있습니다. 도메인이 유명할수록 더 높은 SEO(검색엔진 최적화) 점수를 주는 것입니다. 이를 통해 도메인 권위가 높을수록 SEO에 유리하다는 것을 알 수 있습니다.

(5) 작성자 데이터 수집

작성자 데이터를 수집하는 구글 검색 알고리즘
출처 : ipullrank

순위 지표로 활용되는지는 확인할 수 없지만, 구글은 페이지에서 작성자 데이터를 수집합니다. 구글은 문서와 관련된 작성자를 텍스트 형식으로 명시적으로 저장합니다. 또한 페이지의 엔터티가 페이지 작성자이기도 한지 확인합니다. 이를 통해 구글은 콘텐츠 작성자의 정보를 저장하고 특정 문서의 저자인지 판단하려 한다는 것을 알 수 있습니다.

(6) 날짜

작성자 정보 뿐만 아니라 URL 등에 포함된 날짜 정보도 확인합니다. 구글은 새로운 결과를 보여주고자 하며, 날짜와 페이지를 연결하려는 수많은 시도를 하고 있습니다.

페이지에 명시적으로 설정된 날짜
출처 : ipullrank
  • bylineDate – 페이지에 명시적으로 설정된 날짜입니다.
URL 또는 제목에서 추출된 날짜
출처 : ipullrank
  • syntacticDate – URL 또는 제목에서 추출된 날짜입니다.
콘텐츠에서 파생된 날짜
출처 : ipullrank
  • semanticDate – 페이지 콘텐츠에서 파생된 날짜입니다.

페이지의 다른 위치에 있는 날짜와 충돌하는 날짜를 URL에 입력하면 콘텐츠 성능이 저하될 수 있습니다. 따라서 날짜를 지정하고 구조화된 데이터, 페이지 제목, XML 사이트맵 전체에서 날짜를 일관되게 유지하는 것이 좋은 방법입니다.

(7) 콘텐츠 평가

문서에서 발견된 OriginalContentScore는 콘텐츠의 품질을 평가하는 데 사용되는 것으로, 짧은 콘텐츠는 독창성(고유성)을 기준으로 점수를 매긴다는 것을 의미합니다. 독창성에 따라 0-512까지의 점수를 부여합니다. 즉, 콘텐츠의 길이가 짧은 경우에는 타 문서의 내용과 겹치는 게 없는지 측정한다는 것입니다.

(8) 변경내역

구글은 과거 인덱싱한 모든 페이지의 모든 버전 사본을 보관합니다. 그러나 링크를 분석할 경우에는 최신 버전 20개만 고려합니다.

(9) YMYL(Your Money Your Life) 페이지

문서에는 구글에 YMYL Health 및 YMYL News에 대한 점수를 생성하는 분류자가 있음이 나와 있습니다. 건강이나 뉴스 등의 이른바 YMYL(Your Money Your Life) 콘텐츠는 구글이 특히 페이지의 품질과 신뢰성을 중요하게 평가하는 부분이기에, 특정 스코어를 부여하는 것입니다.

(10) 사이트 임베딩

사이트가 단일 주제에 얼마나 집중하는지 포착
출처 : ipullrank

siteFocusScore는 사이트가 단일 주제에 얼마나 집중하는지를 포착합니다. siteRadius는 사이트에 대해 생성된 site2vec 벡터를 기반으로 페이지가 핵심 주제에서 벗어나는 정도를 확인합니다. 사이트가 얼마나 특정 주제에 집중되어 있는지, 또 얼마나 해당 주제에서 벗어나는지를 확인하는 데 사용됩니다. 즉, 구글은 벡터 임베딩이라는 기법을 활용하여 웹사이트 콘텐츠 주제의 일관성을 파악하고자 한다는 것을 알 수 있습니다.

(11) 인덱싱 계층과 링크 값

구글 검색 알고리즘 유출 내용에서 발견된 sourceType이라는 측정 항목은 페이지가 인덱싱된 위치와 페이지 가치의 관계를 보여줍니다. 계층이 높을수록 링크의 가치가 더 높아지는 것입니다. 구글은 링크가 최신 페이지이거나 최상위 계층에 포함된 페이지에서 나오길 원한다는 것을 알 수 있습니다. 구글의 인덱스는 중요성에 따라 여러 계층으로 나뉘기에 상위 계층에 있는 페이지에서의 링크는 더 높은 가치로 평가됩니다. 이는 해당 링크가 더 중요하고 신뢰할 수 있는 것으로 간주되기 때문입니다.


지금까지 구글 검색 알고리즘 유출 핵심 내용에 대해 알아봤습니다. 웹사이트를 운영하고 SEO에 관심있는 분들에게 효과적인 SEO 전략을 세우는데 중요한 정보가 될 수 있을 것으로 보입니다.

SEO에 대한 전문적인 컨설팅이 필요하시다면, 하단 링크를 통한 문의 부탁드립니다.

📌 이런 주제의 글은 어떤가요? 😊

구글 AI 검색의 등장, AI 오버뷰와 SEO 활용 전략 알아보기
구글의 AI 검색 기능인 AI 오버뷰와 그로 인한 검색엔진 환경의 변화, 여기에 …
이탈률(Bounce rate)이란? – GA 이탈률 확인 및 개선방법
이탈률은 웹 사이트에 대한 사용자 경험을 판단할 수 있는 지표 중 하나입니다. …
블랙햇 SEO란? – 뜻, 위험성, 종류까지
블랙햇 SEO, 다들 들어보셨나요? 이번 글에서는 블랙햇 SEO가 무엇인지부터 위험성, 블랙햇 SEO …
성공적인 SEO를 위한 모바일 최적화 팁 6가지
모바일 SEO란 스마트폰과 태블릿 등의 모바일 기기에 맞추어 웹 사이트를 최적화하는 프로세스입니다. …

댓글 남기기