はじめに
2024年5月27日、Googleの検索アルゴリズムがおそらく史上最大規模(?)で漏洩されたとのこと。
Google自身は否定していたもののSEO業界では長年疑われていたアルゴリズムの数々が実在していたことも明らかになっている。
というわけで、まとめておく。
元記事はこちら
Googleの検索アルゴリズム漏洩内容
14,000以上のランキング要素
GoogleのAPIドキュメントには14,000以上のランキング要素が存在する。これにより、どの要素が検索結果のランキングに影響を与えるかが明らかになった。これらの要素は多岐にわたり、コンテンツの質、リンクの質、ユーザーの行動などが含まれる。
ドメインオーソリティの存在
Googleは公式にはドメインオーソリティの存在を否定しているが、内部ドキュメントでは「サイトオーソリティ」の存在が確認された。これは特定のサイトが他のサイトよりも信頼性が高いと判断され、検索結果において優遇される可能性があることを示唆している。
ドキュメントごとに保存される圧縮品質シグナルの一部として、Google は「siteAuthority」と呼ばれる機能を計算している。
クリックデータの利用
これもGoogleの公式見解と異なり、NavBoostというランキングシステムにより、ユーザーのクリックデータがランキングに使用されていることが判明。これは、ユーザーがどのリンクをクリックし、どれだけの時間をそのページに費やすかなどのデータが、サイトの評価に影響を与えることを意味する。ユーザーエンゲージメントが高いサイトは、より高いランキングを獲得する傾向がある。
NavBoostは2005年から存在していて、過去18ヶ月のクリックデータを元にしている。
サンドボックスの存在
新しいウェブサイトや信頼度の低いサイトに対しては、「サンドボックス」と呼ばれる期間が設けられる。この期間中、サイトのランキングは制限される。
これにより、新規サイトがすぐに高ランクを獲得するのを防ぎ、時間をかけて信頼性を築く必要がある。
Chromeのデータの利用
Chromeの利用データはサーチに影響しないという公式見解だが、実際はりChromeのデータは使われていた。
Pandaアルゴリズム
Pandaの「サイト品質スコア」特許では、参照クエリとユーザーの選択やクリックの比率がスコアに影響することが示されている。
ランキングを維持したいのであれば、より幅広いクエリを使用してより多くのクリックを成功させ、より多様なリンクを獲得する必要がある。
著者は明確な特徴
Google公式のEEAT推奨通り、author属性は特徴量になっていた。Google はドキュメントに関連付けられた著者をテキストとして明示的に保存している。また、ページ上のエンティティがページの作成者でもあるかどうかを判断する。
2023年9月から導入されたEEATという評価基準に関してはこちら
最新20件のページ更新履歴の保持
Googleはインデックスされたページの最新20件の更新履歴を保持しています。これは、ページの評価が高まった後に、その評価を悪用して別のコンテンツに変更して誘導するハックを防ぐため。例えば、質の高いページを作り、その後にスパムコンテンツに差し替えることを防止している。
→高評価のページは慎重に更新を行い、質を維持することが重要。更新の頻度そのものよりも、更新の内容と品質が重要
短いコンテンツは独創性で評価される
OriginalContentScore は、短いコンテンツは独創性に基づいてスコア付けされることを示している。つまり、コンテンツの評価は必ずしも文字数に依存しない
コンテンツの日付(記事の鮮度)は非常に重要
Google は最新の結果に非常に重点を置いており、文書には日付とページを関連付ける多数の試みが示されている。最も良いのは、日付を指定して、構造化データ、ページ タイトル、XML サイトマップ全体で一貫性を保つこと。ページの他の場所の日付と競合する日付を URL に入れると、コンテンツのパフォーマンスが低下する可能性がある。
動画に特化したサイトは異なる扱い
サイト上のページの 50% 以上に動画が含まれている場合、そのサイトは動画中心であるとみなされ、異なる扱いを受ける。
Embeddingによるトピックチェック
Google はページとサイトをベクトル化し、ページの埋め込みとサイトの埋め込みを比較して、ページがどの程度トピック(ページやサイト全体の主題やテーマを)から外れているかを確認している。
上記を踏まえたSEO対策
個人的に、特に真新しいと感じた情報はなかったものの、ページのコンテンツがサイトの趣旨と合っているかどうかをembeddingでチェックしているんだというのが印象に残った。
記事タイトルと内容もそうだが、記事がたくさんある場合、サイト全体のテーマと各記事の内容の整合性も見られているということ。
あとは、サンドボックスの存在や文字数だけが評価の対象とならない点とかも興味深かった。