人間対機械知能:「重複した」コンテンツがユニークな場合に勝つ方法

公開: 2021-08-22

機械学習とアルゴリズムベースのインテリジェンスは印象的ですが、多くの場合、人間に自然にもたらされるもの、つまり常識が欠けています。

同じコンテンツを複数のページに配置すると、コンテンツが重複することはよく知られています。 しかし、重要な違いがある類似したことについてのページを作成するとどうなるでしょうか。 アルゴリズムはそれらを重複としてフラグを立てますが、人間はこれらのようなページを区別するのに問題はありません。

  • Eコマース:複数のバリエーションまたは重大な違いがある類似商品
  • 旅行:ホテルの支店、同様のコンテンツの目的地パッケージ
  • 求人広告:同一アイテムの網羅的なリスト
  • ビジネス:異なる地域で同じサービスを提供している地元の支店のページ

これはどのように起こりますか? どうすれば問題を見つけることができますか? あなたはそれについて何ができますか?

重複コンテンツの危険性

コンテンツが重複していると、次の方法で検索ユーザーにサイトを表示する機能が妨げられます。

  • 同じキーワードを意図せずに競合する一意のページのランキングが失われる
  • Googleが正規として1ページを選択したため、クラスタ内のページをランク付けできない
  • 大量のシンコンテンツに対するサイト権限の喪失

マシンが重複コンテンツを識別する方法

Googleはアルゴリズムを使用して、2つのページまたはページの一部が重複コンテンツであるかどうかを判断します。これはGoogleが「かなり類似している」コンテンツとして定義しています。

Googleの類似性検出は、ウェブページ上のコンテンツのブロックを分析する特許取得済みのSimhashアルゴリズムに基づいています。 次に、各ブロックの一意の識別子を計算し、各ページのハッシュまたは「フィンガープリント」を作成します。

Webページの数は膨大であるため、スケーラビリティが重要です。 現在、Simhashは、重複コンテンツを大規模に見つけるための唯一の実行可能な方法です。

Simhashフィンガープリントは次のとおりです。

  • 計算するのに安価です。 それらは、ページの1回のクロールで確立されます。
  • 長さが固定されているため、比較が簡単です。
  • ほぼ重複を見つけることができます。 他の多くのアルゴリズムとは異なり、ページの小さな変更とハッシュの小さな変更を同一視します。

これは、任意の2つのフィンガープリントの差をアルゴリズムで測定し、パーセンテージで表すことができることを意味します。 ページのすべてのペアを評価するコストを削減するために、Googleは次のような手法を採用しています。

  • クラスタリング:十分に類似したページのセットをグループ化することにより、クラスター内のフィンガープリントのみを比較する必要があります。これは、他のすべてがすでに異なるものとして分類されているためです。
  • 推定:非常に大きなクラスターの場合、特定の数のフィンガープリントペアが計算された後、平均類似度が適用されます。

ページのフィンガープリントを比較します。 出典:ウェブクロールのためのほぼ重複したドキュメントの検出(Google特許)

最後に、Googleは、同一コンテンツの特定のブロック(ボイラープレート:ヘッダー、ナビゲーション、サイドバー、フッター、免責事項など)を除外する加重類似率を使用します。 n-gram分析を使用してページの主題を考慮し、ページ上のどの単語が最も頻繁に出現するかを判断します。サイトのコンテキストでは、最も重要です。

Simhashを使用した重複コンテンツの分析

Simhashを使用して類似としてフラグが付けられたコンテンツクラスターのマップを確認します。 OnCrawlのこのグラフは、重複コンテンツのクラスターに対する重複コンテンツ戦略の分析をオーバーレイしています。

OnCrawlのコンテンツ分析には、類似性比率、コンテンツクラスター、およびn-gram分析も含まれます。 OnCrawlは、Webページにオーバーレイできるコンテンツブロックごとの類似性を示す実験的なヒートマップにも取り組んでいます。

コンテンツの類似性によるWebサイトのマッピング。 各ブロックは、類似したコンテンツのクラスターを表します。 色は、各クラスターの正規化戦略の一貫性を示します。 出典:OnCrawl。

カノニカルを使用したクラスターの検証

正規URLを使用して、類似したページのグループのメインページを示すことは、意図的にページをクラスタリングする方法です。 理想的には、canonicalsによって作成されたクラスターとSimhashによって確立されたクラスターは同一である必要があります。

類似性クラスターに一致する正規クラスター(緑色)。 ハイライト:100%類似している6ページ。 正規のポリシーとGoogleのSimhash分析は、それらを同じように扱います。

そうでない場合は、多くの場合、Webサイトに正規のポリシーが設定されていないことが原因です。

正規の宣言はありません。それぞれ数百ページのクラスターで、平均類似率は99〜100%です。 Googleは正規URLを課す場合があります。 どのページがランク付けされ、どのページがランク付けされないかを制御することはできません。

または、正規の戦略とGoogleが類似のコンテンツをグループ化するために使用する方法との間に矛盾があるため:

カノニカルの問題:80%を超える類似性と、クラスターごとに複数のカノニカルURLを持つ大規模なクラスター。 Googleは、独自の正規URLを課すか、インデックスから除外したい重複ページにインデックスを付けます。

サイトのクラスターは上記のようには見えません。 重複するコンテンツのベストプラクティスはすでに実行しています。 同じコンテンツを含むURL(印刷可能/モバイルバージョン、またはCMSによって生成された代替URLなど)は、正しい正規URLを宣言します。

正規化後の類似性クラスターのマッピング。

正規の戦略によって正しく処理される重複コンテンツを除外します。 残りの正規化されていないURLは、ランク付けするページです。

検証済みの(緑色の)クラスターと80%未満の類似性を持つクラスターを削除した後の以前のマッピング。 残りの46個のクラスターのほとんどは2ページしかありません。

Simhashとセマンティック分析に基づいてクラスターに引き続き表示されるURLは、ユーザーとGoogleが同意しないURLです。

一意のコンテンツの重複コンテンツの問題を解決する

重複しているように見える一意のページのマシンのビューを修正するための満足のいくトリックはありません。Googleが重複コンテンツを識別する方法を変更することはできません。 ただし、必要なキーワードをランク​​付けしながら、独自のコンテンツとGoogleの認識を一致させるソリューションはまだあります。

ここにあなたのサイトに適応するための5つの戦略があります。

エッジケースを解決する

エッジケース、つまり類似率が非常に低いまたは非常に高いクラスターを確認することから始めます。

  • 20%未満の類似性:類似していますが、あまり類似していません。 各ページに個別のアンカーテキストを使用して、クラスタ内のページ間をリンクすることにより、それらを異なるページとして扱うようにGoogleに通知できます。

  • 最大の類似性:根本的な問題を見つけます。 ページを区別するためにコンテンツを充実させるか、ページを1つにマージする必要があります。

ファセットの数を減らす

重複するページがファセットに関連している場合は、インデックス作成の問題が発生している可能性があります。 すでにランク付けされているファセットを維持し、Googleがインデックスに登録できるファセットの数を制限します。

ソート可能なファセットに基づく同一のページで構成されるクラスター。 出典:OnCrawl。

ページを(もっと)ユニークにする

注意:コンテンツのわずかな違いにより、Simhashフィンガープリントにわずかな違いが生じます。 小さな調整ではなく、ページのコンテンツに大幅な変更を加える必要があります。

ページコンテンツを充実させる:

  • ページにテキストコンテンツを追加します。
    • 画像のさまざまな説明を追加します。
    • 完全なカスタマーレビューを含めます(レビューが複数のページに適用される場合は、ページをマージします!)。
    • 追加情報を追加します。
    • 関連情報を追加します。
  • 別の画像を使用してください。
  • 異なるページへのリンクに非常に異なるアンカーテキストを使用してテストします。
  • 類似のページに共通するソースコードの量を減らします。
  • ページのセマンティック密度を向上させます。
    • 主題に関連する語彙を増やし、フィラーを減らします。

ランキング参照ページを作成する

ページを充実させることが不可能または適切でない場合は、すべての「重複」ページの代わりにランク付けされる単一の参照ページを作成することを検討してください。 この戦略では、コンテンツハブと同じ原則を使用して、複数のキーワードのメインページを宣伝します。 別々のページとして維持する必要がある製品の複数のバージョンがある場合に特に役立ちます。

この戦略は、ニーズや季節的な機会をターゲットにしたページを作成するために使用できます。 より強力なセマンティクスとランキングを提供することにより、ページのファミリーを改善できます。

それはまた、求人サイト、求人サイト、および多くの、しばしば類似したリストを持つ他のサイトに利益をもたらすことができます。 参照ページは、リストを単一の特性でグループ化する必要があります。 場所(都市)はよく使用されます。

何をすべきか:

  1. すべての「重複」製品ページのセマンティックコンテンツをまとめたリファレンスページを作成します。 使用したいすべてのキーワードを宣伝し、すべての「重複」ページにリンクする必要があります。
  2. 各「重複」ページの正規URLを参照ページに設定し、参照ページの正規URL自体を設定します。
  3. 「重複」ページ間のリンク。
  4. 参照ページを宣伝するためにサイトナビゲーションを最適化します。

「重複」ページからのリンク、正規の宣言、および組み合わされたコンテンツによって強化された参照ページは、ランク付けが簡単です。

ページを組み合わせる

同じコンテンツでページを充実させようとし続けますか? なぜそれらすべてを保持したいのか説明できませんか? それらを組み合わせる時が来たのかもしれません。

ページを1つにまとめる場合:

  • 最高のパフォーマンスを発揮するURLを保持します。
  • 削除するページを保持しているページにリダイレクト(301)します。
  • 削除するページから保持しているページにコンテンツを追加し、クラスターのすべてのキーワードに対してランク付けするようにコンテンツを最適化します。

重複コンテンツの未来

ページのコンテンツを理解するGoogleの能力は絶えず進化しています。 ボイラープレートを識別し、Webページの意図を区別する能力がますます正確になっているため、重複として識別された一意のコンテンツは、最終的には過去のものになるはずです。

それまでは、コンテンツがGoogleにとって重複しているように見える理由を理解し、それをGoogleに納得させるために適応させることが、同様のページでSEOを成功させる鍵となります。


この記事で表明された意見はゲスト著者の意見であり、必ずしもMarTechではありません。 スタッフの作者はここにリストされています。