クローラーとは?SEOと検索エンジンとの関係や意味を解説

クローラーとは?SEOと検索エンジンとの関係

「クローラーとは何?」「どういう意味なの?」

検索エンジンやSEOにどう関係してくるのか気になりますよね。

実は、クローラーの意味や仕組みを把握することは、検索エンジンやSEOを理解するための最重要項目といっても過言ではないのです。

そこで、SEOに関して多くの仮説検証を行い、ツールを使ってクローラーの動きを監視し続けている筆者が、以下のことを解説します。

  • クローラーとは?どんな意味があるの?
  • クローラーと検索エンジン・SEOの関係
  • クローラーのための最適化

このページを読めば、クローラーと検索エンジンとの関係が理解でき、より良いSEO施策を打つことができるようになります。

クローラーとは?どんな意味があるの?

クローラーとは、簡単にいうと、インターネット上にある情報を集めるためのロボットです。

クロール(crawl)とは這うという意味で、インターネット上にあるサイトの情報を這うようにとるイメージからクローラーと呼ばれています。
クローラーは情報を集めるイメージから、よくスパイダーやロボットとも呼ばれます。

主にGoogleやbingなどの大型検索エンジンが、情報を集めるために活用しています。
クローラーが集めた情報は、データベースにインデックス(保存)され、検索エンジンが最適な検索結果を表示するために使われるのです。

したがって、ページを変更したときは、インデックスをリクエストしてクローラーを回し、変更したことを検索エンジンに把握してもらいましょう。

クローラーの種類

クローラーの種類は、主に以下のようなものがあります。

  • Googlebot:Google
  • Yahoo! Slurp:Yahoo!
  • Bingbot:マイクロソフト社の検索エンジンBing
  • baiduspider:百度
  • Yetibot:Naver
  • ManifoldCF:Apache

Googleには、WEB検索用のGooglebot以外にも、画像検索用のGooglebot-Image、モバイル検索用のGooglebot-Mobileなど、多数のクローラーが存在します。

また、国内の検索エンジンの使用比率は以下のようになります。

国内の検索エンジンの比率

Google :75.3%
Yahoo!:20.25%
Bing:3.74%
Baidu:0.3%
DuckDuckGo:0.16%

ちなみに、現在のYahoo!では、Googleの検索エンジンを採用しており、Yahoo! Slurpというクローラーはほとんど使われていません。

したがって、日本のインターネット検索のほとんどは、Googleの検索エンジンによって行われていることになるので、Googleに対してSEO対策をすべきなのです。

クローラーが自分のサイトに来たか確認するには?

ここでは、クローラーが自分のサイトに来て、きちんと情報収拾をしてくれているのかを確認する方法を解説します。
高度な内容になりますので、クローラーに関する基本的なseo対策を知りたい方は、クローラーのために最適化しようをご覧ください。

クローラーが自分のサイトに来たか確認する方法は、以下の3つがあります。

  • Site:で確認
  • タイトル、メタディスクリプションが変わったかどうかで確認
  • クロールの統計情報を確認

以下で詳しく解説していきますので、気になるところから読んでみてください。

site:で確認

新しい記事を公開した後に、クローラーがきちんと回ってきたか確認するときに使える方法です。

site:(新しく公開した記事のURL)でGoogle検索してみると、クローラーが新しい記事を訪れ、検索エンジンに認識されたか確認することができます。
しっかりクローラーが回り、検索エンジンに認識されている場合、以下のように表示されます。

site:でのクローラーの確認方法

このように表示されれば、一安心です。新規記事に順位がつくのを待ちましょう。

もし認識されていない場合は、以下のように表示されます。

クローラーが回ったかどうか確認する方法

このままクローラーが回らず、検索エンジンに認識されないと、いつまでたっても順位がつかないので、何らかの対策をする必要があります。

新しい記事が認識されていない場合は、Googleコンソールでインデックスをリクエストし、クローラーに新しい記事に来てもらいましょう。

弊社では、新規記事を出したらすぐにインデックスをリクエストし、クローラーに来てもらうことをルール化しています。

タイトル、メタディスクリプションが変わったかどうかで確認

新しく公開した記事にクローラーが回ったかは、site:で確認できます。
しかし、既に出した記事を変更したときに確認するにはどうしたら良いのでしょうか。

既にある記事の変更を検索エンジンに認識してもらったかどうかは、検索結果のタイトル、メタディスクリプションの変化で確認できます。

検索結果の上部分がタイトル、下の四角部分がメタディスクリプションです。

タイトルとメタディスクリプション

メタディスクリプションを検索結果に表示させるため、検索結果で確認するときも、site:URLで確認しましょう。

しかし、この方法には弱点があり、タイトルまたは、メタディスクリプションを変更していないと、クローラーが回ってきたか確認できないのです。
そのため、検索結果に出てこない本文を変更しても、この方法では、変更が検索エンジンに認識されたかわからないので注意しましょう。

実を言うと、インデックスをリクエストすれば、大抵の場合1時間以内にクローラーは回ってくるので問題ありません。
したがって、検索エンジンに認識されたか過度に心配する必要は少ないのですが、どうしても確認したいと言う方は、メタディスクリプションの語尾を変更しましょう。

メタディスクリプションなら、SEO的にもあまり影響がなく、語尾を変える程度ならば全く問題ないでしょう。

クロールの統計情報でも確認できる

Googleサーチコンソールにある、クロールの統計情報でも、クローラーが来たかどうかを確認できます。
クロールの統計情報は、最新のサーチコンソールの機能にはないので、旧サーチコンソールを使用しなければなりません。

まず、旧サーチコンソール「クロールの統計情報」にアクセスし、左のツールバーの中のクロールをクリックします。
すると、その中にクロールの統計情報があるので、クリックすれば確認することができます。

クロールの統計情報では、クローラーが訪れたページの数を日付別でみることが可能です。

しかし、この方法では、どのページにクローラーが回ったのか詳細にわからないため、個別のページごとに確認したい場合はあまり役に立ちません。
あくまで、全体としてクローラーがどのくらいきているか把握する手段です。

余談ですが、クロールの統計情報では、1 日にダウンロードされるキロバイト数とページのダウンロード時間 (ミリ秒)も確認することができます。
特に、ページのダウンロード時間は検索順位に影響するとも言われるので、遅過ぎないか一度確認してみることをおすすめします。

クロールバジェットとは?

クロールバジェットとは、Googleが設けているクロール数の上限です。

イメージとしては、クローラーの体力のようなものになります。
もし、クロールバジェットに達してしまった場合、それ以上のページはクロールされません。
これに関して、何か対策はあるのでしょうか。

結論から言うと、1,000記事以下のサイトでは、Googleバジェットの上限に達することはまずありません。
したがって、ほとんどの人は気にする必要はありません。

Googleのジョン・ミューラー氏は、Googleバジェットを気にする必要があるのは、クローラーが無限にクロールを繰り返す必要がある、URLが非常に複雑かつ無尽蔵にあるサイトだと言っています。

クローラーの巡回頻度を制限できる

Googleのクローラーの巡回頻度はサーチコンソールで制限することができます。
とはいっても、ほとんどの人はクローラーの巡回頻度を制限する必要はありません。

必要なのは、サービスの形態上クローラーが回りすぎると、サーバーに負荷がかかる、というケースです。

クローラーの頻度を制限する

そういった場合は、上記のGoogle の最大クロール頻度を制限するにチェックをつけることで、サーバの負担を軽くすることができます。

クローラーと検索エンジン・SEOの関係

もし、サイト表示のテストをしたい場合や、Googleの検索エンジンに認識されたくないページがある場合は、クローラーをブロックしましょう。
こういった、直接ユーザーの役に立たないページがGoogleに認識されると、サイト自体の評価が下がってしまう可能性があります。

※筆者はインデックスされなければ、問題ないと思っていますが、可能性は0ではありません。

クローラーが来ないようにするには、robots.txtファイルを作成し、その中に以下のコードを記述しましょう。

例:https://mediafox.jp/seo-aaaaa/でクローラーをブロックしたい場合
User-agent: Googlebot
Disallow: /seo-aaaaa/

SEOでは、このように、リスクを1つずつ排除していくことが大切です。

クローラーのために最適化しよう

ご自身のWebサイトを、検索エンジンに適切に評価してもらうには、クローラーのための最適化が必須です。

クローラーのための最適化は、主に以下の7つです。

  • 内部リンクの最適化をする
  • 被リンクを増やす
  • サイトマップの送信
  • インデックスのリクエストは忘れずにする
  • リンクのない記事をなくす
  • パンくずリストを設定する
  • URLの正規化

それぞれ詳しく解説していきます。

クローラビリティとは

クローラーのための最適化を理解するには、クローラビリティという概念を理解する必要があります。

前提知識として、まずしっかりと理解しておきましょう。

クローラビリティとは、どのくらいクローラーがサイト内を回りやすいかを表しています。
クローラーにサイトの隅々までクロールしてもらい、サイトを適切に評価してもらうことは、SEO的に非常に大切です。

そのため、検索順位を上げてサイトに訪れるユーザーを増やしたいという場合は、クローラビリティを向上させるべきです。

これから、クローラビリティを向上させるための具体的な施策について解説していきます。

内部リンクの最適化をする

サイト内の内部リンクを適切に張り巡らせることは、SEO的に非常に重要です。

その理由は、内部リンクの最適化はクローラビリティを向上させるだけでなく、ページの評価を上げるためにも活用できるからです。

内部リンクの貼り方のポイントは以下の2つです。

  • 適切な文脈で貼る
  • ユーザーがクリックするところに内部リンクを貼る

適切な文脈で貼る

適切な文脈で内部リンクを貼る理由は、ユーザーから見てもGoogleから見ても、関連性のないリンクは不自然に感じるからです。

逆に、記事のテーマと関連性の深い見出しの下などに内部リンクを貼れば、グーグルから良いリンクだと見なされ、ページ自体の評価が向上します。

 ユーザーがクリックするところに内部リンクを貼る

この理由として、クローラーは、ユーザーが頻繁にクリックする場所をクロールすることが挙げられます。

そのため、ユーザーがクリックしないような内部リンクを貼ったとしても、クローラーはあまり回らず、クローラビリティの向上への効果は期待できません。
つまり、むやみに内部リンクを増やすのは得策ではないでしょう。

被リンクを増やす

被リンクを増やせば、外部からクローラーを呼び込めるため、クローラビリティの向上に効果的です。
また、被リンクを受けるということは、他のサイトから参考にされていたり、引用をされている可能性が高いので、Googleの評価も上がります。

したがって、被リンクを増やすことは、クローラビリティ向上とGoogleの評価向上という2重のSEO効果があるのです。

サイトマップの送信

サイトマップとは、サイト全体の構成をわかりやすくする地図、のようなものです。

Googleコンソールでサイトマップは送信することができ、それによって、Googleがサイト構造を把握しやすくなります。

サイトマップを送信するには、サーチコンソールの左側にあるサイトマップをクリックし、サイトマップのURLを入力すれば送信できます。

サイトマップの送信

Googleコンソールでのサイトマップ送信

サイトマップを送信しておけば、全く内部リンクをされていないページもクローラーに見つけてもらいやすくなります。

インデックスのリクエストは忘れずにする

サーチコンソールを使いインデックスをリクエストすることで、クローラーをページに回すことができます。

サーチコンソールでクローラーを回す

Googleコンソールの一番上の部分にURLを入れ、「インデックスをリクエスト」を押せば完了です。

新規記事を公開するたびに、必ずインデックスのリクエストをするようにしましょう。

リンクのない記事をなくす

内部リンクをされていない記事は、他の記事からクローラーが回ってこないため、クロールされる頻度が極端に少なくなってしまいます。

サイト内に関連する見出しや本文などが全くないのであれば、仕方ありません。
しかし、ある場合は、内部リンクを貼り、クローラーが巡回しやすい構造にしましょう。

関連する見出しや本文がないけど、内部リンクを貼りたいという場合は、内部リンクを貼るための記事の作成がおすすめです。

その時の、関連性のある記事を書くことがポイントになります。
前述しましたが、Googleは関連性のある内部リンクを評価するからです。

パンくずリストを設定する

パンくずリストは、ページ上部に表示される以下の部分のことです。

インデックスをリクエストする

パンくずリストを設置することで、クローラーがサイト内を巡回しやすくなり、まだ回っていなかったページにも回りやすくなります。

URLの正規化

内容が全く同じページでも、www.があるURL、ないURLが存在していたり、URL末尾に/index.htmlがあるものとないものが存在しているサイトを、たまに見かけます。

これらは、GoogleからするとURLが違うため、内容が全く同じページがサイト内に存在する、つまり、重複コンテンツだと判断されてしまう可能性があります。

重複コンテンツと見なされた場合、サイト自体の評価が下がり、SEO的に問題があります
また、重複コンテンツだとみなされなかったとしても、ページに回るクローラーの数が分散してしまうため、クローラビリティの観点からも問題があります。

そのため、全く同じ内容なのにURLが違うというページがあれば、301リダイレクトをかけて対処しましょう。

まとめ:クローラーとは何か、意味と検索エンジンとの関係を理解しよう

クローラーとは何か、その意味や検索エンジンやSEOとの関係を解説しましたが、いかがだったでしょうか。

このページのポイントは、以下になります。

  • クローラーとは、インターネット上の情報を集めるためのロボット
  • クローラーには様々な種類がある
  • クローラーのためにサイト内を最適化するのはSEO上非常に大切

クローラーの性質を把握することで、内部リンクの最適化や、被リンクなどについての理解も深めることができます。

より良いSEO対策をするためにも、よく理解できなかった部分をもう一度見直してみてください。

コメントを残す