Search Consoleのrobots.txtテスターでサイトのrobots.txtをしっかり確認しておく 結城永人 - 2018年6月23日 (土) サイトのrobots.txtは検索エンジンがサイト内容を把握する検索ロボットのクローラーをブロックするために主に使われるファイルだ。 robots.txtで除外されたページは検索エンジンに読み込まれないので、検索結果に出ない場合が多い。検索避けとは少し違ってどこかにリンクがあるとURLだけでもクローラーに読み取られて検索結果に出る場合もないわけではないので、完全な検索避けとは混同しないように注意して使わなくてはならない。 一般的にログインページなどの検索結果に出すべきではないURLを対象にして設定される。 しかしサイトの検索エンジンからのアクセスアップのSEO(検索エンジン最適化)対策にも役立つ。 というのは検索エンジンのクローラーはサイトにやって来ていつも全てのページを巡回するわけではないし、ページ毎に一度でコンテンツを隅々まで把握するわけでもないらしくて検索結果に不要なページを予め除外しておくと検索エンジンのクローラーがサイトを効率的に巡回しながらページ毎のサイト内容も多めに把握できるためなんだ。 サイトに検索結果に不要なページがなければSEO対策でrobots.txtを付けても仕様がないけれども少しでもあれば付けるにかぎると考える。 robots.txtは記述(robots.txt の仕様)を間違えると検索エンジンからのアクセスアップを求めて止まないページが除外されて反対の結果になるから使う際には細心の注意を怠ってはならない。 僕は分かっていてブログに取り入れた最初は大丈夫だったけど、ところが二回目の設定で記述が変わったのに注意が足りなかったせいで、Google検索でのサイトのデータを種々と収集できるSearch Consoleで数日後にrobots.txtについて警告が表示されてしまったんだ。 ホーム|Search Console|Google 管理画面を開くと「プロパティの健全性に重大な問題が発見されました」と出て来て直ぐに気付く。そして「プロパティの健全性の確認」のリンクを開くと「robots.txtが重要なページをブロックしているかどうかをチェック」が黄色のマークになっている。リンクを開くとrobots.txtテスターで、実際に記述されたrobots.txtの内容が表示される。 サイトマップの詳細|Search Console|Google サイトマップにも「重要なページ」が入っていて警告が出される。検索エンジンにページへのクロールを促進するために登録するのがサイトマップなので、そこにrobots.txtが付いて検索エンジンのクロールを除外するページが入っているのは矛盾している。Search Consoleでは警告が出されて修正しなくてはならないと分かる。 慌てて記事のインデックスを調べたら大丈夫だった。robots.txtの警告が出ても検索エンジンからのアクセスアップが直ぐに途絶えるわけではなさそうだ。放っておくとインデックスを失って検索結果に出なくなるから余計なrobots.txtを急いで記事から外した。 どうすればrobots.txtの失敗を未然に防げたのだろう SEO対策で検索エンジンからのアクセスアップを望んでいるページが誤ってクローラーをブロックしないように記述するべきだけど、上手く行っているかどうかをちゃんと確認しないと依然として危ないのは変わらない。 Search Consoleのクロールのrobots.txtテスターを使う robots.txt テスター|Search Console|Google サイトで作成したrobots.txtが実際にどのように動作しているか、想定外のページに誤って付いてしまって警告が出るという失敗を未然に防ぐための注意としてSearch Consoleのクロールのrobots.txtテスターを使って確認するのが大切だと思う。 追記:robots.txtテスターはSearch Consoleの機能からヘルプページのrobots.txt テスターで robots.txt をテストするヘ移動された。 サーバーへアップロードするrobots.txtの内容を目視するだけでは注意を怠らないとはかぎらないし、Search Consoleのクロールのrobots.txtテスターの使い方も細かく覚えておかないとサイトのページ毎の見落としが出てしまい兼ねないんだ。 robots.txtテスターの使い方の基本的な四つの手順 送信ボタンでSearch Consoleに読み込ませる画面をリロードして最新バージョンを表示するクローラーをブロックしたいURLを確認するrobots.txtの対象外のページのURLを確認する 事前にサイトでrobots.txtを作成してサーバーへアップロードしてからSearch Consoleのクロールのrobots.txtテスターで動作確認を行うと良いと思う。 基本的な四つの手順は何れも簡単だし、幾らか時間がかかっても面倒がらずにしっかり完了するべきだ。 最初に送信ボタンを押してダイアローグを開くと三つの項目が載っている。 robots.txt テスター|Search Console|Google 一番目の更新されたコードをダウンロード」と二番目の「アップロードされたバージョンを確認」はrobots.txtを作成するためのツールで、Search Consoleに表示されたファイルを編集してダウンロードすると直ぐに修正できたり、サーバーへアップロードしたらSearch Consoleから直ぐに確認できたりするのが便利なんだ。robots.txtテスターには使わなくても構わなくて欠かせないのは三番目の「Googleに更新をリクエスト」だけだ。新しいファイルが読み込まれないとさらにページのURLと照合して動作が大丈夫かどうかを確認できないので、Search Consoleに更新するようにリクエストを行う。何もしなくてもGoogle検索のクローラーがサイトを訪問すればrobots.txtも読み込まれてSearch Consoleでも更新して表示されるけれども送信ボタンで直ぐに新しいファイルを伝えてrobots.txtテスターを使えるようになっている。 そして画面をリロードすると修正済みのrobots.txtの画面に切り替わる。上手く行かない場合もあるので、本当に新しいファイルが反映しているかどうかを確認しなくてはならない。以前の記述と何も変わらないければ画面を再びリロードする。尚も駄目な場合がないわけではなくて送信ボタンからやり直すと初めて画面が切り替わるかも知れない。 robots.txt テスター|Search Console|Google 次いでクローラーをブロックしたいURLを確認して成功すれば該当するDisallowの項目が赤になる。 robots.txtの画面の下にURLをルートドメインの直後のアドレスから入力してクローラーの種類を決めて――デフォルトで選択済みのGooglebotがGoogle検索のクローラーだ――テストボタンを押す。 赤のDisallowが表示されて決定ボタンにも「ブロック済み」と表示されるとrobots.txtの記述が間違いなく、Google検索のクローラーに検出されていると分かるし、ページが読み込まれなくなっている。 robots.txt テスター|Search Console|Google さらにrobots.txtの対象外のページのURLを確認するのもなるべくやっておきたい。成功すればURLの該当するAllowの項目が緑になるし、テストボタンにも「許可済み」と表示されてGoogle検索のクローラーがブロックされずにページの読み込みが可能になっていると分かる。 robots.txtテスターはクローラーをブロックしたいURLだけを確認すれば事足りるかも知れないけど、しかし場合によって他のページが同様に含まれてしまう危険性もあるんだ。 僕が失敗したのもそのせいだった。robots.txtでブロックしたいURLに記述した文字が他のページで重なれば想定外にブロックされる危険性があるし、クローラーに対象外として検出されるかどうかを十分に確認しなくてはならないと思う。ところが文字が重ならなくてもブロックしたいURLにブロックしたくない他のページが含まれてしまわないとはかぎらない。記述する仕方によって付けたrobots.txtのかかりが変わり得るせいで、文字のみから対象外のURLまで判断するのは控えるべきだった。 要するにrobots.txtの記述はURLの文字の他に「.」や「/」や「?」などの区切りと専用の「*」や「$」などの識別も影響するので、もしかするとブロックしたくないページに所定の文字が含まれなくてもブロックされる憂き目に遭わされる。 robots.txtを変更する際には検索エンジンに出て欲しいページが対象外になっているのを文字とその他の区切りと識別を併せて判断しながらSearch Consoleのrobots.txtテスターで幾らか多めに確認するのが良いと思う。 ブログで全記事がrobots.txtでクローラーをブロックして警告が出たのは記述した文字以外のところで、不幸にも同様に検出されていたから修正してしっかり確認すると共に元に戻した。 robots.txtの対象外のページのURLは大量にあるとrobots.txtテスターで一つずつ確認するのは非常に厳しいと感じる。 URLの文字が重なれば個別に確認するべきだけど、その他の区切りと識別についてはURLのパターンで捉えてクローラーをブロックしたくないページの種類毎に一つだけ確認しても大丈夫だ。 Search Consoleで警告が出るのではSEO対策にrobots.txtを取り入れても何にもならない。加えて放っておいてインデックスから除外されると全くの逆効果でしかなくなるから本当に嘆かわしい。細心の注意を払って使わなくてはならない。検索エンジンからのアクセスアップへ的確に使うためにはrobots.txtテスターで設定通りにかかっているかどうかを確認する手間を惜しんではならない。 コメント 新しい投稿 前の投稿
細川慎二のどうにも泣けて来てしまうストリートライヴのアルトサックス サックス奏者の 細川慎二 のYouTubeチャンネルの Sax in the Night City で出ているサックスのストリートライヴの動画が美しい音色と相俟った街角の雰囲気の良さで心底と泣けて来るほどの感動を催させる。 細川慎二のアルトサックスの美しい音色が響き渡る街角の...
宜保愛子は本物の霊能力者だと考えられる三つの真実 昭和から平成にかけてテレビや雑誌で何度も大きく取り上げられて物凄く活躍した霊能力者の 宜保愛子 がいた。何気なく昔のテレビ番組を観ていたら霊視は嘘だったと思えない内容で、本当にびっくりした。昔、そんなに引き付けられて観ていたわけではないし、改めて霊能力が本当かどうかを確かめようと...
伊良部秀輝が自殺した原因はミッドライフクライシスによる鬱と飲酒だと考える プロ野球選手の 伊良部秀輝 が自殺したと知ってショックを受けたことがあった。もう十年以上前になる。2011年の夏、享年四十二と早過ぎたのに加えて大好きな投手の一人だったので、とても残念に感じた。 目次 伊良部秀輝が大好きだった記憶 負けても自分のスタイルを貫き通した 野球への...
アドセンスのGDPRに日本でも対応しなくてはならない場合がある アドセンスの個人情報のCookieなどの使用に関してサイトの訪問者に同意を得なくてはならない法律としてEU(European Union/欧州連合)の GDPR (General Data Protection Regulation/EU一般データ保護規則)がある。外国の個人情報...
平田監督の白井球審の誤審への抗議はパワハラへの強力な対処法に他ならない 日本プロ野球で 佐々木朗希が完全試合を実現して 次の試合も八回まで無安打と無失点の状況で、次の試合はどうかと注目した4月24日の対オリックスバファローズ戦は初回の先頭打者の初球にヒットを打たれて五回に二失点を喫して連続の無安打と無失点が両方とも途絶えてしまった。 しかし予想外...
玉置浩二のメロディーは涙腺緩んで総毛立つ名曲中の名曲だ 玉置浩二 のYouTubeの公式チャンネルで、最も気に入りの メロディー のライブ版が追加されていた。曲自体をちゃんと聴いたのは約二十五年振りかも知れないけど、しかし初めての内容から以前にも況して大変な感動を覚えることになった。 玉置浩二 『メロディー』Live at Tok...
日本人がジャニーズ事務所で行われた性加害よりも恐れていること イギリスの公共放送のBBC(British Broadcasting Corporation/英国放送協会)が日本のジャニーズ事務所の創業者の ジャニー喜多川 の性加害について取り上げたドキュメンタリーの J-POPの捕食者:秘められたスキャンダル に衝撃を受けた。 目次 ジ...
Imgurで画像URLと埋め込みコードを取得する方法 Imgur は自分でアップロードした画像については画像URL/直リンクを取得して他のサイトにHTMLのimgタグで表示させられる。 そして自分と他の人たちも含めて画像の埋め込みコードを取得して他のサイトのHTMLに、そのまま、記載して表示させられもする。 目次 Img...
沖雅也の涅槃への自殺と双極性障害 かつて俳優の 沖雅也 の自殺が伝えられたとき、遺書の言葉とされた「おやじ、涅槃でまっている」と共に何なのかと疑問を感じたのを良く覚えている。聞き慣れない「涅槃」という言葉が入っても何十年も過ぎた今振り返っても自殺者の遺書として本当に珍しい表現だったと改めて驚く。 沖雅也が書い...
生島浩の5:55の心の目に光り輝く尊さ 日本の ホキ美術館 は日本人の画家の写真のように細密に描かれた写実絵画を中心的に所蔵している。その中で、絵を印刷したポストカードの売り上げがホキ美術館の設立当初から一位で、常に最高の人気を誇るのが生島浩の 5:55 (五時五十五分)といわれる。僕も一見して忽ち引き付けられる物凄い...
コメント