Search Consoleのrobots.txtテスターでサイトのrobots.txtをしっかり確認しておく 結城永人 -2018年6月23日 サイトのrobots.txtは検索エンジンがサイト内容を把握する検索ロボットのクローラーをブロックするために主に使われるファイルだ。 robots.txtで除外されたページは検索エンジンに読み込まれないので、検索結果に出ない場合が多い。検索避けとは少し違ってどこかにリンクがあるとURLだけでもクローラーに読み取られて検索結果に出る場合もないわけではないので、完全な検索避けとは混同しないように注意して使わなくてはならない。 一般的にログインページなどの検索結果に出すべきではないURLを対象にして設定される。 しかしサイトの検索エンジンからのアクセスアップのSEO(検索エンジン最適化)対策にも役立つ。 というのは検索エンジンのクローラーはサイトにやって来ていつも全てのページを巡回するわけではないし、ページ毎に一度でコンテンツを隅々まで把握するわけでもないらしくて検索結果に不要なページを予め除外しておくと検索エンジンのクローラーがサイトを効率的に巡回しながらページ毎のサイト内容も多めに把握できるためなんだ。 サイトに検索結果に不要なページがなければSEO対策でrobots.txtを付けても仕様がないけれども少しでもあれば付けるにかぎると考える。 robots.txtは記述(robots.txt の仕様)を間違えると検索エンジンからのアクセスアップを求めて止まないページが除外されて反対の結果になるから使う際には細心の注意を怠ってはならない。 僕は分かっていてブログに取り入れた最初は大丈夫だったけど、ところが二回目の設定で記述が変わったのに注意が足りなかったせいで、Google検索でのサイトのデータを種々と収集できるSearch Consoleで数日後にrobots.txtについて警告が表示されてしまったんだ。 ホーム|Search Console|Google 管理画面を開くと「プロパティの健全性に重大な問題が発見されました」と出て来て直ぐに気付く。そして「プロパティの健全性の確認」のリンクを開くと「robots.txtが重要なページをブロックしているかどうかをチェック」が黄色のマークになっている。リンクを開くとrobots.txtテスターで、実際に記述されたrobots.txtの内容が表示される。 サイトマップの詳細|Search Console|Google サイトマップにも「重要なページ」が入っていて警告が出される。検索エンジンにページへのクロールを促進するために登録するのがサイトマップなので、そこにrobots.txtが付いて検索エンジンのクロールを除外するページが入っているのは矛盾している。Search Consoleでは警告が出されて修正しなくてはならないと分かる。 慌てて記事のインデックスを調べたら大丈夫だった。robots.txtの警告が出ても検索エンジンからのアクセスアップが直ぐに途絶えるわけではなさそうだ。放っておくとインデックスを失って検索結果に出なくなるから余計なrobots.txtを急いで記事から外した。 どうすればrobots.txtの失敗を未然に防げたのだろう SEO対策で検索エンジンからのアクセスアップを望んでいるページが誤ってクローラーをブロックしないように記述するべきだけど、上手く行っているかどうかをちゃんと確認しないと依然として危ないのは変わらない。 Search Consoleのクロールのrobots.txtテスターを使う robots.txt テスター|Search Console|Google サイトで作成したrobots.txtが実際にどのように動作しているか、想定外のページに誤って付いてしまって警告が出るという失敗を未然に防ぐための注意としてSearch Consoleのクロールのrobots.txtテスターを使って確認するのが大切だと思う。 追記:robots.txtテスターはSearch Consoleの機能からヘルプページのrobots.txt テスターで robots.txt をテストするヘ移動された。 サーバーへアップロードするrobots.txtの内容を目視するだけでは注意を怠らないとはかぎらないし、Search Consoleのクロールのrobots.txtテスターの使い方も細かく覚えておかないとサイトのページ毎の見落としが出てしまい兼ねないんだ。 robots.txtテスターの使い方の基本的な四つの手順 送信ボタンでSearch Consoleに読み込ませる画面をリロードして最新バージョンを表示するクローラーをブロックしたいURLを確認するrobots.txtの対象外のページのURLを確認する 事前にサイトでrobots.txtを作成してサーバーへアップロードしてからSearch Consoleのクロールのrobots.txtテスターで動作確認を行うと良いと思う。 基本的な四つの手順は何れも簡単だし、幾らか時間がかかっても面倒がらずにしっかり完了するべきだ。 最初に送信ボタンを押してダイアローグを開くと三つの項目が載っている。 robots.txt テスター|Search Console|Google 一番目の更新されたコードをダウンロード」と二番目の「アップロードされたバージョンを確認」はrobots.txtを作成するためのツールで、Search Consoleに表示されたファイルを編集してダウンロードすると直ぐに修正できたり、サーバーへアップロードしたらSearch Consoleから直ぐに確認できたりするのが便利なんだ。robots.txtテスターには使わなくても構わなくて欠かせないのは三番目の「Googleに更新をリクエスト」だけだ。新しいファイルが読み込まれないとさらにページのURLと照合して動作が大丈夫かどうかを確認できないので、Search Consoleに更新するようにリクエストを行う。何もしなくてもGoogle検索のクローラーがサイトを訪問すればrobots.txtも読み込まれてSearch Consoleでも更新して表示されるけれども送信ボタンで直ぐに新しいファイルを伝えてrobots.txtテスターを使えるようになっている。 そして画面をリロードすると修正済みのrobots.txtの画面に切り替わる。上手く行かない場合もあるので、本当に新しいファイルが反映しているかどうかを確認しなくてはならない。以前の記述と何も変わらないければ画面を再びリロードする。尚も駄目な場合がないわけではなくて送信ボタンからやり直すと初めて画面が切り替わるかも知れない。 robots.txt テスター|Search Console|Google 次いでクローラーをブロックしたいURLを確認して成功すれば該当するDisallowの項目が赤になる。 robots.txtの画面の下にURLをルートドメインの直後のアドレスから入力してクローラーの種類を決めて――デフォルトで選択済みのGooglebotがGoogle検索のクローラーだ――テストボタンを押す。 赤のDisallowが表示されて決定ボタンにも「ブロック済み」と表示されるとrobots.txtの記述が間違いなく、Google検索のクローラーに検出されていると分かるし、ページが読み込まれなくなっている。 robots.txt テスター|Search Console|Google さらにrobots.txtの対象外のページのURLを確認するのもなるべくやっておきたい。成功すればURLの該当するAllowの項目が緑になるし、テストボタンにも「許可済み」と表示されてGoogle検索のクローラーがブロックされずにページの読み込みが可能になっていると分かる。 robots.txtテスターはクローラーをブロックしたいURLだけを確認すれば事足りるかも知れないけど、しかし場合によって他のページが同様に含まれてしまう危険性もあるんだ。 僕が失敗したのもそのせいだった。robots.txtでブロックしたいURLに記述した文字が他のページで重なれば想定外にブロックされる危険性があるし、クローラーに対象外として検出されるかどうかを十分に確認しなくてはならないと思う。ところが文字が重ならなくてもブロックしたいURLにブロックしたくない他のページが含まれてしまわないとはかぎらない。記述する仕方によって付けたrobots.txtのかかりが変わり得るせいで、文字のみから対象外のURLまで判断するのは控えるべきだった。 要するにrobots.txtの記述はURLの文字の他に「.」や「/」や「?」などの区切りと専用の「*」や「$」などの識別も影響するので、もしかするとブロックしたくないページに所定の文字が含まれなくてもブロックされる憂き目に遭わされる。 robots.txtを変更する際には検索エンジンに出て欲しいページが対象外になっているのを文字とその他の区切りと識別を併せて判断しながらSearch Consoleのrobots.txtテスターで幾らか多めに確認するのが良いと思う。 ブログで全記事がrobots.txtでクローラーをブロックして警告が出たのは記述した文字以外のところで、不幸にも同様に検出されていたから修正してしっかり確認すると共に元に戻した。 robots.txtの対象外のページのURLは大量にあるとrobots.txtテスターで一つずつ確認するのは非常に厳しいと感じる。 URLの文字が重なれば個別に確認するべきだけど、その他の区切りと識別についてはURLのパターンで捉えてクローラーをブロックしたくないページの種類毎に一つだけ確認しても大丈夫だ。 Search Consoleで警告が出るのではSEO対策にrobots.txtを取り入れても何にもならない。加えて放っておいてインデックスから除外されると全くの逆効果でしかなくなるから本当に嘆かわしい。細心の注意を払って使わなくてはならない。検索エンジンからのアクセスアップへ的確に使うためにはrobots.txtテスターで設定通りにかかっているかどうかを確認する手間を惜しんではならない。 コメント 新しい投稿 前の投稿
ジャパネットたかたの丸尾詩織の商品説明に気持ちが入っていて素晴らしい理由 ジャパネットたかた のテレビショッピングを観ていて社員の丸尾詩織の商品説明の言葉が力強くてどんどん前に出て来るように聞こえるのが凄いと感じた。声が立体的に表現されているのは飛び出す絵本とか3D映像なんて印象まで与えるから他では経験できないほどの聴覚芸術が新たに生み出されたとも過言...
菜の花の真っ黄色の世界で感じる幸運 近所に 菜の花 が密集して良い感じで真っ黄色に咲いていたのが壮観だった。 色も大きさも匂いも最盛期のセイヨウアブラナ 花の根本の萼片が開き切らず、斜めに立っているから セイヨウアブラナ だと思うけど、すると最大の150cmくらい伸びていて非常に大きいと驚く。 通り...
Dropboxで直リンクのURLを取得する方法 クラウドストレージのDropboxはサイトで自由にコンテンツを表示できる直リンクのURLをあらゆるファイル形式で取得することができる。 重要:2023年6月から Dropboxの共有リンクのURLが変更されて直リンクの方法も影響を受けた 。本稿の内容はそれ以前のファイルにしか...
スノーボードのジャンプ中のグラブには幾つもの種類がある スノーボードでジャンプして板を掴む動作をグラブ、またはグラブトリック(掴み技)としてエアー(空中)に組み込まれる。幾つもの種類があって空中での姿勢を安定させたり、ハーフパイプやスロープスタイルやビッグエアーなどの演技を競う試合では得点を左右する要因にもなっている。覚えておくと観る...
アドセンスの個人のアメリカの税務情報/W-8BEN納税フォームの書き方 アドセンスに利用者の税務情報が必要となり、2021年6月1日以降、YouTubeのサイト広告などで収益を得る場合には税務情報を提出しないとアドセンスの支払いからアメリカの源泉所得税が米国内国歳入法の第三章により、控除される。 Google は、YouTube パートナー プロ...
椎名林檎の顔が思い浮かばない理由 近頃はだいぶ慣れて来たというか、 ブログに取り上げるくらい注目する人 なので、大丈夫なんだけれども以前は 椎名林檎 というと人気歌手で色んなところで良く見ている割には、全然、顔が思い浮かばないのを不思議がっていた。 しかし2008年にテレビ番組のトップランナーに出演した際に司...
サイトの表示速度をlinkタグの「rel="preconnect"」で上げる/WebPagetestで事前接続を調べる HTMLの リソースヒント ( 日本語訳 )に載っているlinkタグの「rel="preconnect"」がサイトの表示速度を上げるのに役立つと知ってブログに取り入れたんだ。 速くなるのは確かながらほんの僅かで、体感上、殆ど変わらないようだけど、しかしブラ...
芦名星のたぶん本当の死因 芦名星は自殺した。その前後、 三浦春馬と竹内結子の自宅のクローゼットでの首吊りという同じ仕方での連続自殺 があり、他殺の陰謀論も思い浮かぶけど、しかし違うのではないか。今の 日本の芸能界には死にたくなる気持ち悪さがある し、芸能人が裕福な生活でも自殺することはさほど不思議ではない...
宜保愛子の死んだペットなどの動物の供養の仕方 宜保愛子 (霊能力者)の霊視で、死んだペットの話が出て来ることがある。そんな中で、僕も同様の経験があって辛い気持ちを抱えていたものがあった。可哀相な亡くなり方といわれる。せめて成仏できるようにペットなどの動物の供養の仕方と併せて取り上げたい。 永井美奈子の可哀相な亡くなり方をし...
Androidの無料で使い易いHTMLエディターの比較検討 Androidのスマホ/タブレットで 気に入って使っていたHTMLエディターアプリのWebMaster's HTML Editor Lite がが終了してしまって有料版しかなくなった。無料で使い易くて嬉しかったし、値段は五百円くらいの安い有料版だから移行しようかとも考えた...
コメント