Hexoで書いているGitHub Pagesのブログにrobots.txtを置いてみた
記事がなかなか検索エンジンにインデックスされない。古い記事がインデックスされず新しいのがインデックスされたりしているようだ。
プラグインでsitemap.xmlは導入しているが、ちゃんと読んでくれているのか疑問。
sitemapとは別にクローラーに各種の指定をするrobots.txtというのがあるようなので、GitHub Pagesに置いてみた。
SeesaaやFC2などのブログサービスでは自動的に用意してくれているようだ。
sourceフォルダ直下にrobots.txtを新規作成。
generateするとちゃんとpublicフォルダ内にもrobots.txtが生成された。
deployし、ブラウザでhttp://pagent.github.io/robots.txt
にアクセスしが、何故か404エラーだった。GitHub Pagesのレポジトリには追加されていたが。
反映に時間がかかるようでしばらくするとアクセス出来た。
robots.txtの内容は下記のようにした。
User-agent: *
Disallow:
Sitemap: http://pagent.github.io/sitemap.xml
User-agent: bingbot
Crawl-delay: 30
User-agent: MSNBOT
Crawl-delay: 30
大して効果は無いのかもしれないが、おかしなことを書かない限りデメリットはないだろうし、無いよりはましだろう。
ーー
(追記)
robots.txtを置いてから、わりと早く検索エンジンにインデックスされるようになった気がする。
Octopressではデフォルトでsitemap.xmlとrobots.txtを生成してくれるようだ。
この点、HexoよりOctopressの方がSEO的に優れているかもしれない。
ーー
(再追記)
Google ウェブマスターツールのヘルプによると、「robots.txt ファイルが必要になるのは、Google などの検索エンジンのインデックスに登録したくないコンテンツがある場合のみ」らしい。
robots.txt ファイルについて - ウェブマスター ツール ヘルプ
SEO上どうしても必要なものではないようだ。