トップ 一覧 置換 検索 ヘルプ RSS ログイン

クローラー対策の変更点

  • 追加された行はこのように表示されます。
  • 削除された行はこのように表示されます。
http://d.hatena.ne.jp/e980661979/20100720/1279610838
http://www.somethingfine.com/br/searchlab/note02.html
http://colo-ri.jp/develop/2012/10/bingbotrobotstxt.html

,,
,robots.txt, ドメインのルートに仕掛ける。クローラのエージェントを指定したり、挙動に関して指示(お願い)ができる
,タグ,コンテンツ内のタグに仕掛ける。細かい設定はできないが、コンテンツレベルで指定(お願い)ができる

!!robots.txt
ドメインのルートに robots.txt を設置する。
例えば
 http://hogehoge.com/robots.txt
とか。

!すべてのロボットに対し、すべてのコンテンツを不許可とする例
 User-agent: * 
 Disallow: / 

!特定のロボットに対して、すべてのコンテンツを不許可とする例
vi /var/www/html/robots.txt
 User-agent: bingbot
 Disallow: /



!http://hogehoge.com/test 以下を侵入禁止にする例
User-agent: * 
Disallow: /test/ 

!クロールする間隔を設定する例
 User-agent: ロボットの名前
 Crawl-delay: 秒数
秒数は、クローラーによって分だったりするので注意。
例えば、bing bot のクロールの間隔を 60秒する場合は
 User-agent: bingbot
 Clawl-delay: 60

!!meta タグ
head内に書くタグによる指定を行えば、各ページに対する設定を行うことができます。
 <meta name="robots" content="noindex,nofollow">

content 属性の指定は
:index:検索データベースへの登録を許可します。
:noindex:検索データベースへの登録を禁止します。
:follow:このページに含まれるリンクをたぐることを許可します。
:nofollow:このページに含まれるリンクをたぐることを禁止します。

{{category2 ネットワーク}}