クローラー対策


robots.txt	ドメインのルートに仕掛ける。クローラのエージェントを指定したり、挙動に関して指示（お願い）ができる
タグ	コンテンツ内のタグに仕掛ける。細かい設定はできないが、コンテンツレベルで指定（お願い）ができる

ドメインのルートに robots.txt を設置する。
例えば

http://hogehoge.com/robots.txt

とか。

User-agent: * 
Disallow: /

vi /var/www/html/robots.txt

User-agent: bingbot
Disallow: /

User-agent: *
Disallow: /test/

User-agent: ロボットの名前
Crawl-delay: 秒数

秒数は、クローラーによって分だったりするので注意。
例えば、bing bot のクロールの間隔を 60秒する場合は

User-agent: bingbot
Clawl-delay: 60

head内に書くタグによる指定を行えば、各ページに対する設定を行うことができます。

<meta name="robots" content="noindex,nofollow">

content 属性の指定は

[カテゴリ: ネットワーク]

最終更新時間：2015年01月15日 01時08分23秒

Menu