http://d.hatena.ne.jp/e980661979/20100720/1279610838
http://www.somethingfine.com/br/searchlab/note02.html
http://colo-ri.jp/develop/2012/10/bingbotrobotstxt.html
robots.txt | ドメインのルートに仕掛ける。クローラのエージェントを指定したり、挙動に関して指示(お願い)ができる |
タグ | コンテンツ内のタグに仕掛ける。細かい設定はできないが、コンテンツレベルで指定(お願い)ができる |
robots.txt
ドメインのルートに robots.txt を設置する。
例えば
http://hogehoge.com/robots.txt
とか。
すべてのロボットに対し、すべてのコンテンツを不許可とする例
User-agent: * Disallow: /
特定のロボットに対して、すべてのコンテンツを不許可とする例
vi /var/www/html/robots.txt
User-agent: bingbot Disallow: /
http://hogehoge.com/test 以下を侵入禁止にする例
User-agent: *
Disallow: /test/
クロールする間隔を設定する例
User-agent: ロボットの名前 Crawl-delay: 秒数
秒数は、クローラーによって分だったりするので注意。
例えば、bing bot のクロールの間隔を 60秒する場合は
User-agent: bingbot Clawl-delay: 60
meta タグ
head内に書くタグによる指定を行えば、各ページに対する設定を行うことができます。
<meta name="robots" content="noindex,nofollow">
content 属性の指定は
- index
- 検索データベースへの登録を許可します。
- noindex
- 検索データベースへの登録を禁止します。
- follow
- このページに含まれるリンクをたぐることを許可します。
- nofollow
- このページに含まれるリンクをたぐることを禁止します。
[通知用URL]
Tweet
最終更新時間:2015年01月15日 01時08分23秒