robots.txt でクローラを全拒否する
巡回を全拒否する
robots.txtUser-agent: *
Disallow: /
説明
User-agent: *
- すべてのクローラを対象にする。
Disallow: /
- ルート配下の全ディレクトリを対象にする。
備考:失敗例
robots.txtUser-agent: *
Disallow:
説明
Disallow:
(Disallow の未指定)Disallow
が未指定の場合、拒否ではなく許可扱いになる。robots.txt
は、すべての対象が許可されている前提がある。Disallow
が未指定のため、許可しない対象がないことになる。- そのため、全許可として処理される。
備考:インデックス
上記のクロール拒否を実施している場合でも、 Google の検索エンジンにインデックスされることがあります。「既にインデックス済みでクロール拒否を後から実施した場合」「外部サイトからリンクが貼られた場合」などです。
robots.txt
は、クロール(巡回)を制御するものであり、インデックスを拒否するものではありません。インデックスを拒否したい場合、 noindex
を明示的に指示してください。
他の方法(類似する案件)
tag: noindex
<meta name="robots" content="noindex">
noindex
は、ロボットにページをインデックスしないように要求します。
tag: nofollow
<meta name="robots" content="nofollow">
<a href="URL" rel="nofollow">Link Text</a>
nofollow
は、ロボットにリンク先を参照(巡回)しないように要求します。
HTTP ヘッダー応答: X-Robots-Tag
X-Robots-Tag: noindex, nofollow
HTTP ヘッダー応答を使用して、 「noindex
」「nofollow
」を指示することもできます。
.htaccess
.htaccessDeny from all
.htaccess
ファイルを利用したアクセス制限です。
すべてのアクセスを拒否します。自分のIPアドレスの許可を忘れてはいけません。