robots.txt でクローラを全拒否する

2021/02/042023/08/22

robots.txtUser-agent: *
Disallow: /

説明

robots.txtUser-agent: *
Disallow:

説明

Disallow: （Disallow の未指定）
- Disallowが未指定の場合、拒否ではなく許可扱いになる。
  - robots.txtは、すべての対象が許可されている前提がある。
  - Disallowが未指定のため、許可しない対象がないことになる。
  - そのため、全許可として処理される。

上記のクロール拒否を実施している場合でも、 Google の検索エンジンにインデックスされることがあります。「既にインデックス済みでクロール拒否を後から実施した場合」「外部サイトからリンクが貼られた場合」などです。

robots.txt は、クロール（巡回）を制御するものであり、インデックスを拒否するものではありません。インデックスを拒否したい場合、 noindex を明示的に指示してください。

<meta name="robots" content="noindex">

noindex は、ロボットにページをインデックスしないように要求します。

<meta name="robots" content="nofollow">
<a href="URL" rel="nofollow">Link Text</a>

nofollow は、ロボットにリンク先を参照（巡回）しないように要求します。

X-Robots-Tag: noindex, nofollow

HTTP ヘッダー応答を使用して、「noindex」「nofollow」を指示することもできます。

.htaccessDeny from all

.htaccess ファイルを利用したアクセス制限です。
すべてのアクセスを拒否します。自分のIPアドレスの許可を忘れてはいけません。

バグ取りの日々