# instinct: スクレイピング対象サイトがCloudflare/403を返す場合事前にプロキシ要否とUser-Agentを検証する

スクレイピング対象サイトがCloudflare保護または403エラーを返す場合、実装前にプロキシ要否とUser-Agentを事前検証する必要がある。eromanga-cafeなど複数サイトで403が続発し、プロキシ設定ミスによる時間ロスが発生した教訓から得たinstinct。インフラ・スクレイピング作業開始前にcurlで疎通確認し、Cloudflare検知時はプロキシ・ヘッダー設定を先に固めてから実装に入る。

## ポイント
- 実装前にcurlでUser-Agentとプロキシ設定を検証し、403が出る場合は原因を特定してから実装開始する
- Cloudflare保護サイトはブラウザUA偽装だけでは不十分なことが多く、住宅プロキシや認証付きプロキシが必要な場合がある
- SPAサイトはPlaywrightFetcherでJSレンダリングを行い、静的サイトはrequests+UA偽装で試みる段階的アプローチを取る
- プロキシ設定ミス(認証情報誤り・エンドポイント誤り)は無言の403を引き起こすため、プロキシ単体の疎通確認を先に行う

## 関連ページ
[[Scraplingを使う前に、対象サイトがSPAかどうかを確認し、JSレンダリングが必要ならPlaywrightFetcherを明示的に指定する]] [[URLパターンマッチを修正する前に、実際のリンク構造(/sees/数字 vs /sees/detail/数字)をcurlまたはブラウザで検証する]]

## 関連概念(未作成)
`Cloudflare Bot管理バイパス手法(TLS fingerprint・JA3ハッシュ偽装)` `住宅プロキシ vs データセンタープロキシの使い分け基準` `スクレイピング事前疎通チェックリスト(curl/HTTPie標準テンプレート)`