你是否曾發現最近的伺服器連線,有些聲稱來自 OpenAI ChatGPT 的網路爬蟲「GPTBot」的流量,行為卻異常可疑?
最近,我們在監測 Mountos 網站流量時,捕捉到一個 IP 地址 20.171.207.116
,它的資訊似乎像是來自 OpenAI 的 GPTBot,卻又像是惡意軟體般試圖對網站進行掃描和探測。
經過深入分析,我們發現這個 IP 地址竟然還真的屬於 OpenAI 的官方公佈的位址範圍內!但它的行為模式卻不免讓人聯想到是否有偽造 IP 的威脅正在悄然蔓延。
本文將帶你深入了解 OpenAI 的官方 IP 範圍,並教你如何識別和防範這些偽裝的惡意流量。
1. GPTBot 的真假?
在這次的網路例行監測中,我們發現的可疑 IP 地址:「20.171.207.116
」。其 User-Agent 標示為:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
在透過 IP 位址檢測程式1查驗該 IP 後,看起來屬於微軟的 IP 段(AS8075 MICROSOFT-CORP-MSN-AS-BLOCK
),也是 OpenAI 所指定的官方範圍(參考下列官宣 IP2),不過它的 IP 行為模式卻顯示出明顯的惡意掃描意圖,並非正常的網路爬蟲行為,也因此讓我產生警惕,特別去查詢 OpenAI 爬蟲的 IP 範圍。
2. OpenAI 官方 IP 範圍:如何辨識真正的 GPTBot
為了幫助大家識別合法的 GPTBot 流量,OpenAI 已公開其官方使用的 IP 範圍。以下是 OpenAI 提供的 IP 地址段,包括:
GPTBot – Published IP addresses
{
"creationTime": "2023-11-30T11:51:00.000000",
"prefixes": [
{"ipv4Prefix": "52.230.152.0/24"},
{"ipv4Prefix": "52.233.106.0/24"},
{"ipv4Prefix": "20.171.206.0/24"},
{"ipv4Prefix": "20.171.207.0/24"},
{"ipv4Prefix": "4.227.36.0/25"},
{"ipv4Prefix": "20.125.66.80/28"},
{"ipv4Prefix": "172.182.193.160/28"}
]
}
ChatGPT-User – Published IP addresses
{
"creationTime": "2025-02-20T20:15:50.707457",
"prefixes": [
{"ipv4Prefix": "23.98.179.16/28"},
{"ipv4Prefix": "172.183.222.128/28"},
{"ipv4Prefix": "51.8.155.64/28"},
{"ipv4Prefix": "51.8.155.48/28"},
{"ipv4Prefix": "135.237.131.208/28"},
{"ipv4Prefix": "51.8.155.112/28"},
{"ipv4Prefix": "52.159.249.96/28"},
{"ipv4Prefix": "172.178.141.112/28"},
{"ipv4Prefix": "172.178.140.144/28"},
{"ipv4Prefix": "172.178.141.128/28"},
{"ipv4Prefix": "4.196.118.112/28"},
{"ipv4Prefix": "20.215.188.192/28"},
{"ipv4Prefix": "4.197.22.112/28"},
{"ipv4Prefix": "57.154.175.0/28"},
{"ipv4Prefix": "52.236.94.144/28"},
{"ipv4Prefix": "23.98.186.192/28"},
{"ipv4Prefix": "23.98.186.176/28"},
{"ipv4Prefix": "13.83.167.128/28"},
{"ipv4Prefix": "20.97.189.96/28"},
{"ipv4Prefix": "20.161.75.208/28"},
{"ipv4Prefix": "52.225.75.208/28"},
{"ipv4Prefix": "52.156.77.144/28"},
{"ipv4Prefix": "40.84.221.208/28"},
{"ipv4Prefix": "40.84.221.224/28"}
]
}
OAI-SearchBot – Published IP addresses
{
"creationTime": "2025-02-10T21:00:00.000000",
"prefixes": [
{"ipv4Prefix": "20.42.10.176/28"},
{"ipv4Prefix": "172.203.190.128/28"},
{"ipv4Prefix": "51.8.102.0/24"},
{"ipv4Prefix": "135.234.64.0/24"}
]
}
這三大類 IP 範圍都是 OpenAI 官方使用的,其他任何聲稱是 GPTBot 但 IP 不在這些範圍內的請求,都可能是偽造的。
而我們先前檢測的 IP 20.171.207.116,恰好位於 GPTBot – Published IP addresses 的IP 網段「20.171.207.0/24」的範圍內,因此符合 OpenAi 的官方 IP 範圍 —— 但是他一天掃描超過十萬次網站的根目錄,實在很難說是正常行為,因此我還是覺得直接手動封鎖該 IP。
3. 合法 GPTBot 的特徵
要識別真正的 GPTBot,可以從以下幾點進行判斷:
- User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
- User-Agent 中明確標識了
GPTBot
及其官方網站https://openai.com/gptbot
。
- User-Agent 中明確標識了
- IP 地址:請求的 IP 地址必須在 OpenAI 公布的官方 IP 範圍內。
- 行為模式:合法的 GPTBot 會遵守
robots.txt
的規則,並且不會對網站發起過於頻繁的請求。
4. 偽造 IP 的風險:攻擊者的真正目的
攻擊者偽造 GPTBot 的目的可能包括:
- 掃描漏洞:通過大量請求探測網站的安全漏洞。
- 數據收集:未經授權地收集網站內容,用於訓練惡意模型。
- 隱藏身份:利用合法的 User-Agent 隱藏其真實身份,逃避檢測。
5. 如何防範偽造 IP:實用防禦策略
為了保護您的網站免受偽造 IP 的威脅,建議採取以下措施:
- 驗證 IP 地址:
- 檢查請求的 IP 地址是否在 OpenAI 的官方 IP 範圍內。
- 使用 IP 查詢工具(如
whois
)確認 IP 的歸屬。
- 設置防火牆規則:
- 在 Cloudflare 或其他防火牆中,封鎖不在 OpenAI 官方 IP 範圍內的 GPTBot 請求。
- 示例規則:
- 條件:
User-Agent
包含GPTBot
,且 IP 不在 OpenAI 的官方範圍內。 - 操作:封鎖(Block)。
- 條件:
- 使用 robots.txt:
- 如果您不希望 GPTBot 爬取您的網站,可以在
robots.txt
中添加以下內容:User-agent: GPTBot Disallow: /
- 如果您不希望 GPTBot 爬取您的網站,可以在
- 啟用速率限制:設置速率限制規則,防止單一 IP 地址在短時間內發起大量請求。
- 監控與分析:
- 定期檢查網站日誌,識別並封鎖可疑的 IP 地址。
- 使用 Cloudflare 的 Bot Analytics 或其他工具,分析流量來源。
6. 結語:保護你的網站,從識別偽造 IP 開始
隨著網路攻擊手段的不斷升級,偽造 IP 已成為攻擊者的常用伎倆。通過公開 OpenAI 的官方 IP 範圍,我們希望幫助大家更好地識別合法的 GPTBot 流量,並有效防範偽造 IP 的威脅。如果你在監測中發現可疑的 GPTBot 請求,請務必驗證其 IP 地址,並採取相應的安全措施。