閱讀(8.2k) 書簽贊(0) 我要糾錯

Colly 配置：打造專屬爬蟲機器人

2025-06-25 18:47 更新

在上一篇 Colly 入門中，我們已經成功創(chuàng)建并運行了第一個 Colly 爬蟲。現(xiàn)在，讓我們進一步學習如何通過配置 Colly，讓我們的爬蟲機器人更加智能、高效，就好像給汽車換輪胎、升級引擎一樣，讓它的性能更上一層樓。編程獅（W3Cschool.cn）將繼續(xù)為你提供簡單易懂的講解，讓你輕松掌握 Colly 的配置技巧。

一、創(chuàng)建收集器：給爬蟲機器人裝上 “大腦”

在 Colly 中，收集器（Collector）就像是爬蟲機器人的大腦，負責管理網絡通信和執(zhí)行各種任務。創(chuàng)建收集器的方法非常簡單，只需要一行代碼：

c := colly.NewCollector()

這行代碼就像是給爬蟲機器人安裝了一個最基礎的大腦，讓它具備了基本的爬取能力。

二、個性化配置：給爬蟲機器人 “換裝”

為了適應不同的爬取任務，我們可以對收集器進行個性化配置，這就像是給爬蟲機器人換上不同的裝備，讓它在不同的環(huán)境中都能出色完成任務。

（一）修改用戶代理（User-Agent）

不同的網站對訪問者的身份有不同的要求。有時候，我們需要讓爬蟲機器人偽裝成不同的瀏覽器，這就需要修改用戶代理（User-Agent）。代碼示例：

c := colly.NewCollector(
    colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"),
)

這樣設置后，目標網站就會認為是常見的瀏覽器在訪問，而不是一個簡單的爬蟲程序。

（二）允許重復訪問網址

在某些情況下，我們可能需要讓爬蟲機器人多次訪問同一個網址，這就需要開啟允許重復訪問網址的選項。代碼示例：

c := colly.NewCollector(
    colly.AllowURLRevisit(),
)

或者，也可以在創(chuàng)建收集器后，直接修改其屬性：

c := colly.NewCollector()
c.AllowURLRevisit = true

（三）動態(tài)切換用戶代理

為了更好地模擬真實的瀏覽器訪問行為，我們還可以讓爬蟲機器人在每次請求時隨機切換用戶代理。這就像是給爬蟲機器人準備了一套變裝道具，讓它每次訪問都換一個身份。代碼示例：

const letterBytes = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"


func RandomString() string {
    b := make([]byte, rand.Intn(10)+10)
    for i := range b {
        b[i] = letterBytes[rand.Intn(len(letterBytes))]
    }
    return string(b)
}


c := colly.NewCollector()


c.OnRequest(func(r *colly.Request) {
    r.Headers.Set("User-Agent", RandomString())
})

三、通過環(huán)境變量配置：讓爬蟲機器人更靈活

除了在代碼中直接配置收集器，我們還可以通過環(huán)境變量來配置，這就像是給爬蟲機器人準備了一套外部指令，讓它在不同的環(huán)境中都能靈活調整自己的行為。

（一）設置允許訪問的域名

如果我們只想讓爬蟲機器人訪問特定的域名，可以通過設置環(huán)境變量 COLLY_ALLOWED_DOMAINS 來實現(xiàn)。例如，在終端中運行以下命令：

export COLLY_ALLOWED_DOMAINS="w3cschool.cn,www.yjpub.cn"

然后運行爬蟲程序，它就只會訪問編程獅（W3Cschool.cn）網站及其子域名。

（二）禁止訪問的域名

如果我們想禁止爬蟲機器人訪問某些域名，可以通過設置環(huán)境變量 COLLY_DISALLOWED_DOMAINS 來實現(xiàn)。例如：

export COLLY_DISALLOWED_DOMAINS="badwebsite.com,www.badwebsite.com"

這樣，爬蟲機器人就不會訪問這些被禁止的域名。

（三）其他環(huán)境變量配置

Colly 提供了許多其他的環(huán)境變量配置選項，例如：

COLLY_CACHE_DIR：設置緩存目錄
COLLY_DETECT_CHARSET：是否檢測字符集（y 表示是，n 表示否）
COLLY_DISABLE_COOKIES：是否禁用 cookies（y 表示是，n 表示否）
COLLY_FOLLOW_REDIRECTS：是否跟隨重定向（y 表示是，n 表示否）
COLLY_MAX_BODY_SIZE：設置最大響應體大小
COLLY_MAX_DEPTH：設置最大爬取深度（0 表示無限深度）
COLLY_USER_AGENT：設置默認的用戶代理

這些環(huán)境變量就像是給爬蟲機器人準備的各種開關和旋鈕，通過調整它們，可以讓爬蟲機器人在不同的環(huán)境中都能表現(xiàn)出色。

四、HTTP 配置：優(yōu)化爬蟲機器人的網絡連接

為了提升爬蟲機器人的性能，我們還可以對 HTTP 連接進行優(yōu)化，這就像是給汽車升級引擎，讓它跑得更快更穩(wěn)。

（一）設置 HTTP 超時時間

在網絡爬取過程中，可能會遇到網絡不穩(wěn)定的情況。為了防止爬蟲機器人陷入無盡的等待，我們可以設置 HTTP 請求的超時時間。代碼示例：

c := colly.NewCollector()


c.WithTransport(&http.Transport{
    DialContext: (&net.Dialer{
        Timeout:   30 * time.Second,  // 設置連接超時時間為 30 秒
        KeepAlive: 30 * time.Second,  // 設置連接保持活動時間為 30 秒
    }).DialContext,
    TLSHandshakeTimeout: 10 * time.Second,  // 設置 TLS 握手超時時間為 10 秒
})

（二）設置代理服務器

在某些情況下，我們可能需要通過代理服務器來訪問目標網站，這就像是給爬蟲機器人找了一個中間人，讓它通過中間人去訪問目標網站。代碼示例：

c := colly.NewCollector()


c.WithTransport(&http.Transport{
    Proxy: http.ProxyFromEnvironment,  // 使用環(huán)境變量中的代理服務器設置
})

五、進階技巧：給爬蟲機器人 “升級武器”

除了上述基本配置，我們還可以通過一些進階技巧，讓爬蟲機器人更加智能、高效。

（一）使用中間件

Colly 支持使用中間件來擴展其功能，這就像是給爬蟲機器人安裝插件，讓它具備更多的能力。例如，我們可以使用中間件來記錄每次請求的詳細信息：

c := colly.NewCollector()


c.Use(func(r *colly.Request) {
    fmt.Println("Requesting", r.URL)
})


c.Use(func(r *colly.Response) {
    fmt.Println("Visited", r.Request.URL)
})

（二）處理 JavaScript 渲染的頁面

對于一些需要 JavaScript 渲染的頁面，我們可以通過集成 Splash 等工具來處理，這就像是給爬蟲機器人配備了一個能處理復雜網頁的智能引擎。代碼示例：

c := colly.NewCollector()


c.OnHTML("a.js-rendered", func(e *colly.HTMLElement) {
    fmt.Println("Found JavaScript rendered link:", e.Text)
})

六、總結與實踐：讓爬蟲機器人大展身手

通過本篇文章，我們學習了如何通過個性化配置、環(huán)境變量設置以及 HTTP 優(yōu)化等方式，讓 Colly 爬蟲機器人更加智能、高效?，F(xiàn)在，你可以嘗試結合這些配置技巧，去編程獅（W3Cschool.cn）網站上抓取更多有趣的數據，比如熱門編程教程的標題和鏈接，或者最新技術文章的作者和發(fā)布日期。

以上內容是否對您有幫助：

在文檔使用的過程中是否遇到以下問題：

內容錯誤
更新不及時
鏈接錯誤
缺少代碼/圖片示列
太簡單/步驟待完善
其他

更多建議：

提交建議

← Colly 快速入門教程：開啟網絡爬蟲之旅

Colly 調試教程：讓爬蟲機器人乖乖聽話 →

寫筆記

我要補充

查看完整版筆記

国产gaysexchina男同gay,japanrcep老熟妇乱子伦视频,吃奶呻吟打开双腿做受动态图,成人色网站,国产av一区二区三区最新精品