閱讀(6.1k) 書簽贊(0) 我要糾錯(cuò)

Colly 是什么？

2025-06-25 18:59 更新

一、Colly 是什么：網(wǎng)絡(luò)爬蟲的得力助手

Colly 是一個(gè)基于 Golang 的網(wǎng)絡(luò)爬蟲框架，它可以幫助我們輕松地構(gòu)建各種復(fù)雜程度的網(wǎng)絡(luò)爬蟲。無論是簡(jiǎn)單的數(shù)據(jù)抓取任務(wù)，還是處理數(shù)百萬網(wǎng)頁的大型爬蟲項(xiàng)目，Colly 都能勝任。它提供了豐富的 API，方便我們發(fā)送網(wǎng)絡(luò)請(qǐng)求、處理響應(yīng)內(nèi)容（例如與 HTML 文檔的 DOM 樹進(jìn)行交互）。

二、簡(jiǎn)單爬蟲示例：快速上手 Colly

為了讓大家快速上手 Colly，這里提供一個(gè)簡(jiǎn)單的爬蟲示例。我們將使用 Colly 抓取一個(gè)網(wǎng)頁的標(biāo)題，就像摘取網(wǎng)頁上最顯眼的 “果實(shí)” 一樣。

創(chuàng)建一個(gè)名為 simple_crawler.go 的文件，然后寫入以下代碼：

package main


import (
    "fmt"
    "github.com/gocolly/colly"
)


func main() {
    // 創(chuàng)建默認(rèn)收集器
    c := colly.NewCollector()


    // 當(dāng)訪問頁面時(shí)，輸出頁面標(biāo)題
    c.OnHTML("title", func(e *colly.HTMLElement) {
        fmt.Println("網(wǎng)頁標(biāo)題：", e.Text)
    })


    // 訪問頁面
    c.Visit("http://www.yjpub.cn/")
}

運(yùn)行這段代碼后，你會(huì)看到編程獅（W3Cschool.cn）網(wǎng)站的標(biāo)題打印在終端上。這樣，你就成功創(chuàng)建并運(yùn)行了一個(gè)簡(jiǎn)單的 Colly 爬蟲！

三、構(gòu)建復(fù)雜爬蟲：挖掘網(wǎng)絡(luò)深處的寶藏

除了簡(jiǎn)單的爬蟲，Colly 還可以構(gòu)建處理數(shù)百萬網(wǎng)頁的復(fù)雜異步爬蟲。以下是一個(gè)稍微復(fù)雜一點(diǎn)的爬蟲示例，它會(huì)抓取一個(gè)網(wǎng)頁上所有的鏈接，并繼續(xù)訪問這些鏈接，就像在迷宮中探索所有的通道。

創(chuàng)建一個(gè)名為 complex_crawler.go 的文件，然后寫入以下代碼：

package main


import (
    "fmt"
    "github.com/gocolly/colly"
)


func main() {
    // 創(chuàng)建默認(rèn)收集器
    c := colly.NewCollector()


    // 當(dāng)訪問頁面時(shí)，輸出頁面標(biāo)題
    c.OnHTML("title", func(e *colly.HTMLElement) {
        fmt.Println("網(wǎng)頁標(biāo)題：", e.Text)
    })


    // 當(dāng)找到鏈接時(shí)，繼續(xù)訪問鏈接
    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        link := e.Attr("href")
        fmt.Println("發(fā)現(xiàn)鏈接：", link)
        e.Request.Visit(link)
    })


    // 限制最大深度，避免無限爬取
    c.MaxDepth = 2


    // 訪問起始頁面
    c.Visit("http://www.yjpub.cn/")
}

這段代碼會(huì)讓爬蟲從編程獅（W3Cschool.cn）網(wǎng)站的首頁開始，抓取頁面上的所有鏈接，并訪問這些鏈接所指向的頁面。MaxDepth 參數(shù)限制了爬蟲的最大爬取深度，避免它陷入無限爬取的循環(huán)。

四、與 API 交互：讓爬蟲機(jī)器人更智能

Colly 還可以與各種 API 交互，獲取更多數(shù)據(jù)或發(fā)送數(shù)據(jù)到其他系統(tǒng)。以下是一個(gè)與 API 交互的示例，它會(huì)向一個(gè) API 發(fā)送請(qǐng)求，并處理返回的數(shù)據(jù)。

創(chuàng)建一個(gè)名為 api_crawler.go 的文件，然后寫入以下代碼：

package main


import (
    "fmt"
    "github.com/gocolly/colly"
)


func main() {
    // 創(chuàng)建默認(rèn)收集器
    c := colly.NewCollector()


    // 向 API 發(fā)送請(qǐng)求
    c.OnRequest(func(r *colly.Request) {
        fmt.Println("發(fā)送請(qǐng)求到：", r.URL)
    })


    // 處理 API 返回的數(shù)據(jù)
    c.OnResponse(func(r *colly.Response) {
        fmt.Println("收到響應(yīng)：", string(r.Body))
    })


    // 訪問 API
    c.Visit("https://api.example.com/data")
}

這段代碼會(huì)向一個(gè)示例 API 發(fā)送請(qǐng)求，并打印出返回的數(shù)據(jù)。你可以將 API 的 URL 替換為你需要訪問的實(shí)際 API 地址。

五、總結(jié)與展望：探索更多寶藏

通過本篇文章，我們學(xué)習(xí)了 Colly 的基本概念、簡(jiǎn)單爬蟲示例、復(fù)雜爬蟲構(gòu)建以及與 API 交互等內(nèi)容。Colly 的強(qiáng)大功能遠(yuǎn)不止這些，它還有許多其他功能等待我們?nèi)ヌ剿鳎热缣幚?JavaScript 渲染的頁面、存儲(chǔ)抓取到的數(shù)據(jù)到數(shù)據(jù)庫等等。

在編程獅（W3Cschool.cn）的后續(xù)教程中，我們會(huì)繼續(xù)深入學(xué)習(xí) Colly 的高級(jí)功能，幫助你構(gòu)建更加強(qiáng)大、智能的網(wǎng)絡(luò)爬蟲。希望你能持續(xù)關(guān)注，和我們一起在網(wǎng)絡(luò)爬蟲的世界里探索更多寶藏！

以上內(nèi)容是否對(duì)您有幫助：

在文檔使用的過程中是否遇到以下問題：