国产gaysexchina男同gay,japanrcep老熟妇乱子伦视频,吃奶呻吟打开双腿做受动态图,成人色网站,国产av一区二区三区最新精品

scrapy 2.3 存儲抓取的數(shù)據(jù)

2021-05-29 15:54 更新

存儲抓取數(shù)據(jù)的最簡單方法是使用 Feed exports ,使用以下命令::

scrapy crawl quotes -O quotes.json

這將生成一個``quotes.json``文件,其中包含所有已刪除的項目,在`JSON`_中序列化。

這個 -O 命令行開關(guān)覆蓋任何現(xiàn)有文件;使用 -o 而是將新內(nèi)容附加到任何現(xiàn)有文件中。但是,附加到JSON文件會使文件內(nèi)容無效JSON。附加到文件時,請考慮使用不同的序列化格式,例如 JSON Lines ::

scrapy crawl quotes -o quotes.jl

這個 JSON Lines 格式很有用,因為它類似于流,您可以很容易地向它附加新記錄。當(dāng)您運行兩次時,它不存在相同的JSON問題。另外,由于每個記錄都是單獨的一行,因此您可以處理大文件,而不必將所有內(nèi)容都放入內(nèi)存中,因此有如下工具: JQ 以幫助在命令行中執(zhí)行此操作。

在小項目中(如本教程中的項目),這就足夠了。但是,如果您想對爬取的項目執(zhí)行更復(fù)雜的操作,可以編寫一個 Item Pipeline . 項目創(chuàng)建時已為您設(shè)置了項目管道的占位符文件,位于 ?tutorial/pipelines.py? . 但是,如果只想存儲爬取的項目,則不需要實現(xiàn)任何項目管道。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號