W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
存儲抓取數(shù)據(jù)的最簡單方法是使用 Feed exports ,使用以下命令::
scrapy crawl quotes -O quotes.json
這將生成一個``quotes.json``文件,其中包含所有已刪除的項目,在`JSON`_中序列化。
這個 -O 命令行開關(guān)覆蓋任何現(xiàn)有文件;使用 -o 而是將新內(nèi)容附加到任何現(xiàn)有文件中。但是,附加到JSON文件會使文件內(nèi)容無效JSON。附加到文件時,請考慮使用不同的序列化格式,例如 JSON Lines ::
scrapy crawl quotes -o quotes.jl
這個 JSON Lines 格式很有用,因為它類似于流,您可以很容易地向它附加新記錄。當(dāng)您運行兩次時,它不存在相同的JSON問題。另外,由于每個記錄都是單獨的一行,因此您可以處理大文件,而不必將所有內(nèi)容都放入內(nèi)存中,因此有如下工具: JQ 以幫助在命令行中執(zhí)行此操作。
在小項目中(如本教程中的項目),這就足夠了。但是,如果您想對爬取的項目執(zhí)行更復(fù)雜的操作,可以編寫一個 Item Pipeline . 項目創(chuàng)建時已為您設(shè)置了項目管道的占位符文件,位于 ?tutorial/pipelines.py
? . 但是,如果只想存儲爬取的項目,則不需要實現(xiàn)任何項目管道。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: