九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Python爬蟲入門,快速抓取大規(guī)模數(shù)據(jù)(第二部分)

通過第一部分的練習(xí),我們已經(jīng)有了一個(gè)可運(yùn)行的爬蟲。這一部分我們詳細(xì)的看看如何使用BeautifulSoup從網(wǎng)頁中提取我們需要的數(shù)據(jù),學(xué)習(xí)的目標(biāo)是能夠使用BeautifulSoup從網(wǎng)頁中提取任意的數(shù)據(jù)。

HTML文檔和CSS選擇器

我們知道我們抓取回來的網(wǎng)頁是由HTML和CSS構(gòu)成,HTML文檔對象模型(DOM)將HTML文檔表達(dá)為樹結(jié)構(gòu)。而提取網(wǎng)頁特定數(shù)據(jù)實(shí)際上就是按照指定的特征匹配文檔樹并讀取數(shù)據(jù)內(nèi)容。

BeautifulSoup支持大部分的CSS選擇器,在tag或BeautifulSoup對象的.select()方法中傳入字符串參數(shù),即可使用CSS選擇器的語法找到tag。以上面的HTML為例,下面分別使用tag,tag+id, tag+class對網(wǎng)頁元素定位:

爬蟲實(shí)例

現(xiàn)在回到我們抓取豆瓣圖書的例子,我們看看怎么使用BeautifulSoup從網(wǎng)頁中提取書名,封面圖片,圖書簡介等,代碼如下。感興趣的讀者可以添加代碼提取更多內(nèi)容。

提取數(shù)據(jù)的關(guān)鍵是分析并確定網(wǎng)頁元素的CSS選擇器。幸運(yùn)的是瀏覽器可以幫我們很大的忙,以Chrome瀏覽器為例,在打開的網(wǎng)頁上對想要提取的數(shù)據(jù)點(diǎn)擊右鍵,在彈出的菜單項(xiàng)中選擇檢查元素。如圖所示我們可以非常方便的得到元素對應(yīng)的CSS選擇器。

好,現(xiàn)在我們把數(shù)據(jù)提取部分代碼加入我們的爬蟲中。再次運(yùn)行程序,圖書書名,圖書封面,簡介信息便被提取和打印出來了。

總結(jié)

這一部分里我們詳細(xì)介紹了如何提取網(wǎng)頁數(shù)據(jù)。BeautifulSoup還有許多其它的API可以訪問html的內(nèi)容,細(xì)節(jié)可以參考BeautifulSoup文檔。

在下一部分里我們將如何存儲(chǔ)爬蟲運(yùn)行數(shù)據(jù),以及抓取到的各種數(shù)據(jù)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Python網(wǎng)絡(luò)爬蟲四大選擇器(正則表達(dá)式、BS4、Xpath、CSS)總結(jié)
python爬蟲之定位網(wǎng)頁元素的三種方式
程序員使用爬蟲的一些技巧和方法
Python 爬蟲實(shí)戰(zhàn):駕馭數(shù)據(jù)洪流,揭秘網(wǎng)頁深處
【雜談】爬蟲基礎(chǔ)與快速入門指南
如何用python爬蟲從爬取一章小說到爬取全站小說
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服