博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Learn Beautiful Soup(4)—— 一个简单抓取图书信息的例子
阅读量:6733 次
发布时间:2019-06-25

本文共 1227 字,大约阅读时间需要 4 分钟。

hot3.png

抓取图书信息的网站地址为

展示内容如下:

我们的目的很简单——获取当前页每本书的名字和价格。

审查元素可以看出页面结构如下:

可以通过查找"book-block-title"定位标题,这里用到find_all()方法,这样就可以找到所有书的标题,它们构成了一个列表。然后循环查找书的价格。注意到书的价格独立于任何标签之外,所以运用到了上篇文章讲到的正则表达式匹配进行查找。

注:这里遇到了一个问题,我用NOTEPAD运行我写的代码时,报UnicodeEncodeError错误,用了很多方法未果。然后用Python自带的IDLE运行程序,一次通过,知道是编码问题,但不知道怎么解决,暂且放下。而且发现爬取信息的时候很慢,以为是BeautifulSoup问题,结果加入时间模块检测,发现是网页打开占去了大部分时间,爬取信息还是蛮快的。

下面是示例代码:

import urllib.requestimport datetimeimport refrom bs4 import BeautifulSoupstarttime = datetime.datetime.now()url = "https://www.packtpub.com/all"page = urllib.request.urlopen(url)soup_packtpage = BeautifulSoup(page)page.close()endtime = datetime.datetime.now()print (endtime - starttime)starttime = datetime.datetime.now()all_book_title = soup_packtpage.find_all("div", class_="book-block-title")price_regexp = re.compile(u"\s+£\s\d+\.\d+")for book_title in all_book_title:	print("Book's name is " + book_title.string.strip())	book_price = book_title.find_next(text=price_regexp)	print("Book's price is "+ book_price.strip())	print("\n")	endtime = datetime.datetime.now()print (endtime - starttime)
输出:

关于图书的信息还有很多,比如图书大概内容,图书的ISBN号,图书页数等,这些需要跳转到另一个页面去获取。目前初学了一点BeautifulSoup,暂时只能做这么多。以后学多了,能爬取的信息就更多了。

转载于:https://my.oschina.net/u/1587304/blog/399918

你可能感兴趣的文章
FPGA管脚约束
查看>>
软件测试用例
查看>>
python mysql 单表查询 多表查询
查看>>
day10决策树和随机森林实践
查看>>
rsyslog日志服务的配置文件分析
查看>>
nyoj113字符串替换
查看>>
android handler概念解释
查看>>
eclipse代码左虚线对齐设置
查看>>
storm trident的filter和函数
查看>>
设计模式-命令模式简单理解
查看>>
C中的sizeof
查看>>
插入排序算法java
查看>>
[改善Java代码]线程优先级只使用三个等级
查看>>
[改善Java代码]警惕泛型是不能协变和逆变的
查看>>
插入排序的Java代码实现
查看>>
Spring整合Web开发
查看>>
python写的的语音天气预报
查看>>
cesium加载shp格式数据
查看>>
vue的项目结构记录
查看>>
博客已搬家,新博地址 http://www.yiven.vip
查看>>