这两天在知识星球上有球友在使用requests+re来爬豆瓣图书的链接,书名及作者遇到了问题,虽然当时很快给他解决了,但由于我之前没有写这方面的文章,所以临时决定补一篇这样的文章。
概念性的东西这里就不说了,我们直接来实战,这里只简单说明一下,详细的需要自己去查一下资料! 要爬取的图书内容: 爬取到的数据
完整代码 import requestsimport reimport sysreload(sys)sys.setdefaultencoding('utf-8')url = 'https://book.douban.com/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)\Chrome/55.0.2883.87 Safari/537.36'}html = requests.get(url, headers=headers)html.encoding = 'utf-8'# 这里我只取了链接与标题patter = re.compile('<li class.*?cover.*?href="(.*?)".*?alt="(.*?)".*?<p class="author".*?>(.*?)</p>', re.S)titles = re.findall(patter, html.text)for each in titles: print '书籍链接:{},书籍标题:{},---书籍作者:{}'.format(each[0], each[1],each[2].strip()) |