Python3的简单爬虫

体验了一下python爬虫,确实很方便。

做了一个最简单的爬取图片的爬虫。我用的是chrome浏览器,利用开发者工具查看要爬图片的网页的信息。用urllib.request获取网页内容,然后通过正则表达式筛选出需要的 信息。最后用urllib.request.urlretrieve()方法将图片下载到本地。

代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import urllib.request
import re
 
def getHtml(url):
	page = urllib.request.urlopen(url)
	html = page.read()
	return html
 
 
def getImg(html):
	reg = re.compile('相关信息的正则表达式')
	getStr = re.findall(reg,html.decode('utf-8'))
	result = []
	for url in getStr:
		reg = re.compile('http:.*jpg')
		result.extend(re.findall(reg,url))
 
	x = 0
	for url in result:
		x += 1
		urllib.request.urlretrieve(url,'{}.jpg'.format(x))
 
 
html = getHtml('要抓取的网页url')
getImg(html)

Add a Comment

电子邮件地址不会被公开。 必填项已用*标注