Python爬虫第一天

/ 爬虫Python / 没有评论 / 557浏览

环境

python 3.5.2

依赖库

requests lxml

安装依赖库

pip install lxml

pip install requests

放脚本

(papa) [root@pa2 first]#python ll.py 

name: ['肖申克的救赎 The Shawshank Redemption']

导演: ['弗兰克·德拉邦特']

主演: ['蒂姆·罗宾斯', '摩根·弗里曼', '鲍勃·冈顿', '威廉姆·赛德勒', '克兰西·布朗', '吉尔·贝罗斯', '马克·罗斯顿', '詹姆斯·惠特摩', '杰弗里·德曼', '拉里·布兰登伯格', '尼尔·吉恩托利', '布赖恩·利比', '大卫·普罗瓦尔', '约瑟夫·劳格诺', '祖德·塞克利拉', '保罗·麦克兰尼', '芮妮·布莱恩', '阿方索·弗里曼', 'V·J·福斯特', '弗兰克·梅德拉诺', '马克·迈尔斯', '尼尔·萨默斯', '耐德·巴拉米', '布赖恩·戴拉特', '唐·麦克马纳斯']

时长: ['142分钟']

(papa) [root@pa2 first]#cat ll.py 

import requests

from lxml import etree

url='https://movie.douban.com/subject/1292052/'

data=requests.get(url).text

s=etree.HTML(data)

film=s.xpath('//*[@id="content"]/h1/span[1]/text()')

actor=s.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')

director=s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')

time=s.xpath('//*[@id="info"]/span[13]/text()')

print('name:',  film)

print('导演:' , actor)

print('主演:' , director)

print('时长:' , time)