博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
简单爬取微医网
阅读量:5138 次
发布时间:2019-06-13

本文共 2301 字,大约阅读时间需要 7 分钟。

一.利用request和xpath爬取微医网

  

#!/usr/bin/env python# -*- coding: utf-8 -*-#author tomimport requestsfrom lxml import etreeimport pymongo#爬取微医网类class DoctorSpider():    #初始化应该具有的一些属性    def __init__(self):        self.headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'} self.base_url='https://www.guahao.com/expert/all/%E5%85%A8%E5%9B%BD/all/%E4%B8%8D%E9%99%90/p' self.page_num=1 self.info_list = [] self.client=pymongo.MongoClient(host='127.0.0.1',port=27017) self.db=self.client['test'] #抓取网页数据 def crwal(self): print('正在爬取第{}页'.format(self.page_num)) url=self.base_url+str(self.page_num) res=requests.get(url=url,headers=self.headers).text #中国有38页 if self.page_num<=38: self.page_num+=1 return res # 网页内容解析 def parse(self,res): page_text=res tree=etree.HTML(page_text) li_list=tree.xpath('//div[@class="g-doctor-items to-margin"]/ul/li') for li in li_list: name=li.xpath("./div[2]/a/text()")[0] skill=li.xpath("./div[2]/div[1]/p/text()")[0] #解析出来的有很多空格,回车,制表符, skill=skill.replace('\n','').replace('\r','').replace(' ','').strip() position=li.xpath("./div[1]/dl/dt/text()")[1] position = position.replace('\n','').strip() score=li.xpath("./div[1]/dl/dd/p[3]/span/em/text()")[0] num=li.xpath("./div[1]/dl/dd/p[3]/span/i/text()")[0] office=li.xpath("./div[1]/dl/dd/p[1]/text()")[0] hospital=li.xpath("./div[1]/dl/dd/p[2]/span/text()")[0] dic={ 'name':name, 'skill':skill, 'position':position, 'score':score, 'num':num, 'office':office, 'hospital':hospital, } self.save(dic) #保存函数(保存到mongodb) def save(self,dic): collection=self.db['weiyiwang'] collection.save(dic) #项目启动函数 def run(self): while self.page_num<=38: response=self.crwal() a=self.parse(response)if __name__ == '__main__': doctor=DoctorSpider() doctor.run()

 

转载于:https://www.cnblogs.com/tjp40922/p/10574746.html

你可能感兴趣的文章
【架构】Linux的架构(architecture)
查看>>
ASM 图解
查看>>
Date Picker控件:
查看>>
你的第一个Django程序
查看>>
treegrid.bootstrap使用说明
查看>>
[Docker]Docker拉取,上传镜像到Harbor仓库
查看>>
javascript 浏览器类型检测
查看>>
nginx 不带www到www域名的重定向
查看>>
记录:Android中StackOverflow的问题
查看>>
导航,头部,CSS基础
查看>>
[草稿]挂载新硬盘
查看>>
[USACO 2017 Feb Gold] Tutorial
查看>>
关于mysql中GROUP_CONCAT函数的使用
查看>>
OD使用教程20 - 调试篇20
查看>>
Java虚拟机(JVM)默认字符集详解
查看>>
Java Servlet 过滤器与 springmvc 拦截器的区别?
查看>>
(tmp >> 8) & 0xff;
查看>>
linux命令之ifconfig详细解释
查看>>
NAT地址转换
查看>>
Nhibernate 过长的字符串报错 dehydration property
查看>>