博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
51job_selenium测试
阅读量:5293 次
发布时间:2019-06-14

本文共 2511 字,大约阅读时间需要 8 分钟。

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""import requests,bs4,openpyxl,time,seleniumfrom openpyxl.cell import get_column_letter,column_index_from_stringfrom selenium import webdriverexcelName="51job.xlsx"sheetName="Sheet1"wb1=openpyxl.load_workbook(excelName)sheet=wb1.get_sheet_by_name(sheetName)start=1charset="gb2312"site="http://jobs.51job.com/all/co198308.html"browser=webdriver.Firefox()browser.get(site)linkElem=browser.find_element_by_link_text("下一页")linkElem.click()#elem = browser.find_element_by_class_name('el')#返回标签的值#elem.text#elems = browser.find_elements_by_class_name('el')elem=browser.find_element_by_id('joblistdata')elem.text''''洛阳医药代表(学术专员)\n大专\n洛阳\n4500-5999/月\n03-07\n新乡医药代表(学术专员)\n大专\n新乡\n4500-5999/月\n03-07\n郑州医药代表(学术专员)\n大专\n郑州-二七区\n4500-5999/月\n03-07\n河南医药代表(学术专员)\n大专\n郑州-二七区\n4500-5999/月\n03-07\n苏州医药代表(学术专员)\n连云港\n4500-5999/月\n03-07\n宁波医药代表(学术专员)\n大专\n宁波\n6000-7999/月\n03-07\n杭州医药代表(学术专员)\n大专\n杭州\n6000-7999/月\n03-07\n上海医药代表(学术专员)\n大专\n上海\n4500-5999/月\n03-07\n盐城医药代表(学术专员)\n大专\n连云港\n6000-7999/月\n03-07\n淮安医药代表(学术专员)\n大专\n连云港\n6000-7999/月\n03-07\n徐州医药代表(学术专员)\n大专\n连云港\n4500-5999/月\n03-07\n连云港医药代表(学术专员)\n大专\n连云港\n4500-5999/月\n03-07\n会计\n本科\n连云港\n3000-4499/月\n03-07\n工艺研究员\n本科 | 招聘5人\n连云港\n4500-5999/月\n03-07\n药物合成\n本科 | 招聘10人\n连云港\n3000-4499/月\n03-07\n财会专员\n本科 | 招聘2人\n连云港\n2000-2999/月\n03-07\n会计主管\n3-4年 | 本科 | 招聘1人\n南京-玄武区\n8-10万/年\n03-07\n福建产品专员\n硕士\n连云港\n6000-7999/月\n03-07\n上海产品专员\n硕士\n上海\n6000-7999/月\n03-07\n浙江商业代表\n大专\n杭州\n6000-7999/月\n03-07\n上一页\n1\n2\n3\n4\n5\n6\n7\n下一页''''#每个网站爬取相应数据def Craw(site):         res=requests.get(site)    res.encoding = charset    soup1=bs4.BeautifulSoup(res.text,"lxml")    div=soup1.select('.el')    len_div=len(div)    for i in range(len_div):        #print ("i:",i)        content=div[i].getText()        content_list=content.split('\n')                 name=content_list[1]        #print ("name:",name)        education=content_list[2]        #print ("education:",education)        position=content_list[3]        #print ("position:",position)        salary=content_list[4]        #print ("salary:",salary)        date=content_list[5]        #print ("date:",date)            sheet['A'+str(i+2)].value=name        sheet['B'+str(i+2)].value=education        sheet['C'+str(i+2)].value=position        sheet['D'+str(i+2)].value=salary        sheet['E'+str(i+2)].value=date''' Craw(site)       wb1.save(excelName)    '''

  

 

 

转载于:https://www.cnblogs.com/webRobot/p/5302433.html

你可能感兴趣的文章
P4824 [USACO15FEB]Censoring (Silver) 审查(银)
查看>>
实验二
查看>>
记录一些IDEA常用的快捷键和技巧 二(界面布局)
查看>>
log4j的简单应用(转载)
查看>>
iOS UILabel自定义行间距
查看>>
git命令详解(一)
查看>>
【模板】埃筛
查看>>
Nodejs初识随笔
查看>>
1019 数字黑洞 (20 分)
查看>>
参照nopCommerce框架开发(NextCMS)
查看>>
动态规划--矩阵链乘法
查看>>
linux查看磁盘空间
查看>>
FrameLayout帧布局
查看>>
Android解决APP启动白屏或者黑屏闪现的问题
查看>>
CodeForces - 344B Simple Molecules (模拟题)
查看>>
Spring Web Flow 入门demo(二)与业务结合 附源代码
查看>>
Windows Phone支持数据库汇总
查看>>
C#实现Combobox自动匹配字符
查看>>
适配器模式扩展
查看>>
javase基础复习攻略《八》
查看>>