selenium使用,xpath解析模块,笔记整理在最后# 四套解析数据的方式 # 1.bs4 2.css_selector 3.xpath 4.re,

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options # 导入自定义配置模块
from selenium.webdriver.common.keys import  Keys
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By


chorme_options=Options()
# chrome_options.add_argument('window-size=1920x3000') #指定浏览器分辨率
chrome_options.add_argument('--disable-gpu') #谷歌文档提到须要加上这个属性来规避bug
# chrome_options.add_argument('--hide-scrollbars') #隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 能够提高速度
chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下若是系统若是无界面不加这条会启动失败
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])#取消浏览器驱动提示

# 若是将驱动的路径设置到环境变量中 能够不用传参数
# options 表示配置项

driver=Chrome(options=chrome_option)


driver.get('https://www.baidu.com')

tag = driver.find_element_by_class_name("index-logo-src")
# tag = driver.find_element_by_css_selector(".index-logo-src")#css选择器
#
#
#
#
#
# print(tag)
#
# #标签相关内容
# print(tag.text)
# #print(tag.parent) # 获得的是driver对象 不是父标签
# print(tag.get_attribute("src"))
# print(tag.tag_name)
#

# 隐式等待
driver.implicitly_wait(10) # 当要查找的某个元素不存在时 会过一下子在查找一次(轮询)知道找到未知 一致到超过10就报错


# key_input = driver.find_element(By.ID,"kw")


# 找到输入框
key_input = driver.find_element_by_id("kw")
key_input.send_keys("基佬")
key_input.send_keys(Keys.ENTER)




# 显示等待 明确的等待某一个元素 知足某个条件

# 传入 要等到的driver 和 等到超时时间
# 等到页面上出现了一个id为content_left 的元素位为止 最长等10秒
WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,"content_left")))#传元祖
print("============================")

# 获取搜索结果 若是直接获取元素 可能由于页面没有加载完毕 致使获取失败
div = driver.find_element_by_id("content_left")

print(div)

import time
time.sleep(1)

key_input = driver.find_element_by_id("kw")
key_input.clear() # 清空输入框
key_input.send_keys("泰国美女")
key_input.send_keys(Keys.ENTER)






动做链
指的是一系列动做的集合
例如: 滑动验证
1.点击并按住
2.移动鼠标
3.移到指定位置 松手


"""
from selenium.webdriver import Chrome
from selenium.webdriver import ActionChains

driver = Chrome(r"D:\jerry\spiderDay3\selenium模块\chromedriver.exe")
driver.get("http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")
driver.implicitly_wait(5)


# 切换fream
driver.switch_to.frame("iframeResult")


# 获取请拖拽我这个标签
tag = driver.find_element_by_id("draggable")
print(tag.location)

# 获取目标位置的标签
tag2 = driver.find_element_by_id("droppable")
print(tag2.location)


# x移动距离
# dis = tag2.location["x"] - tag.location["x"]
# 建立一个动做对象
# asc = ActionChains(driver)
# asc.click_and_hold(tag).perform() # perform()表示执行这个动做 点击并按住
# asc.move_to_element(tag2).perform() # 移动标签到tag2的位置
# asc.release().perform() # 松手
# 上述方式 不像人 很容易被判断为机器人(程序)


# 线性移动
asc = ActionChains(driver)
asc.click_and_hold(tag).perform()

# 循环逐渐移动
while tag.location["x"] < tag2.location["x"]:
ActionChains(driver).move_by_offset(1,0).perform()
asc.release().perform()





# # 若是要访问当前fream 之上(父辈)的内容 须要回到父级fream
# driver.switch_to.parent_frame()
# driver.find_element_by_id("textareaCode")



from selenium.webdriver import Chrome


driver = Chrome(r"D:\jerry\spiderDay3\selenium模块\chromedriver.exe")
driver.get("https://www.baidu.com")

# driver.execute_script("alert('你是杀马特码?')")



# 导航(前进后退)


# driver.get("https://www.baidu.com")
# driver.get("https://www.qq.com")
# driver.get("https://www.sina.com")
# driver.get("https://www.4399.com")
#
#
# driver.back()# 后退
# driver.forward() # 前进


# 切换选项卡
driver.execute_script("window.open()")
# print(driver.window_handles) # 获取全部windows对象
driver.switch_to.window(driver.window_handles[1])

driver.get("https://www.qq.com")
driver.switch_to.window(driver.window_handles[0])


"""
xpath 也是一种用于解析xml文档数据的方式
xml path
"""

doc = """
<?xml version="1.0" encoding="ISO-8859-1"?>
<html>
<body>
<bookstore id="test" class="ttt">

<book id= "1" class = "2">
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>

<book id = "2222222222222">11111111111111111111
<title lang="abc">Learning XML</title>
<price>39.95</price>
</book>

</bookstore>
<a></a>
</body>
</html>
"""
from lxml import etree
html = etree.HTML(doc)
print(html.xpath("/bookstore")) # 从根标签开始找全部匹配的
print(html.xpath("//bookstore")) # 全文中找全部匹配的


# 通配符 *
print(html.xpath("//book"))
print(html.xpath("//*"))


# 获取属性
print(html.xpath("//bookstore/@id"))
print(html.xpath("//bookstore/@*"))


# 嵌套
print(html.xpath("//bookstore/book/title/text()"))



# 加上谓语(条件) ==========================================================================================

# 指定要获取的索引
# print(html.xpath("//bookstore/book[1]/title/text()")) # 获取第一个
# print(html.xpath("//bookstore/book[last()-1]/title/text()")) # last() 最后一个 last()-1 倒数第二个
# print(html.xpath("//bookstore/book[position()>1]/title/text()")) # 索引大于1的


# print(html.xpath("//book[price > 30]"))
# # xpath 原生 既能查找属性 又能查找标签 而在selenium只能查找标签
#
#
# # 查找price的值大于30的book标签
# e = html.xpath("//book[price > 30]")[0]
# print(type(e))
# from lxml.etree import _Element
# print(e.text) # 访问文本 不包含子标签的文本
# print(e.attrib) # 访问属性


# 用属性来做限制
# 只要存在lang属性便可
print(html.xpath("//*[@lang]"))

# 找的是具有lang而且值为abc的标签
print(html.xpath("//*[@lang='abc']")[0].attrib)

# 只要 有属性便可
print(html.xpath("//*[@*]"))

# 多个匹配条件
print(html.xpath("//title|//price"))




# 轴匹配 (先拿到一个标签 在相对这个标签找其余标签) ===========================================

print(html.xpath("//bookstore/ancestor::*")) # 全部先辈
print(html.xpath("//bookstore/ancestor::body")) # 全部叫body的先辈
print(html.xpath("//bookstore/ancestor-or-self::*")) # 全部叫body的先辈


# 获取属性
print(html.xpath("//bookstore/attribute::id"))
print(html.xpath("//bookstore/@id"))

# 全部子级标签
print(html.xpath("//bookstore/child::*"))

# 全部后代标签
print(html.xpath("//bookstore/descendant::*"))

# 在这个标签后面的全部标签 与层级无关
print(html.xpath("//book[1]/following::*"))
# 它弟弟们
print(html.xpath("//book[1]/following-sibling::*"))
# 它哥哥们
print(html.xpath("//book[1]/preceding-sibling::*"))


# 获取父级
# print(html.xpath("//book[1]/parent::*"))


# 获取既有id属性 又有class属性的标签
print(html.xpath("//*[@id and @class]"))


笔记整理
## selenium介绍:selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests没法直接执行JavaScript代码的问题selenium本质是经过驱动浏览器,彻底模拟浏览器的操做,好比跳转、输入、点击、下拉等,来拿到网页渲染以后的结果,可支持多种常见的浏览器```pythonfrom selenium import webdriverbrowser=webdriver.Chrome()browser=webdriver.Firefox()browser=webdriver.PhantomJS()browser=webdriver.Safari()browser=webdriver.Edge()```官网:http://selenium-python.readthedocs.io## 环境搭建#### 1.在python中使用selenium须要先安装对应的模块```pythonpip install selenium```#### 2.selenium的原理是操做驱动浏览器来完成对目标页面的请求与渲染,因此须要下载对应的浏览器驱动程序,推荐使用chrome镜像地址:https://npm.taobao.org/mirrors/chromedriver/须要注意的是,驱动程序版本须要与浏览器版本对应,你能够打开chrome的关于浏览器查看到具体版本。#### 驱动与浏览器的版本对应关系ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71ChromeDriver v2.42 (2018-09-13)----------Supports Chrome v68-70ChromeDriver v2.41 (2018-07-27)----------Supports Chrome v67-69ChromeDriver v2.40 (2018-06-07)----------Supports Chrome v66-68ChromeDriver v2.39 (2018-05-30)----------Supports Chrome v66-68ChromeDriver v2.38 (2018-04-17)----------Supports Chrome v65-67ChromeDriver v2.37 (2018-03-16)----------Supports Chrome v64-66ChromeDriver v2.36 (2018-03-02)----------Supports Chrome v63-65ChromeDriver v2.35 (2018-01-10)----------Supports Chrome v62-64### 在无GUI系统下的使用方法若是你的操做系统没有GUI(图形界面),则须要使用无界面的浏览器来搭配selenium使用,有两种方案可选#### 1.使用phantomJS```python#安装:selenium+phantomjs#pip3 install selenium#下载phantomjs,解压后把phantomjs.exe放在项目目录中或是添加到系统环境变量中#下载连接:http://phantomjs.org/download.htmlfrom selenium import webdriverdriver=webdriver.PhantomJS() #无界面浏览器driver.get('https://www.baidu.com')driver.page_sourcedriver.close() #关闭浏览器,回收资源```目前phantomJS已经中止了更新维护,幸亏Chrome 出来救场了, 是的selenium再次成为了反爬虫 Team 的噩梦自Google 发布 chrome 59 / 60 正式版 开始便支持`Headless mode` 这意味着在无 GUI 环境下, PhantomJS 再也不是惟一选择#### 2.使用chrome并设置为无GUI模式```pythonfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('window-size=1920x3000') #指定浏览器分辨率chrome_options.add_argument('--disable-gpu') #谷歌文档提到须要加上这个属性来规避bugchrome_options.add_argument('--hide-scrollbars') #隐藏滚动条, 应对一些特殊页面chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 能够提高速度chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下若是系统若是无界面不加这条会启动失败chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])#取消浏览器驱动提示driver=webdriver.Chrome("驱动绝对路径 若是环境变量中有则能够不写",chrome_options=chrome_options)driver.get('https://www.baidu.com')print('hao123' in driver.page_source)driver.close() #切记关闭浏览器,回收资源#selenium+谷歌浏览器headless模式```### 基本使用```pythonfrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTORfrom selenium.webdriver.common.keys import Keys #键盘按键操做from selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素browser=webdriver.Chrome()try:    browser.get('https://www.baidu.com')    input_tag=browser.find_element_by_id('kw')    input_tag.send_keys('美女') #python2中输入中文错误,字符串前加个u    input_tag.send_keys(Keys.ENTER) #输入回车    wait=WebDriverWait(browser,10)    wait.until(EC.presence_of_element_located((By.ID,'content_left'))) #等到id为content_left的元素加载完毕,最多等10秒        print(browser.page_source)    print(browser.current_url)    print(browser.get_cookies())finally:    browser.close()```### 查找元素```python#官网连接:http://selenium-python.readthedocs.io/locating-elements.htmlfrom selenium import webdriverfrom selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTORfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素import timedriver=webdriver.Chrome()driver.get('https://www.baidu.com')wait=WebDriverWait(driver,10)try:    #===============全部方法===================    # 一、find_element_by_id    # 二、find_element_by_link_text    # 三、find_element_by_partial_link_text    # 四、find_element_by_tag_name    # 五、find_element_by_class_name    # 六、find_element_by_name    # 七、find_element_by_css_selector    # 八、find_element_by_xpath    # 强调:    # 一、上述都可以改写成find_element(By.ID,'kw')的形式    # 二、find_elements_by_xxx的形式是查找到多个元素,结果为列表    #===============示范用法===================    # 一、find_element_by_id    print(driver.find_element_by_id('kw'))    # 二、find_element_by_link_text    # login=driver.find_element_by_link_text('登陆')    # login.click()    # 三、find_element_by_partial_link_text    login=driver.find_elements_by_partial_link_text('录')[0]    login.click()    # 四、find_element_by_tag_name    print(driver.find_element_by_tag_name('a'))    # 五、find_element_by_class_name    button=wait.until(EC.element_to_be_clickable((By.CLASS_NAME,'tang-pass-footerBarULogin')))    button.click()    # 六、find_element_by_name    input_user=wait.until(EC.presence_of_element_located((By.NAME,'userName')))    input_pwd=wait.until(EC.presence_of_element_located((By.NAME,'password')))    commit=wait.until(EC.element_to_be_clickable((By.ID,'TANGRAM__PSP_10__submit')))    input_user.send_keys('18611453110')    input_pwd.send_keys('xxxxxx')    commit.click()    # 七、find_element_by_css_selector    driver.find_element_by_css_selector('#kw')    # 八、find_element_by_xpath    time.sleep(5)finally:    driver.close()```### 获取标签属性```pythonfrom selenium import webdriverfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素browser=webdriver.Chrome()browser.get('https://www.amazon.cn/')wait=WebDriverWait(browser,10)wait.until(EC.presence_of_element_located((By.ID,'cc-lm-tcgShowImgContainer')))tag=browser.find_element(By.CSS_SELECTOR,'#cc-lm-tcgShowImgContainer img')#获取标签属性,print(tag.get_attribute('src'))#获取标签ID,位置,名称,大小(了解)print(tag.id)print(tag.location)print(tag.tag_name)print(tag.size)browser.close()```### 等待元素加载```python#一、selenium只是模拟浏览器的行为,而浏览器解析页面是须要时间的(执行css,js),一些元素可能须要过一段时间才能加载出来,为了保证能查找到元素,必须等待#二、等待的方式分两种:隐式等待:在browser.get('xxx')前就设置,针对全部元素有效显式等待:在browser.get('xxx')以后设置,只针对某个元素有效```#### 隐式等待每次都会等待网页所有加载完成再进行下一步```pythonfrom selenium import webdriverbrowser=webdriver.Chrome()#隐式等待:在查找全部元素时,若是还没有被加载,则等10秒browser.implicitly_wait(10)browser.get('https://www.baidu.com')input_tag=browser.find_element_by_id('kw')input_tag.send_keys('美女')input_tag.send_keys(Keys.ENTER)contents=browser.find_element_by_id('content_left') #没有等待环节而直接查找,找不到则会报错print(contents)browser.close()```#### 显式等待明确的指定要等待哪个元素出现```pythonfrom selenium import webdriverfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素browser=webdriver.Chrome()browser.get('https://www.baidu.com')input_tag=browser.find_element_by_id('kw')input_tag.send_keys('美女')input_tag.send_keys(Keys.ENTER)#显式等待:显式地等待某个元素被加载wait=WebDriverWait(browser,10)wait.until(EC.presence_of_element_located((By.ID,'content_left')))contents=browser.find_element(By.CSS_SELECTOR,'#content_left')print(contents)browser.close()```### 交互操做#### 清空输入框```pythonfrom selenium import webdriverfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素browser=webdriver.Chrome()browser.get('https://www.amazon.cn/')wait=WebDriverWait(browser,10)input_tag=wait.until(EC.presence_of_element_located((By.ID,'twotabsearchtextbox')))input_tag.send_keys('iphone 8')button=browser.find_element_by_css_selector('#nav-search > form > div.nav-right > div > input')button.click()import timetime.sleep(3)input_tag=browser.find_element_by_id('twotabsearchtextbox')input_tag.clear() #清空输入框input_tag.send_keys('iphone7plus') # 输入文字button=browser.find_element_by_css_selector('#nav-search > form > div.nav-right > div > input')button.click() # 点击按钮```#### 切换fream```python#frame至关于一个单独的网页,在父frame里是没法直接查看到子frame的元素的,必须switch_to_frame切到该frame下,才能进一步查找from selenium import webdrivertry:    browser=webdriver.Chrome()    browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')    browser.switch_to.frame('iframeResult') #切换到id为iframeResult的frame    tag1=browser.find_element_by_id('droppable')    print(tag1)    # tag2=browser.find_element_by_id('textareaCode') #报错,在子frame里没法查看到父frame的元素    browser.switch_to.parent_frame() #切回父frame,就能够查找到了    tag2=browser.find_element_by_id('textareaCode')    print(tag2)finally:    browser.close()```#### 动做链```pythonfrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素driver = webdriver.Chrome()driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')wait=WebDriverWait(driver,3)try:    driver.switch_to.frame('iframeResult') ##切换到iframeResult    sourse=driver.find_element_by_id('draggable')    target=driver.find_element_by_id('droppable')    #方式一:基于同一个动做链串行执行    # actions=ActionChains(driver) #拿到动做链对象    # actions.drag_and_drop(sourse,target) #把动做放到动做链中 一次性移动到目标位置    # actions.perform() # 执行    #方式二:线性移动    ActionChains(driver).click_and_hold(sourse).perform()    distance=target.location['x']-sourse.location['x']    track=0    while track < distance:        ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform()        track+=2    ActionChains(driver).release().perform()finally:    driver.close()```#### 执行JS在交互动做比较难实现的时候能够本身写JS```pythonfrom selenium import webdrivertry:    browser=webdriver.Chrome()    browser.get('https://www.baidu.com')    browser.execute_script('alert("hello world")') #打印警告finally:    browser.close()```#### 前进后退```python#模拟浏览器的前进后退import timefrom selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com')browser.get('https://www.taobao.com')browser.get('http://www.sina.com.cn/')browser.back()time.sleep(4)browser.forward()browser.close()```#### 选项卡切换```python#选项卡管理:切换选项卡,有js的方式windows.open,有windows快捷键:ctrl+t等,最通用的就是js的方式import timefrom selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com')browser.execute_script('window.open()')print(browser.window_handles) #获取全部的选项卡browser.switch_to_window(browser.window_handles[1])browser.get('https://www.taobao.com')time.sleep(10)browser.switch_to_window(browser.window_handles[0])browser.get('https://www.sina.com.cn')browser.close()```#### xpathxpath XML_Path是一种通用的查找元素方式,也在scrapy模块中使用```pythondoc='''<html> <head>  <base href='http://example.com/' />  <title>Example website</title> </head> <body>  <div id='images'>   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>   <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>   <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a>  </div> </body></html>'''from lxml import etreehtml=etree.HTML(doc)# html=etree.parse('search.html',etree.HTMLParser())#/一个斜杠表示子级标签#//一个斜杠表示子孙标签# 1 全部节点# a=html.xpath('//*')# 2 指定节点(结果为列表)# a=html.xpath('//head')# 3 子节点,子孙节点# a=html.xpath('//div/a')# a=html.xpath('//body/a') #无数据# a=html.xpath('//body//a')# 4 父节点# a=html.xpath('//body//a[@href="image1.html"]/..')# a=html.xpath('//body//a[1]/..')# 也能够这样# a=html.xpath('//body//a[1]/parent::*')# 5 属性匹配# a=html.xpath('//body//a[@href="image1.html"]')# 6 文本获取# a=html.xpath('//body//a[@href="image1.html"]/text()')# 7 属性获取# a=html.xpath('//body//a/@href')# # 注意从1 开始取(不是从0)# a=html.xpath('//body//a[1]/@href')# 8 属性多值匹配#  a 标签有多个class类,直接匹配就不能够了,须要用contains# a=html.xpath('//body//a[@class="li"]')# a=html.xpath('//body//a[contains(@class,"li")]')# a=html.xpath('//body//a[contains(@class,"li")]/text()')# 9 多属性匹配# a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')# a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')# # a=html.xpath('//body//a[contains(@class,"li")]/text()')# 10 按序选择# a=html.xpath('//a[2]/text()')# a=html.xpath('//a[2]/@href')# 取最后一个# a=html.xpath('//a[last()]/@href')# 位置小于3的# a=html.xpath('//a[position()<3]/@href')# 倒数第二个# a=html.xpath('//a[last()-2]/@href')# 11 节点轴选择# ancestor:祖先节点# 使用了* 获取全部祖先节点# a=html.xpath('//a/ancestor::*')# # 获取祖先节点中的div# a=html.xpath('//a/ancestor::div')# attribute:属性值# a=html.xpath('//a[1]/attribute::*')# child:直接子节点# a=html.xpath('//a[1]/child::*')# descendant:全部子孙节点# a=html.xpath('//a[6]/descendant::*')# following:当前节点以后全部节点# a=html.xpath('//a[1]/following::*')# a=html.xpath('//a[1]/following::*[1]/@href')# following-sibling:当前节点以后同级节点# a=html.xpath('//a[1]/following-sibling::*')# a=html.xpath('//a[1]/following-sibling::a')# a=html.xpath('//a[1]/following-sibling::*[2]')# a=html.xpath('//a[1]/following-sibling::*[2]/@href')```