[网络安全自学篇] 十七.Python攻防之构建Web目录扫描器及ip代理池（四）

时间 2020-01-25 标签网络安全自学篇十七 17 python 攻防构建 web 目录扫描器 ip 代理池四

这是做者的系列网络安全自学教程，主要是关于网安工具和实践操做的在线笔记，特分享出来与博友共勉，但愿您们喜欢，一块儿进步。前文分享了Python弱口令攻击、自定义字典生成，调用Python的exrex库实现，并结合Selenium和BurpSuite实现网站暴库案例；本文将分析Python攻防之构建Web目录扫描器，实现IP代理池。本文参考了爱春秋ADO老师的课程内容，这里也推荐你们观看他Bilibili和ichunqiu的课程，同时也结合了做者以前的编程经验进行讲解。php

做者做为网络安全的小白，分享一些自学基础教程给你们，但愿大家喜欢。同时，更但愿你能与我一块儿操做深刻进步，后续也将深刻学习网络安全和系统安全知识并分享相关实验。总之，但愿该系列文章对博友有所帮助，写文不容易，大神请飘过，不喜勿喷，谢谢！html

下载地址：https://github.com/eastmountyxz/NetworkSecuritySelf-study
百度网盘：https://pan.baidu.com/s/1dsunH8EmOB_tlHYXXguOeA 提取码：izebpython

文章目录

前文欣赏：
[渗透&攻防] 一.从数据库原理学习网络攻防及防止SQL注入
 [渗透&攻防] 二.SQL MAP工具从零解读数据库及基础用法
 [渗透&攻防] 三.数据库之差别备份及Caidao利器
 [渗透&攻防] 四.详解MySQL数据库攻防及Fiddler神器分析数据包github

参考文献：
《安全之路Web渗透技术及实战案例解析》陈小兵老师
《Wireshark数据包分析实战》第二版 Chris Sanders
《TCP/IP协议栈详解卷一》 W.Richard Stevensweb

《Wireshark协议分析从入门到精通》-51cto老师
 https://www.bilibili.com/video/av29479068
2019 Python黑客编程：安全工具开发 - bilibili 白帽黑客教程
 Dirmap：一款高级Web目录文件扫描工具 - Freebuf 大神H4ckForJob
网站目录扫描工具 - CSDN谢公子大佬
 Python黑客工具简述 - freebuf
Python打造一个目录扫描工具 - 博客园sch01ar大神正则表达式

声明：本人坚定反对利用教学方法进行犯罪的行为，一切犯罪行为必将受到严惩，绿色网络须要咱们共同维护，更推荐你们了解它们背后的原理，更好地进行防御。算法

一.Web目录扫描思路

1.网站目录和敏感文件扫描
网站目录和敏感文件扫描是网站测试中最基本的手段之一。若是经过该方法发现了网站后台，能够尝试暴库、SQL注入等方式进行安全测试；若是发现敏感目录或敏感文件，能帮咱们获取如php环境变量、robots.txt、网站指纹等信息；若是扫描出了一些上传的文件，咱们甚至可能经过上传功能（一句话恶意代码）获取网站的权限。数据库

2.原理
在Web目录扫描中，字典是很是重要的，一个好的字典能帮助咱们的程序更好地发现漏洞和目标。那么，如何经过Python代码实现Web目录扫描呢？或者Web目录扫描器的原理是什么呢？编程

其原理是经过请求返回的信息来判断当前目录或文件是否真实存在。网站后台扫描工具都是利用目录字典进行爆破扫描，字典越多，扫描到的结果也越多。常见的Web目录扫描工具包括：御剑1.五、DirBuster、Dirsearch、Webdirscan、Cansina、Dirmap等。涉及的经常使用功能包括：能使用字典、支持纯爆破、并发引擎、能爬取页面动态生成字典、能fuzz扫描、能自定义请求（代理）、自定义响应结果及响应状态等。

3.工具介绍

DirBuster
Kali Linux提供的目录扫描工具DirBuster支持所有的Web目录扫描方式。它既支持网页爬虫方式扫描，也支持基于字典暴力扫描，还支持纯暴力扫描。该工具使用Java语言编写，提供命令行（Headless）和图形界面（GUI）两种模式。其中，图形界面模式功能更为强大。用户不只能够指定纯暴力扫描的字符规则，还能够设置以URL模糊方式构建网页路径。同时，用户还对网页解析方式进行各类定制，提升网址解析效率。

御剑
御剑系列的web工具一直是比较顺手的工具。这款御剑也是很好用的网站后台扫描工具，图形化页面，使用起来简单上手，所以也被大多数人所喜爱。其做者多是“御剑孤独”。

Webdirscan
webdirscan是一个很简单的多线程Web目录扫描工具，它是使用Python语言编写的，主要调用了requests第三方库实现。你们能够看看它Github上面的代码，和本篇博客原理较为类似。
源代码：https://github.com/TuuuNya/webdirscan/

咱们将代码下载至本地，再进行扫描目标网站。

将CMD命令行打开，进入webdirscan路径下，指定扫描任务。

python webdirscan.py 目标网站

Dirmap
它是一个高级web目录扫描工具，功能将会强于DirBuster、Dirsearch、cansina、御剑。详见：https://github.com/H4ckForJob/dirmap

注意：工具的使用方法这里就不进行详细介绍了，但愿读者下来自行学习，本文主要分享Python代码是如何实现Web目录扫描的。

二.Python构建Web目录扫描器

该程序主要实现如下3个功能：

判断Web目录或文件是否存在。经过requests发送请求实现，获取status_code状态码，状态码200表示成功。
经过读取文件后去 asp、aspx、jsp、php 常见目录，对其进行扫描。
因为不少安全产品能识别出你的恶意攻击请求，这里须要设置多线程调用，从而避免安全软件识别。

下面是Python实现Web目录扫描的代码，其中本地存在一个 asp.txt 文件（源自御剑），涉及了常见的网站目录。以下图所示：

完整代码：

# -*- coding: utf-8 -*-
import requests
from Queue import Queue
import sys
import threading

#多线程实现Web目录扫描
class DirScan(threading.Thread):

    def __init__(self, queue):
        threading.Thread.__init__(self)
        self._queue = queue

    def run(self):
        #获取队列中的URL
        while not self._queue.empty():
            url = self._queue.get()
            #print url

            try:
                headers = {
                    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36"
                }
                #发送请求
                r = requests.get(url=url, headers=headers, timeout=8)
                
                #Web目录存在
                if r.status_code == 200:
                    #print '[*] ' + url
                    sys.stdout.write('[*] %s\n' % url)
            except Exception, e:
                #print e
                pass

#定义队列及放入URL
def start(url, ext, count):
    queue = Queue()

    f = open('%s.txt' % ext, 'r')
    for i in f:
        queue.put(url + i.rstrip('\n'))

    #多线程
    threads = []
    thread_count = int(count)

    for i in range(thread_count):
        threads.append(DirScan(queue))
        
    for t in threads:
        t.start()

    for t in threads:
        t.join()

#主函数
if __name__ == '__main__':
    url = 'http://www.xxxxx.com'
    ext = 'asp'
    count = 10
    start(url, ext, count)

做者经过浏览器搜索 “inurl:asp”，寻找某网站为例，接着调用程序获取它的目录。

其扫描结果以下图所示，经过访问这些连接发现它们是真实存在的。

写到这里，一个简单的Web目录扫描器就实现了，但愿对你们有所帮助。后续若是将咱们的程序扩展到BurpSuite工具，就能更好地进行抓包分析及安全测试，你能够去试试~

三.ip代理池

某些网站会对咱们发送的请求进行有效拦截，这里能够尝试设置一个ip代理池，不管是网络爬虫仍是请求发送，都能很好地解决这些问题。下面简单讲解一个获取IP代理的代码，但遗憾的是，做者想把它移植到上面那段代码中，但验证的IP地址多数没法访问，致使失败。

国内IP代理网站为：https://www.xicidaili.com/nn

其基本思路以下，经过Python爬虫获取IP地址、端口和协议类型，其代码的基本思路以下：

下面是对应的HTML源代码，须要抓取的是tr值，每行表明一个IP地址。

完整代码：

# -*- coding:utf-8 -*-
import requests
import re
from bs4 import BeautifulSoup as bs
import telnetlib

#爬取数据
def proxy_spider():
    #设置请求
    headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'}
    url = 'https://www.xicidaili.com/nn'
    r = requests.get(url=url, headers=headers)
    print r

    #解析 经过re.compile('|[^odd]')解析奇数和偶数行
    soup = bs(r.content, 'lxml')
    datas = soup.find_all(name='tr', attrs={'class': re.compile('|[^odd]')})
    
    for data in datas:
        soup_proxy_content = bs(str(data), 'lxml')
        soup_proxys = soup_proxy_content.find_all(name='td')
        ip = str(soup_proxys[1].string)
        port = str(soup_proxys[2].string)
        types = str(soup_proxys[5].string)
        #print ip, port, types
        
        #判断IP地址是否存活
        proxy = {}
        proxy[types.lower()] = '%s:%s' % (ip, port)
        #proxy_check(ip, port, types)
        proxy_telnet(ip, port, types)

#获取能成功使用的代理ip内容 调用requests代理访问方法
def proxy_check(ip, port, types):
    proxy = {}
    proxy[types.lower()] = '%s:%s' % (ip, port)
    #proxy = {'http':'119.254.84.90:80'}
    try:
        r = requests.get('http://1212.ip138.com/ic.asp', proxies=proxy, timeout=6)
        #print r.text
        ip_content = re.findall(r"\[(.*?)\]", r.text)[0]
        if ip == ip_content:
            print proxy
    except Exception, e:
        print e
        pass

#检测IP地址是否存活
def proxy_telnet(ip, port, types):
    proxy = {}
    proxy[types.lower()] = '%s:%s' % (ip, port)
    
    try:
        telnetlib.Telnet(ip, port, timeout=2)
        print 'True:', proxy
    except:
        print 'False:', proxy
    
proxy_spider()

输出结果以下图所示，IP地址和端口成功抓取，可是不少没法使用，读者能够自行试试。

获取IP地址以后，经过以下设置可使用代理IP地址进行访问。
proxy = {‘http’:‘119.254.84.90:80’}
r = requests.get(‘http://www.xxxx.com’, proxies=proxy, timeout=6)

四.总结

但愿这篇文章对你有所帮助，这是Python网络攻防很是基础的一篇博客，后续做者也将继续深刻学习，制做一些经常使用的小工具供你们交流。做者B站的视频推荐几乎都是网络安全和Python编程，这个算法写得不错，最近挤空闲的时间看了100多部视频。Python攻防之弱口令、字典暴库还在撰写中，论文汇报的PPT也快100页了，接下来须要学会精简和总结。种一棵树最好的时间是十年前，其次是如今，忙点好，一块儿加油。

(By:Eastmount 2019-10-10 晚上11点 http://blog.csdn.net/eastmount/ )