pythonhtml
模块安装 python -m pip install chardet
python
基本语法app
字符串链接(若是是整型就会作加法) + 函数
函数编码
字符串处理url
'abc'.upper() # 就字母转成大写 isinstance(x,str) #判断是否为字符串 type(str) #获取变量类型
HTML实体转换spa
抓网页数据常常遇到例如>或者 这种HTML转义符,抓到字符串里非常烦人。 比方说一个从网页中抓到的字符串 html = '<abc>' 用Python能够这样处理: import HTMLParser html_parser = HTMLParser.HTMLParser() txt = html_parser.unescape(html) #这样就获得了txt = '<abc>' 若是还想转回去,能够这样: import cgi html = cgi.escape(txt) # 这样又回到了 html = '<abc>'
把字符转成url编码code
urllib.quote("这是中文")
字符编码处理htm
import sys #引用sys模块进来,并非进行sys的第一次加载 reload(sys) #从新加载sys sys.setdefaultencoding('utf8') #调用setdefaultencoding函数 print sys.getdefaultencoding() #获取系统默认编码
经过模块方式来获取字符编码 ip
import chardet chardet.detect(str)
编码的判断
isinstance(s, unicode) #用来判断是否为unicode
经过函数转换编码
chardet.detect(article[0]).get('encoding','utf-8')
数学函数-模块
range(1,100) #生成之间数 注意: range(1, 100, 2) 能够生成list [1, 3, 5, 7, 9,...]
math模块
math.sqrt #开方
列表函数-list
L.append(x * x) #向列表里增长元素
词典函数-dict