python爬虫部分基础知识

模块
requests
requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第=方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。
parsel
parsel是一个python的第三方库,相当于css选择器+xpath+re。
Darsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xm内容,获取需要的数据.
相比于BeautifulSoup,xpath,parsel效率更高,使用更简单。
re
re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都诵用。
os
os 就是"operating ystem”的缩写,顾名思义,Os模块提供的就是各种 Phon 程席与操作系统进行可的接口。通过使用0s模块,一方面可以方便地与操作系统进行交互,另一方面也可以极大增强代码的可移植性。
CsV它是一种文件格式般也被叫做逗号分隔值文件,可以使用 Excel 软件或者文本文档打开 。其中数据字段用半角逗号间隔(也可以便用其它字符)使用 Excel打开时,逗号会被转换为分隔符。csv 文件是以纯文本形式存储了表格数据,并且在兼容各个操作系统。