python爬虫入门——Day03(线程与进程)
多线程与多进程 一, 什么是进程, 什么是线程? 进程: 运行中的程序. 每次我们执行一个程序, 咱们的操作系统对自动的为这个程序准备一些必要的资源(例如, 分配内存, 创建一个能够执行的线程. ) 线程: 程序内, 可以直接被CPU调度的执行过程. 是操作系统能够进行运算调度的最小单位. 它被包含
python爬虫入门——Day02(正则表达式)
正则表达式 Regular Expression, 正则表达式, ⼀种使⽤表达式的⽅式对字符串进⾏匹配的语法规则 我们抓取到的⽹⻚源代码本质上就是⼀个超⻓的字符串, 想从⾥⾯提取内容.⽤正则再合适不过了. 正则的优点: 速度快, 效率⾼, 准确性⾼ 正则的缺点: 新⼿上⼿难度有点⼉⾼. 不过只要掌握
python爬虫入门——Day01(http协议与requests)
HTTP协议 HTTP协议: 就是两个计算机之间为了能够流畅的进⾏沟通⽽设置的⼀个君⼦协定. 常⻅的协议有TCP/IP. SOAP协议, HTTP协议, SMTP协议等等..... HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WW