Python多线程爬虫抓取顶级小说内容(BeautifulSoup+urllib)
我之前写过python爬启点的小说,但是多线程就是先把爬出来的章节链接保存在一个列表里,然后写一个函数get_text。每次调用这个函数都会传递一个章节链接,所以需要调用这个函数n次才能得到n个章节的内容,所以可以使用for循环来创建n个线程。线程的目标是get_text,参数是章节的url。
点一下就好,辣眼睛哈哈哈
个人感觉用了多线程之后速度并没有很大的提升,大概20 txt文件/分钟左右。有没有办法继续提高单机上的抓取速度?
接下来就是做一些可以被ip屏蔽的爬虫行为,然后学习分布式爬虫。加油~