收藏网页需要学习哪些知识？

一、采集器制作的基本知识点。

1，了解一些简单的正则表达式知识，了解一些基础知识在收集软件设置规则的时候对大家有帮助。正则表达式的一些基础知识很容易掌握，大部分都是用到了正则表达式最基本的内容。

如“.”" \ n" "\ s" "\ d" "*" "+" "？"{3,5}" "[3-6]"。要理解这些简单正则表达式的基本含义，这里就不详细解释了。你可以从网上找到信息。个人觉得正则化很好学，但是不经常用的话会忘的比较快。经常出现的情况是，在网上查规律性的时候写收集规则。

2.一些程序命令将被用来正确地捕获网页的内容。

第二，收集小说站的想法。

只看如何收藏世纪，只要知道一本书的ID号就可以入手了。通过前面的采集代码，从网页中逐层抓取数据，然后根据你设置的正则表达式标签取出所需内容，判断是文本内容还是图片内容，然后分别写入后端数据库。

如果是批量采集，会按照设定的ID号不断循环，直到全部采集完成。如果设置收藏日期从1-50000，基本上可以收藏到目标书店的所有书籍。

即使目标站有空号，比如4678这个号没有订到，抢这个号也会有错误。通过常规收集判断为空就放弃收集这个身份证号。

手中的蓝心收藏实现了三种批量挖掘模式。

防止收藏的基本思想

目前没有反收购，也没有完整完整的解决方案。

1，增加收藏规则难度，频繁更换规则。这种方法比较好用，防止收藏，效果又好又容易。

2.可以设置IIS和apache来限制图片的收集。

IIS可以通过重写一些额外的模块来实现，但是很难通过设置直接在IIS中实现方法，需要额外的模块来做这件事。

Apache可以实现图片的简单防挖矿防盗链，设置比较简单实用。