如果抓取一个小说网站,如何抓取并存储更新的内容?
有一个标签库,记录了目标小说网站的最新文章id,通常包含在url的最后一位或者页面的html中。
定期阅读此最新文章页面。如果当前页面是最新的文章,还没有更新,那么网页上下一章的链接就是#(也就是页面本身),有的跳转到这篇小说的章节目录。根据情况,小说更新的话,下一章的按钮链接会改。根据下一章的id读取,更新数据库的标签。
定期阅读此最新文章页面。如果当前页面是最新的文章,还没有更新,那么网页上下一章的链接就是#(也就是页面本身),有的跳转到这篇小说的章节目录。根据情况,小说更新的话,下一章的按钮链接会改。根据下一章的id读取,更新数据库的标签。