尝试firecrawl,太麻烦了

想要找个可以做爬虫的工具,发现了firecrawl这个开源项目。
可以自动的刮擦和爬取网站。
可以将网站的所有符合约定的网址都拉下来。
如果和大语言模型结合,可以直接将网页信息中的特定信息直接提取出来。
支持网站遍历、网页爬取、根据网页内容回答问题。
如果使用 https://firecrawl.dev 网站,免费可以爬500个网页,付费之后,可以持续爬取。对于爬虫来说,500个页面,基本相当于没有,于是,只能尝试本地部署。
通过docker进行本地部署,唯一需要设置的是redis链接。部署的过程中,必须要挂梯子,否则会有些源,无法到达。
supabase,可以使用,不过具体用法,没有太高清楚,设置之后,好像还要自己建立Users表格。
firecrawl本地docker有一个非常麻烦的地方,太消耗CPU和内存了,给到6核,16G内存还是不够。
firecrawl应该是大量使用了正则表达式,对爬取的内容,进行处理。这种操作,太消耗资源了。
没有找到限制firecrawl并发数和资源占用数的方法。基本无法使用
另外,firecrawl的爬取任务管理,做得也很烂,启动之后,很难删干净。
如果发生内存和CPU不足的情况,还会不断地尝试,只是好像没有重试成功的。
准备暂时放弃firecrawl了,再找其他替代品。

2 个赞