域名采集采集工具
-
(免费)GitHub - simapple/spider: python爬虫 全球网址URL滚动提取 (感觉效果不佳)
版本1 功能简述: 以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息 -
(收费)网络爬虫域名采集器-有效网站域名批量采集工具_软件_九戒软件 (感觉效果不佳)
软件工作原理是从一个初始网址中,查找外部网站,比如初始页面中有30个外部网站,那就继续爬取这30个外本网站,
可以正常访问的就收录进数据库,并且在这30个网站中再次查找外部网站如果每个站有30个外部网站,那就是30*30=900个
然后再访问这900个网站剔除无法访问的,找到正常访问的剔除重复加入数据库,然后再查找他们页面中的外部网站,如需往复
思路知道就是不会写,一个网友需要,正好我也想要,我相信大部分想要,大概说一下把,
譬如:输入网址 https://forum.90sec.com/
- 然后爬网全站内容(慢)或者只爬行主页(应该会快很多)(最好是识别302跳转),
- 使用排查类型或者限定类型(如:html,htm,aspx,asp,php,jsp,主要还有js)。提取里面 https:// 和 http://开头 和 www.开头的(能有更好的规则提取网址就更好),最好入库之前一个网站入库不要超过50个(判断是否已经爬行过和加一个域名黑名单列表如常见的js里面出现的域名和github.com,*.qq.com, *.baidu.com 等国内统计等网址)
- 循环提取到的网址,循环爬行。可以设置抓取多少条或者循环多少级,能分级对应循环网站保存就最好,比较好针对性筛选,如forum.90sec.com 抓取到 ,www.baidu.com 和 www.qq.com 。 www.baidu.com 有抓取到 tieba.baidu.com 而 www.qq.com 抓取到 www.taobao.com
一级目录 里面文件名:forum.90sec.com.txt 内容是 www.baidu.com 和 www.qq.com
一级目录里面有两个文件夹 www.baidu.com 和 www.qq.com
二级目录 里面www.baidu.com目录里 文件名www.baidu.com.txt 内容是 tieba.baidu.com和其他 同时创建内容文件名目录 。
二级目录 里面 www.qq.com 目录里文件名 www.qq.com.txt 内容是www.taobao.com和其他 同时创建内容文件名目录。
如果有类似的成品希望推荐下。