域名采集工具

82303224 · 2022 年3 月 4 日 18:28

域名采集采集工具

（免费）GitHub - simapple/spider: python爬虫全球网址URL滚动提取（感觉效果不佳）
版本1 功能简述：以hao123为入口页面，滚动爬取外链，收集网址，并记录网址上的内链和外链数目，记录title等信息
（收费）网络爬虫域名采集器-有效网站域名批量采集工具_软件_九戒软件（感觉效果不佳）
软件工作原理是从一个初始网址中，查找外部网站，比如初始页面中有30个外部网站，那就继续爬取这30个外本网站，
可以正常访问的就收录进数据库，并且在这30个网站中再次查找外部网站如果每个站有30个外部网站，那就是30*30=900个
然后再访问这900个网站剔除无法访问的，找到正常访问的剔除重复加入数据库，然后再查找他们页面中的外部网站，如需往复

思路知道就是不会写，一个网友需要，正好我也想要，我相信大部分想要，大概说一下把，
譬如：输入网址 https://forum.90sec.com/

然后爬网全站内容（慢）或者只爬行主页（应该会快很多）（最好是识别302跳转），
使用排查类型或者限定类型（如：html，htm，aspx，asp，php，jsp，主要还有js）。提取里面 https:// 和 http://开头和 www.开头的（能有更好的规则提取网址就更好），最好入库之前一个网站入库不要超过50个（判断是否已经爬行过和加一个域名黑名单列表如常见的js里面出现的域名和github.com，*.qq.com, *.baidu.com 等国内统计等网址）
循环提取到的网址，循环爬行。可以设置抓取多少条或者循环多少级，能分级对应循环网站保存就最好，比较好针对性筛选，如forum.90sec.com 抓取到，www.baidu.com 和 www.qq.com 。 www.baidu.com 有抓取到 tieba.baidu.com 而 www.qq.com 抓取到 www.taobao.com

一级目录里面文件名：forum.90sec.com.txt 内容是 www.baidu.com 和 www.qq.com
一级目录里面有两个文件夹 www.baidu.com 和 www.qq.com
二级目录里面www.baidu.com目录里文件名www.baidu.com.txt 内容是 tieba.baidu.com和其他同时创建内容文件名目录。
二级目录里面 www.qq.com 目录里文件名 www.qq.com.txt 内容是www.taobao.com和其他同时创建内容文件名目录。

如果有类似的成品希望推荐下。

ppmaster · 2022 年3 月 7 日 08:56

all for one 这个应该满足你的要求

robot15 · 2022 年4 月 6 日 15:24

现在纯get 很难采集了。
网页都是各种防护和动态链接
要么就js生成。
不上无头浏览器，应该很难，，

1070275008 · 2022 年4 月 17 日 13:24

期待你的成品

heheda · 2022 年4 月 25 日 18:00

这个已经有做出来了.之前还用过.效果很NB的哈哈

1070275008 · 2022 年4 月 28 日 11:22

真的吗分享我用用

6time · 2022 年5 月 1 日 11:46

可以试试crawlergo 开源爬虫工具，不过对有验证的动态加载无法爬取；所以效果最好的还是开发Chrome-headless去控制浏览器访问，但是速度慢，资源占用多