成为垄断者(这是 年的情况),并且需要一个可行的替代方案。我们的项目中有超过 名常客,在超过 个分布式客户端上运行分布式爬虫和分析器:所有这些使我们能够以大约 的持续速率进行爬网。 由于我们最近通过 更接近商业世界,因此决定我们的项目参与者将通过股权从我们的成功中受益 本质上项目成员是合作伙伴。这里需要强调的是,我们的成员由于经济原因没有加入该项目。 你爬行的频率是多少?您多久抓取一次最近未更新的页面? 我们每天抓取大约 亿个网址。目前我们的主要重点是扩大我们的数据库。
顶部添加更多过滤器应该是可行的
以赶上 (请参阅此处的分析),但是我们已经投入了一些能力来重新抓取,事实上在二月份我们应该有重要页面自动重新抓取的新版本(高 )发布,这将允许很快看到竞争对手的反向链接建设活动。我们的测试 Jamaica Email List 版每日更新功能显示前一天发现的注册或购买域名的新反向链接,这使我们有机会在进行完整索引更新(大约每两个月一次)之前看到新的反向链接。 什么是 等级?与 的 相比如何? 是一种非常简单的衡量网页重要性的方法,基于链接到该网页的唯一域的数量。更多信息可以在这里找到: 此衡量标准不如。
另一个很酷的功能是添加 链接锚文本分析功
因为它尚未在页面之间 流动 。我们很快就会发布 的大幅改进版本。 你们有什么新功能计划吗? 无法停止思考他们;) 您允许人们导出数量惊人的数据,但主要是以每个站点的电子表格形式导出的。您是否考虑过创建一个基于网络或桌面的界面,人们可以在其中进行高级分析? 我们为所有这些数据提供基于 的界面,能够使用 格式快速导出数据 例如,如果我想知道链 阿联酋手机号码 接到 和 但不链接到 且最低 排名为 并且未使用 的页面(或网站),该怎么办?做这样的事情将非常强大,并且鉴于您已经完成了复杂的爬网,我想在。