优化Footprints第一个案例 联系客服

发布时间 : 星期三 文章优化Footprints第一个案例更新完毕开始阅读a9ab3512ed630b1c59eeb57a

以下是用户给的Footprints,反应GScraper搜刮一直不给力,找不到想要的资源,SEOGet对其做了分析,其中的一些思路,对各位还是有所帮助的: inurl:/comment/eply/

inurl:/comments.html?pid= inurl:/comments/(.*?).html inurl:/component/blog/

1、用户的第一条Footprint在google中的收录数为1,如果有上万个关键字,结合这条Footprints,岂不是一万次结果为空的请求?

2、通过第二条Footprints发现这是一款Joomla类型的程序

分 析一下这种类型站的url特征,发现/component/blog/blog.html是这种站的博客文章列表页面,/component/blog /comments.html?pid=是文章正文页面,发现/component/blog/blogger.html?bn=这种url是博客所有者 页面。进一步分析,博客文章列表页面对于一个域名只能有一个url(注册登录页面也是只有一个),文章正文页面和博客所有者页面一个域名能有多个,对于搜 刮来说的话,选择后面两种能获取到的资源是会更多的,但是搜刮到的资源域名重复的也会有很多,这个就需要大家去权衡了。

3、这种类型的资源,应该是用来发布文章用和发布评论,但是发布评论一样需要注册用户。

4、 我选择的url特征是/component/blog/blogger.html?bn=,其实像inurl: /component/blog/blogger.html?bn=这种命令也是比较精确的了,再结合页面中的一些特征字符,比如每个页面都有\这一句话,就是一条比较好的Footprints,可以放在GScraper中搜刮了。但是google对inurl命令比较敏感,即使是有 高质量的代理,也不免被google特意封锁(防止黑帽SEO)。所以我们下一步就是想怎么去掉inurl命令,但也能精确搜刮到我们想要的资源了。

5、 选择/component/blog/blogger.html?bn=,而不是选择/component/blog /comments.html?pid=也是有原因的,前者页面中的特征字符多一些,而后者或许只有一句” Please login to write comment”,而其他很多的程序也有这样子的字符。如果我们不用inurl,就不会太精确了。而分析前者的特征字符,发现有很多,如\Blog Title\\Since :\\Login :\\New Post\。 6、所以到最 后,\Blog Title\\Since :\\Login :\\New Post\这就是一条很好的Footprints,我们用这条Footprints去google查询,发现也有90多万的收录,而且不仅是 /component/blog/blogger.html?bn=这种url特征,还有/index.php?option=com_blog& amp;view=blogger&bn=这种特征,这种资源同样是Joomla类型的。

最后我用这条\Blog Title\\Since :\\Login :\\New Post\语句结合GScraper内置关键字搜刮资源,搜刮完后打包一起分享下载了。家里4M adsl网络,速度能达到4w+,也是很不错了。

总结一下:

1、避免inurl,虽然较精确,但是google会特别封锁,最重要的是还会限制这种程序的广泛性,因为一款程序不止一种inurl特征。

2、像登录、注册页面一个域名只有一个页面,而且网页内容中没有个性内容,不好结合关键字搜刮,这种情况要尽量避免。

3、最基础的,搜刮之前,在google查询下Footprints的收录数量,想用户给的第一条Footprints不要再次出现在GScraper中了