网页为什么长期不被收录
先来谈谈网页为什么会出现长期不收录的情况,这也是seo优化中最常见最头疼的问题,没有收录后面的都是空谈,但是在我们辛辛苦苦做页面的时候还是会出现大量的页面不被收录。下面的内容来自浅谈互联网页面价值,也基本可以解释网页为什么会长期不收录。
互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。
简单点说,网页长期不被收录就是因为网页不具备检索价值(百度不收录原因分析——spider抓取篇)。内容页在生成后被百度蜘蛛爬取的机会本来就少,再加上我们也很少对内容页做出调整,那么就导致搜索引擎每次抓取都是没有价值的内容。
当然这是在理想的情况下的结论,在制造内容的时候还是会有大量的优质内容不被收录,基于百度一直以来的不确定因素,就需要另作讨论。
解决长期不被收录的网页
当今互联网资源泛滥,我们在制作内容的时候投入了大量的时间和金钱,如果没有发挥应有的价值,将是闹民伤财。针对于长期没有收录的网页需要做进一步的优化,促使收录,开水推荐做法如下。
1、增、删、改,这也是很多采集内容的基本处理方法,增加相关内容,价格的页面可以添加产品介绍,厂家信息,合作等等;删除与主体无关,已经泛滥的内容。删除其他企业介绍等无关泛滥内容,收录差的网页标题经常都需要处理,可以删除停止词以及一系列的修饰词;修改内容,对原有的代码进行修改,p改div ,div改br,补全关键词、alt等细节部分。
2、给与更多的数据支持,例如链接支持、流量支持、分享支持,站内内链以及站外的外链,给与给多的入口也带来多高的流量。
3、基于百度的不确定因素,有非常想要一个优质的页面被收录,开水推荐的手法就是将不收录页面的内容完全复制已经收录的页面,然后去投诉这个已经收录的页面促使快照更新。当然这里也有第二种缓和的办法,删除长期不收录的页面,改改内容,更换url重新上线。
实操案例
背景:
- 网站前期的内容以人工编辑的文章为主;
- 主站不带www域名没有做301,各有一定比例的收录;
- 流量主要来源百度和360。文章页面的收录率仅有30%不到。
- 为增加收录率,减少内容损失,需要对站内文章做进步不处理。
流程:
- python爬取网站所有文章的链接,然后同时查询www和不带www的百度和360的收录情况。
- 筛选出同时满足www和不带www的百度和360均为收录的页面id。
- 进入数据库,对以上id的数据增删改,调整id发布时间时间重新上线。
- 对这部分网页在首页和其他页面给推荐入口,外推随机选择url发布。
以上是第一期的操作,目前这部分页面收录率可以达到70%,在后期还会有两步对内容做处理。pagerank算法提取关键词,textrank精简文章内容,k-means和tifidf组合相关内容为一个网页。
笔记
#随机生成某时间段内的时间,格式2017-08-31 11:59:59
=TEXT(RAND()*("2017-08-31 11:59:59"-"2017-9-30 9:00"),"yyyy-mm-dd h:m:s")
#Access中运行sql查询命令
SELECT * from News where FID in (1,2.3);
#文章所提及的程序代码
链接: https://pan.baidu.com/s/1bp3xOHh 密码: