热门回答:
robot.txt文件
大部分的网站收录问题都是因为被robot.txt文件拦截导致的。
robots.txt是一个纯文本文件。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分。或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时。它会首先检查该站点根目录下是否存在robots.txt。如果存在。搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在。那么搜索机器人就沿着链接抓取。
格式:
1.User-agent:
用于指定搜索引擎的名称。如谷歌为User-agent: Googlebot。*代表所有搜索引擎
2.Disallow:
表示禁止蜘蛛访问的文件
User-agent: *
Disallow:
表明:允许所有搜索引擎访问网站下的所有内容。
User-agent: *
Disallow: /
表明:禁止所有搜索引擎对网站下所有网页的访问。
User-agent: *
Disallow: /cgi-bin/
表明:禁止所有搜索引擎进入网站的cgi-bin目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
User-agent: Roverdog
Disallow: /
表明:禁止Roverdog访问网站上的任何文件。
User-agent: Googlebot
Disallow: cheese.htm
表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。
3.注释
以”#”开头的行。均被视为注解内容。注释需要单独成一行
Disallow: bob #comment是错误的
4.Allow行
Allow行还未普遍使用。对于网站地图。直接写为Sitemap: http://www.xxx.com/sitemap.xml
编辑模式:
在UNIX模式下编辑你的robots.txt文件并以ASCII码格式上传。显然并非所有的FTP客户端软件都能够天衣无缝地将文件格式转换为UNIX命令行终端。所以在编辑robots.txt文件时。一定要确保你的文本编辑器是在UNIX模式下。
或者使用工具如爱站工具生成robots,直接粘贴复制到网站后台。
检测robots是否生效:
在百度站长后台检测robots
二 robots和nofollow的区别是什么
robots只用于站内链接。禁止蜘蛛抓取进行收录;
nofollow的链接蜘蛛依然可以收录。但是不会传递权重。一般用于站外链接或者是公司电话。地址的页面有助于网址权重的集中。
三 网站误封robots后的处理
1.解封robots。然后到百度站长后台检测并更新Robots。
2.在百度站长后台抓取检测。此时显示抓取失败。通常更改完robots不会立即生效。需要等待几天。可以多点击抓取几次。触发蜘蛛抓取站点。
3.在百度站长后台抓取频次。申请抓取频次上调。
4.百度反馈中心。反馈是因为误操作导致了这种情况的发生。
5.百度站长后台链接提交处。设置数据主动推送(实时)。
6.更新sitemap网站地图。重新提交百度。每天手工提交一次。
四.新站robots的设置
对于已经上线但是还没有设置好的新站在robots中用
User-agent:*
Disallow:/
来禁止蜘蛛进行访问
meta标签
meta robots 标签是页面head部分meta标签的一种。用于指令搜索引擎禁止索引(收录)本页内容。
meta robots 标签的写法:
<meta name=”robots”content=”noindex,nofollow”>
标签的意义:禁止所有搜索引擎索引本页面。禁止跟踪本页面上的链接。
Noindex:搜索引擎不索引此网页(可以抓取。但不出现在搜索结果中)。
Nofollow: 搜索引擎不继续通过此网页的链接索引搜索其它的网页。
<meta name>=”robots”content=”noindex” >
标签的意义:禁止索引本页面。但允许蜘蛛跟踪页面上的链接。也可以传递权重。
使用了noindex meta robots标签的页面会被抓取。但不会被索引。也就是说页面URL不会出现在搜索结果中。这一点与robots文件不同。
meta robots 标签的作用:
1、不想让网站被收录使用meta robots 标签。禁止搜索引擎索引本页。同时禁止跟踪页面上的链接。
2、禁止索引本页面。但是允许蜘蛛跟踪页面链接。也可以传递权重。
meta robots标签很多搜索引擎是不支持的。只有少数搜索引擎能够识别并按给定的值抓取。因此还是推荐用robots.txt文件来限制抓取.
有违规记录的域名
有些站长会选择购买有一定注册年份的域名。但是需要注意这些域名是否曾经被搜索引擎惩罚过。如果这样。网站也是非常难收录的。
建议对于这种情况。站长可以查看一下网站日志。如果蜘蛛未爬取。只需要去站长后天提交即可。如果蜘蛛有爬取记录。但是没有收录。就可能是域名的问题。当然也不排除网站自身存在一定的问题。例如镜像网站等。
如何让网站收录
熊账号后台提交:熊账号对于原创文章的收录要求较高。但是通常首页的收录是非常快的。一般第二天就可以看到效果。而且熊掌号会显示不收录的原因。方便站长进行整改。
其他观点:
首先自己找到各大搜索引擎的收录入口录入你网站域名等相关信息做手动收录。审核时间有几天的有一个月左右的。其次常更新网站内容。常更新才会被推送。最好把网站备案了。利于收录。因为个别搜索引擎需要填入备案号才可以收录成功。
其他观点:
专业的都有人回答了。我就说一些基础的。
首先是网站建设
尽量做扁平化的网站。不要做页面过深的。不容易被抓取。网站图片不要太多、太大。尽量使用WEB格式。尤其是首页。尽量不要都是图片形式。
然后是TDK
也就是网站三要素。关键词。标题。创意描述。关键词不要太多。3-5个核心的就可以了。标题和创意不要用关键词叠加。可以参照一下优秀同行的案例。
内容为王
百度算法千万变。内容为王始终不变。有规律的更新一些和网站有关联的文章。尽量原创。不要摘抄一些不相关的信息。
外链
很多人说外链不管用了。其实不然。只是不要滥发外链。做无用工。交换一些质量好的友链对网站的提升还是蛮大的。
熊掌号
开通熊账号。关联网站。提交收录。效果很好。另外。网站内部可以增加自动抓取收录代码。
以上就是由优质生活领域创作者 生活常识网 整理编辑的,如果觉得有帮助欢迎收藏转发~
本文地址:http://www.shenzhoubaby.com/83418.html,转载请说明来源于:生活常识网
声明:本站部分文章来自网络,如无特殊说明或标注,均为本站原创发布。如若本站内容侵犯了原著者的合法权益,可联系@qq.com进行处理。分享目的仅供大家学习与参考,不代表本站立场。
评论(2)
网站,搜索引擎,蜘蛛,标签,链接,文件,站长,索引,页面,后台
没想到大家都对个人网站如何做到被各大搜索软件收录?感兴趣,不过这这篇解答确实也是太好了
robot.txt文件大部分的网站收录问题都是因为被robot.txt文件拦截导致的。robots.txt是一个纯文