
文章分類(lèi):建站知識(shí) 發(fā)布時(shí)間:2017-10-18 03:08:58 原文作者:admin 閱讀1677
robots.txt文件問(wèn)題攻略大全,本文中將大家常遇到的關(guān)于robots.txt文件的相關(guān)問(wèn)題進(jìn)行匯總,希望大家又長(zhǎng)知識(shí)了。
1、robots.txt是什么?
解答:robots.txt是一個(gè)純文本文件。簡(jiǎn)單說(shuō)就是一個(gè)互聯(lián)網(wǎng)協(xié)議,是針對(duì)搜索引擎蜘蛛抓取網(wǎng)站時(shí)的一個(gè)提前聲明。通過(guò)robots.txt文件告訴蜘蛛,該網(wǎng)站的哪些文件你能訪(fǎng)問(wèn)抓取,哪些文件不要去訪(fǎng)問(wèn)抓取,從而規(guī)避一些隱私文件或不想被收錄的文件被蜘蛛爬取到,起到一個(gè)引導(dǎo)蜘蛛的作用。
搜索引擎蜘蛛爬取網(wǎng)站的第一個(gè)文件會(huì)優(yōu)先選擇robots.txt文件,所以在引導(dǎo)蜘蛛時(shí)robots.txt文件就顯得尤為重要。
2、robots.txt寫(xiě)法
user-agent:* 這里的星號(hào),代表泛指所有的搜索引擎,如需要特指某個(gè)蜘蛛,則將各個(gè)搜索引擎蜘蛛的名稱(chēng)寫(xiě)下即可。各大常用搜索引擎蜘蛛名稱(chēng)如下:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
bing蜘蛛:bingbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
有道蜘蛛:YodaoBot和OutfoxBot
熱土蜘蛛:Adminrtspider
搜狗蜘蛛:sogou spider
SOSO蜘蛛:sosospider
360搜蜘蛛:360spider
屏蔽所有蜘蛛寫(xiě)法:
user-agent:*
disallow: /
提示:這里的斜杠代表網(wǎng)站根目錄。
屏蔽單個(gè)搜索引擎蜘蛛寫(xiě)法(如屏蔽谷歌):
user-agent:googlebot
Disallow: /
屏蔽單個(gè)目錄:
user-agent:*
Disallow: /a/
提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽;加斜杠/a/表示只代表a目錄下的所有文件。
屏蔽單個(gè)頁(yè)面:
user-agent:*
Disallow: /123.html
釋放已屏蔽目錄中的某個(gè)文件:
user-agent:*
Disallow: /a/
Allow: /a/img/
屏蔽所有動(dòng)態(tài)頁(yè)面:
user-agent:*
Disallow: /*?*
加入網(wǎng)站地圖文件:
user-agent:*
Sitemap: http://www.buerxiong.cn/sitemap.xml
Sitemap: http://www.haoyihai/sitemap.html
提示:盡量把鏈接寫(xiě)完整,免得抓取出錯(cuò)。
關(guān)于robots具體屏蔽那些文件,請(qǐng)閱讀《robots具體禁止什么文件》一文,文中有詳細(xì)闡述,這里不細(xì)講。
3、robots.txt放在哪里?
解答:robots.txt必須指定放在一個(gè)網(wǎng)站的根目錄下,且文件名必須全部小寫(xiě)。
相應(yīng)URL地址例如:
http://www.buerxiong.cn/robots.txt
4、robots.txt文件存在限制指令
解答:這個(gè)也就是大家,??吹侥承┚W(wǎng)站,快照描述寫(xiě)著“由于該網(wǎng)站的robots.txt文件存在限制指令(限制搜索引擎抓取),系統(tǒng)無(wú)法提供該頁(yè)面的內(nèi)容”,其實(shí)就是該網(wǎng)站屏蔽了搜索引擎抓取,淘寶最為明顯。
就是這個(gè)寫(xiě)法:
user-agent:*
disallow: /
解決辦法,進(jìn)入網(wǎng)站根目錄,找到robots.txt文件,刪除掉里面的“disallow: /”,然后等待快照更新就可以了。
5、robots.txt怎么看?
解答:都是進(jìn)入網(wǎng)站空間,找到根目錄下的robots.txt文件,打開(kāi)觀察寫(xiě)法,文件屏蔽,查看是否有誤或新增即可。直接觀察可以在瀏覽器輸入主域名+robots.txt即可觀察,修改還是要到服務(wù)器空間或ftp里面處理。
6、robots.txt可以刪除嗎?
解答:可以刪除,但是對(duì)蜘蛛很不友好,建議不要?jiǎng)h除,且把內(nèi)容寫(xiě)完整。
7、robots.txt允許收錄
解答:允許收錄也就是寫(xiě)法,參考第二點(diǎn)寫(xiě)法規(guī)則即可。
8、robots.txt安全防滲透說(shuō)明
解答:一般robots.txt文件中,我們會(huì)寫(xiě)到屏蔽后臺(tái)路徑如下:
user-agent:*
Disallow: /admin/
這個(gè)路徑我們不能像上面這樣直接寫(xiě)出來(lái),很容易被別人窺視加以利用,所以一般我們需要設(shè)置復(fù)雜一點(diǎn),并用星號(hào)泛指來(lái)表示。
如下:
user-agent:*
Disallow: /a*n/
將中間部分用泛指表示出來(lái),蜘蛛是可以根據(jù)前后對(duì)照識(shí)別出文件,但別人想要知道就很難了,可防止被攻擊,增加安全性。
9、robots.txt文件本身安全嗎?
解答;robots.txt本身是沒(méi)安全問(wèn)題的,但如果空間被入侵,robots.txt文件被修改可能就會(huì)出錯(cuò)了。不過(guò)也很容易察覺(jué)到,一旦你發(fā)現(xiàn)異常了,修改回來(lái)就好了,所以robots.txt文件也需要時(shí)??纯词欠裼袉?wèn)題,做好安全維護(hù)工作。
好了以上就是這些內(nèi)容,相信大家已經(jīng)掌握robots要訣了,還沒(méi)明白的就多看幾遍。
十堰網(wǎng)絡(luò)公司 十堰網(wǎng)站優(yōu)化 13872831164
微信公眾賬號(hào)
添加"章魚(yú)網(wǎng)絡(luò)"
? Copyright @2016-2023 十堰章魚(yú)網(wǎng)絡(luò)科技 All Rights Reserved 鄂ICP備16021580號(hào)-1
關(guān)于我們 資訊&分享 微信公眾號(hào)廣告投放 今日頭條廣告投放 加入我們 微信平臺(tái)