爬行、抓取、索引、收錄，指的都是什么?

文章分類：網(wǎng)站優(yōu)化發(fā)布時(shí)間:2017-07-25 08:12:31 原文作者：admin 閱讀1125

很多做SEO的小伙伴兒們對于爬行、抓取、索引、收錄這些概念到底指的是什么，區(qū)別在哪，noindex、nofollow、robots文件的功能又是什么并不是很清楚。于是在做SEO的過程中，處理大型網(wǎng)站結(jié)構(gòu)，決定什么頁面需要被抓取，什么需要被索引，哪些頁面需要禁止抓取、索引等等情況時(shí)，就很難明白該怎么做。

爬行是什么?

爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL，然后沿著鏈接發(fā)現(xiàn)新頁面(也就是鏈接指向的URL)的過程。當(dāng)然，蜘蛛并不是發(fā)現(xiàn)新URL馬上就爬過去抓取新頁面，而是把發(fā)現(xiàn)的URL存放到待抓地址庫中，蜘蛛按照一定順序從地址庫中提取要抓取的URL。

抓取是什么?

抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL，訪問這個(gè)URL，把讀取的HTML代碼存入數(shù)據(jù)庫。蜘蛛的抓取就是像瀏覽器一樣打開這個(gè)頁面，和用戶瀏覽器訪問一樣，也會(huì)在服務(wù)器原始日志中留下記錄。

索引是什么?

索引指的是將一個(gè)URL的信息進(jìn)行整理，存入數(shù)據(jù)庫，也就是索引庫，用戶搜索時(shí)，搜索引擎從索引庫中提取URL信息并排序展現(xiàn)出來。索引的英文是index。索引庫是用于搜索的，所以被索引的URL是可以被用戶搜索到的，沒有被索引的URL用戶在搜索結(jié)果中是看不到的。

要注意的是，所謂“一個(gè)URL的信息“，并不限于蜘蛛從URL上抓取來的內(nèi)容，還有來自其它來源的信息，如外部鏈接、鏈接的錨文字等。有的時(shí)候，索引庫中關(guān)于這個(gè)URL的的信息，根本沒有從這個(gè)URL抓取來的內(nèi)容，但搜索引擎知道這個(gè)URL的存在，并且有一些其它信息。

抓取和索引不是一回事。

收錄是什么?

我個(gè)人覺得收錄和索引沒有區(qū)別。只不過收錄是從搜索用戶角度看的，搜索時(shí)能找到這個(gè)URL，就是這個(gè)URL被收錄了。從搜索引擎角度看，URL被收錄了，也就是這個(gè)URL的信息在索引庫中存在。英文并沒有收錄這個(gè)詞，和索引用的是同一個(gè)詞index。

noindex的作用是什么?

頁面頭信息中放上meta noindex標(biāo)簽是告訴搜索引擎不要索引這個(gè)URL，也就是用戶搜索時(shí)找不到這個(gè)URL的信息，這個(gè)URL不會(huì)返回在搜索結(jié)果列表中。

noindex不是告訴搜索引擎不要抓取這個(gè)URL，實(shí)際上，noindex要起作用，這個(gè)URL是必須先被抓取的，不然搜索引擎怎么看到頁面HTML代碼中有noindex標(biāo)簽?zāi)?

robots文件的作用是什么?

robots文件是告訴搜索引擎，某些URL不要抓取。注意，這里說的是不要抓取，沒說不要索引。和noindex是正相反的。

nofollow的作用是什么?

給鏈接加上nofollow屬性是告訴搜索引擎，不要沿著這個(gè)鏈接爬行，就當(dāng)這個(gè)鏈接不存在。注意，nofollow只是告訴蜘蛛不要爬這個(gè)鏈接，沒有說不要抓取鏈接指向的URL，也沒有說不要索引鏈接指向的URL，nofollow既沒禁止抓取，也沒禁止索引。(在這里十堰網(wǎng)絡(luò)公司小編要說如果你學(xué)會(huì)用nofollow，他可以幫你集中頁面權(quán)重有效縮短排名提升時(shí)間哦)

概念說過后，指出幾個(gè)SEO們經(jīng)常弄不明白的情況：

沒有被抓取的頁面是可以被索引的

也就是說，蜘蛛沒有訪問和抓取這個(gè)頁面(比如被robots文件禁止抓取)，這個(gè)頁面卻有信息存在索引庫中，用戶搜索時(shí)還能看到。

比如，淘寶整個(gè)網(wǎng)站用robots文件禁止百度蜘蛛抓取，但沒有用noindex禁止索引(如上面說的，禁止抓取后，就沒辦法禁止索引了，不抓取，就看不到noindex標(biāo)簽了)，所以即使百度沒有訪問和抓取淘寶頁面，但淘寶很多頁面是被百度索引的，用戶可以搜到的：

百度從網(wǎng)上那么多鏈接知道淘寶首頁的存在，通過鏈接的錨文字也知道這個(gè)頁面標(biāo)題大概是淘寶之類的，當(dāng)然更知道百度口碑里的評價(jià)數(shù)。所以即使百度蜘蛛沒有抓取淘寶首頁，用戶還是能搜到，并且顯示一些百度知道的信息。

要想百度不能返回淘寶首頁該怎么辦呢?取消robots文件的禁止抓取，頁面上用noindex禁止索引。

被抓取的頁面是可以不被索引的

最常見的就是上面說過的，頁面頭信息使用noindex禁止索引，頁面被抓取，讀到noindex后，不被索引，不會(huì)在搜索結(jié)果中返回。

還有可能是因?yàn)轫撁鎯?nèi)容是抄襲、轉(zhuǎn)載、低質(zhì)量的，搜索引擎雖然抓取了頁面，索引過程中檢測出這些內(nèi)容問題，被丟棄，沒有被索引。所以頁面沒有被收錄，通常要先檢查原始日志，看看是否被抓取過，如果被抓取過，可能是內(nèi)容質(zhì)量問題，如果根本沒被抓取，建議先看看網(wǎng)站結(jié)構(gòu)是否有問題。

加了nofollow的鏈接目標(biāo)頁面可以被抓取和索引

前面說了，nofollow既不禁止抓取，也不禁止索引。nofollow的作用是告訴蜘蛛不要跟著這個(gè)鏈接爬，就當(dāng)這個(gè)鏈接不存在，但nofollow只對這個(gè)鏈接起作用，對別的鏈接沒作用，這個(gè)鏈接加了nofollow，不意味著別的地方就沒有正常的指向這個(gè)URL的鏈接，只要?jiǎng)e的地方出現(xiàn)了沒加nofollow的鏈接，目標(biāo)URL還是會(huì)被發(fā)現(xiàn)、抓取(假設(shè)沒被robotx文件禁止)、索引(假設(shè)沒加noindex )。(在這里十堰網(wǎng)絡(luò)公司小編要說如果你學(xué)會(huì)用nofollow，他可以幫你集中頁面權(quán)重有效縮短排名提升時(shí)間哦)

上面這些概念和應(yīng)用在SEO中都是很重要的，如果還沒看懂，我也不知道該怎么再解釋了，只能建議再多讀幾遍。

網(wǎng)站降權(quán)怎么辦?十堰SEO淺談網(wǎng)站降權(quán)特征及處理方法新網(wǎng)站關(guān)鍵詞排名如何優(yōu)化----十堰網(wǎng)站優(yōu)化

一起分享吧

欧美精品videosex性欧美,精品久久久久久中文字幕大豆网,又嫩又紧欧美12p,人妻少妇AV中文字幕乱码

爬行、抓取、索引、收錄，指的都是什么?

爬行、抓取、索引、收錄，指的都是什么?