Google BERT與Smith算法協同工作-Semalt概述




Google最近發布了有關其新的NLP算法SMITH的研究論文。本文為許多SEO專業人員提供了啟發,使他們可以保證SERP排名的上升或下降。儘管如此,我們這里關心的是這種新的SMITH算法與BERT相比如何?

在Google發表的論文中,他們聲稱SMITH在理解冗長的搜索查詢和冗長的文檔方面勝過BERT。使SMITH如此有趣的原因在於,它可以理解文檔中的段落,就像BERT對單詞和句子所做的一樣。 SMITH的改進功能使它可以輕鬆理解更長的文檔。

但是,在繼續進行之前,我們必須通知您,截至目前,SMITH還沒有出現在Google的算法中。但是,如果我們的猜測正確,它將與段落索引一起啟動,或者在它之前。如果您真的對學習如何在SEP上排名感興趣,那麼機器學習將不可避免地與這種興趣並駕齊驅。

回到主題,是否將要更換BERT?使用SMITH,網絡上的大多數文檔都不會龐大,健壯並因此具有更長的性能嗎?

讓我們跳到更遠,看看我們得出的結論。 SMITH可以完成讀取健壯和精簡文檔的工作。認為它像一個火箭筒。否則會造成嚴重損壞,還會打開門。

首先,為什麼選擇BERT或SMITH?

真正的問題是,為什麼搜索引擎需要自然學習處理才能提供搜索結果。答案很簡單。搜索引擎在從搜索引擎理解字符串或關鍵字到事物或網頁的過渡過程中需要NLP。

如果Google沒有這個想法,那麼除了關鍵字之外,頁面上還有什麼其他內容,或者與搜索查詢相關的內容被編入索引是否有意義。借助NLP,Google可以理解在其搜索查詢中鍵入的字符的上下文。
借助NLP,Google可以區分用戶說“ riverbank”和“銀行帳戶”的意圖。它還可以理解諸如“卡羅琳與她的朋友見面喝酒,品脫,淡啤酒,啤酒,啤酒……”這樣的說法是不自然的。

作為SEO的專家,我們必須說,了解搜索查詢已經走了很長一段路。最好的人認為,過去在互聯網上找到合適的文章非常困難。

了解BERT

目前,BERT對於許多(如果不是大多數)應用程序,都是我們擁有的最佳NLP模型,尤其是在理解複雜的語言結構時。許多人認為第一個雙向字符是此算法中的最大飛躍。 BERT不需要理解從左至右讀取的算法,還可以理解與上下文相關的單詞。這樣,它不會為查詢中輸入的各個單詞提供結果,而是根據搜索查詢中單詞的集體含義來索引網頁。

這是一個示例,以幫助您理解:

卡車輕。

如果要從左到右解釋該聲明,則在到達“輕”一詞時,您會將卡車歸為輕類。那是因為卡車在聲明中沒有出現。

但是,如果我們想對卡車上的東西進行分類,則可能會忽略“輕”,因為我們不會在“卡車”之前碰到它。

僅憑一個方向就很難考慮這一說法。

此外,BERT具有如此卓越的另一個秘密好處,與以前的模型相比,它可以以較低的資源成本有效地進行語言處理。的確,這是要考慮將其應用於整個Web時要考慮的重要因素。

令牌的應用是伴隨BERT的又一發展。 BERT中有30,000個令牌,並且每個單詞代表一個普通單詞,如果某個單詞存在於30,000個單詞之外,則每個單詞代表一些額外的字符和片段令牌。

通過處理令牌和轉換器的能力,BERT可以理解內容,還可以充分理解句子。

因此,如果我們說:“那位小姐去了河岸。後來她坐在河岸上,看著河水流淌。”

BERT將為這些句子分配不同的值,因為它們指的是兩種不同的事物。

了解SMITH

然後是SMITH,一種具有更好資源和編號的算法,可用於處理較大的文檔。 BERT每個文檔使用大約256個令牌,當它超過此閾值時,對於最佳功能而言,計算成本將變得過高。相比之下,SMITH每個文檔最多可以處理2248個令牌。這大約是令牌BERT使用數量的8倍。

要了解為什麼在單個NLP模型中計算成本會上升,我們必須首先考慮理解一個句子和一個段落所需要的費用。處理句子時,只有一個一般概念可以理解。彼此之間相關的單詞較少,因此單詞與它們在記憶中所保持的觀念之間的聯繫也較少。

通過將句子分成段落,這些單詞之間的聯繫大大增加了。使用相同的模型,處理文本的8倍速度和內存優化容量將需要更多倍的時間。這就是SMITH基本上是通過批量處理和進行大量脫機處理而使所有與眾不同的地方。有趣的是,SMITH仍依賴於BERT才能正常運行。

這是SMITH如何獲取文檔核心的描述:
  1. 它首先將文檔分為易於管理的分組大小。
  2. 然後,它分別處理句子的每個塊。
  3. 然後,轉換器學習每個塊的上下文表示,然後將它們轉換為文檔表示。

SMITH如何工作?

為了訓練SMITH模型,我們通過兩種方式向BERT學習:

要訓練BERT,請從句子中取出一個單詞,然後提供其他選項

BERT受過更好的培訓,是從所提供的替代方案中選擇正確選​​項的一種方法,它將更加成功。例如,如果給BERT句子:

快樂的布朗------跳過了柵欄。
  • 選項一-西紅柿。
  • 選項二-狗。
BERT訓練得越好,選擇正確選​​項(即選項二)的機會就越大。

這種訓練方法也適用於SMITH。

SMITH已接受大文件培訓

SMITH訓練得越好,識別遺漏句子的機會就越大。 BERT的想法相同,但應用程序不同。這部分特別有趣,因為它描繪了一個由Google生成的內容拼湊成牆的搜索引擎結果頁面的世界。當然,用戶可以離開,但是他們不會,因為Google可以將其結果頁上所有最佳來源的簡短內容和長篇內容拼湊在一起。

如果您不確定這種情況的發生,您應該知道它已經開始發生,即使他們尚未掌握它,這也是一個開始。

SMITH比BERT好嗎?

通過閱讀所有內容,可以很自然地認為SMITH更好,並且在許多任務中,它確實是更好的。但是請考慮一下您如何使用互聯網。您在搜索查詢中定期輸入哪些問題?
  • “今天的天氣預報是什麼?”
  • “前往餐廳的路線”。
回答此類搜索查詢通常需要簡短的內容,通常包含有限且簡單的數據。 SMITH參與了更長,更複雜的文檔以及長而復雜的搜索查詢的理解。

這將包括將多個文檔和主題拼湊在一起以創建其答案。它決定了內容的分解方式,使Google知道正確的顯示內容。它將幫助Google理解內容頁面之間的相互關係,並提供一個衡量鏈接價值的尺度,其中包括其他好處。

綜上所述,我們最後說BERT和SMITH都很重要,並且它們都有自己的獨特目的。

結論

儘管SMITH是火箭筒,但我們需要它來描繪事物的整體情況。在資源方面,它的成本更高,因為它做的工作更大,但是在完成相同工作時,它的成本要比BERT低得多。

BERT幫助SMITH協助其理解簡短查詢和微小內容塊。但是,直到Google開發出另一種NLP算法來替代這兩種算法,然後我們才能趕上SEO的另一項進步。

對SEO感興趣?查閱我們關於的其他文章 塞馬爾特博客