绝地求生伦敦邀请赛直播:微軟開源Bing搜索的關鍵算法SPTAG,在幾毫秒內搜索數十億條信息

绝地求生下载安装苹果 www.rjifq.icu 微軟開源Bing搜索的關鍵算法SPTAG,在幾毫秒內搜索數十億條信息

幾年前,網絡搜索很簡單,用戶輸入幾個單詞并瀏覽結果頁面。

今天,用戶可能會在手機上拍攝照片,并將其放入搜索框或使用智能助手提問而無需親自接觸設備。他們也可能會輸入一個問題,并期待一個實際的回復,而不是一個有諸多可能的答案的頁面。

這些任務挑戰了傳統的搜索引擎,傳統的搜索引擎基于反向索引系統,而該系統依賴于關鍵字匹配來生成結果。

不斷增加的媒體組合使微軟轉向另一種AI技術——空間分區樹和圖(SPTAG),從而更好地解析搜索。它現在已開源,還有示例技術和附帶的視頻。

該算法(用C ++編寫并用Python包裝)是許多Bing搜索服務的核心,能夠在幾毫秒內搜索數十億條信息。反過來,這意味著它們可以更快地向用戶提供更相關的結果。

微軟開源Bing搜索的關鍵算法SPTAG,在幾毫秒內搜索數十億條信息

向量搜索使按概念搜索比關鍵字搜索更容易,例如,如果用戶輸入“巴黎的塔有多高”,Bing可以返回一個自然語言結果,告訴用戶艾菲爾鐵塔1063英尺,即使搜索查詢中沒有出現“Eiffel”這個詞,結果中也沒有出現“tall”這個詞。

微軟將向量搜索用于自己的Bing搜索引擎,該技術正在幫助Bing更好地理解數十億網絡搜索背后的意圖,并在數十億網頁中找到最相關的結果。

使用向量進行更好的搜索

向量本質上是一個單詞、圖像像素或其他數據點的數字表示,它幫助捕捉數據塊的實際含義。主要通過深度學習理解和表示使用這些向量的搜索意圖。

一旦將數值點分配給一段數據,就可以對向量進行排列或映射,將相鄰的數字放在一起表示相似性。這些近似的結果顯示給用戶,改善了搜索結果。

當公司工程師開始注意到用戶搜索模式的異常趨勢時,Bing使用的向量搜索背后的技術得到了啟動。

Majumder說,“在分析我們的日志時,團隊發現搜索查詢越來越長,這表明由于過去的經歷、糟糕的關鍵詞搜索體驗,用戶會問更多的問題、過度解釋,或者在描述抽象事物時,試圖像電腦一樣,對用戶來說既不自然又不方便?!?/p>

通過Bing搜索,向量化工作已經擴展到搜索引擎索引的超過1500億條數據,從而改進了傳統的關鍵字匹配。這些包括單個單詞,字符,網頁代碼段,完整查詢和其他媒體。用戶搜索后,Bing可以掃描索引的向量并提供最佳匹配。

向量分配也使用深度學習技術進行訓練,以進行持續改進。模型會在搜索后考慮最終用戶點擊之類的輸入,以便更好地理解搜索的含義。

微軟專家表示,雖然向量化媒體和搜索數據的想法并不新鮮,但最近才有可能在大規模搜索引擎(如Bing)上使用它。

微軟Bing團隊的項目經理Jeffrey Zhu表示,“Bing每天處理數十億個文檔,現在的想法是我們可以將這些條目表示為向量,并搜索這個1000億以上向量的巨大索引,以便在5毫秒內找到最相關的結果,”Jeffrey Zhu,程序說。微軟Bing團隊的經理。

想象一下:1500億張名片將從這里延伸到月球。在眨眼之間,Bing使用SPTAG進行的搜索可以在該堆卡片中一個接一個地找到10張不同的名片。

用于視覺、音頻搜索

Bing團隊表示,他們希望開源產品可以用于企業或面向消費者的應用程序,以識別基于音頻片段的語言,或者用于圖像繁重的服務,例如讓人們拍攝鮮花和照片,確定它是什么類型的花。對于那些類型的應用程序,緩慢或不相關的搜索體驗令人沮喪。

“甚至幾秒鐘的搜索都會降低應用程序體驗,”Majumder指出。

該團隊還希望研究人員和學者能夠利用它來探索其他領域的搜索突破,“我們只是開始探索在這個深度上向量搜索的真正可能性?!?/p>

開源:

github.com/microsoft/SPTAG

歡迎關注ATYUN官方公眾號,商務合作及內容投稿請聯系郵箱:[email protected]

發表評論