揭秘淘寶搜索?那段故事
來(lái)源:未知 時(shí)間:2014-09-29
終于要開始寫揭秘淘寶搜索的文章了,2013年1月自媒體”鬼腳七”剛開始的時(shí)候,我說(shuō)如果微信"鬼腳七"粉絲數(shù)達(dá)到10萬(wàn),我就開始寫《揭秘淘寶搜索》,在這個(gè)賬號(hào)中連載,沒想到很快就到了。當(dāng)時(shí)我還在負(fù)責(zé)淘寶搜索的產(chǎn)品,現(xiàn)在我不再負(fù)責(zé)淘寶搜索業(yè)務(wù),正好可以專心寫淘寶搜索的文章。
之所以寫想寫這個(gè)系列的文章,有幾個(gè)原因:
1 淘寶搜索對(duì)于一個(gè)賣家來(lái)說(shuō),太重要了。目前又沒有系統(tǒng)性的介紹,我之前答應(yīng)過要寫,這次剛好有機(jī)會(huì)??梢怨┵u家參考。
2 我負(fù)責(zé)了4年多的淘寶搜索技術(shù)和產(chǎn)品,如今不再負(fù)責(zé)搜索業(yè)務(wù)了,也希望能寫一些文章,做為總結(jié)。也算對(duì)自己交代。
3 目前對(duì)于購(gòu)物搜索方面的文章太少,我寫出來(lái),可以讓其他做購(gòu)物搜索的同仁們有所借鑒。
搜索這十多年,就像一幕電影。我現(xiàn)在只不過把劇本零星的整理出來(lái)形成系列的文章。
我假定的讀者對(duì)象是搜索相關(guān)產(chǎn)品和技術(shù)人員、所有淘寶和天貓上的賣家,以及其他對(duì)購(gòu)物搜索感興趣的朋友。因此文章不能太技術(shù),但又不能太沒有技術(shù),這是很有挑戰(zhàn)的地方。所以大家不要期望太高,照顧一下其他讀者。
雖然是計(jì)劃寫揭秘淘寶搜索系列,但我希望我的文章包括淘寶搜索、一淘搜索、天貓搜索、以及阿里巴巴B2B的搜索,也不會(huì)有真的內(nèi)部秘密要公開,能公開的就不是秘密。
那幾個(gè)搜索引擎
B2B、B2C、C2C這些名詞想必都很熟悉,還有現(xiàn)在比較新潮的O2O, C2B。所謂的模式,都是做出來(lái)以后總結(jié)出來(lái)的。先知先覺設(shè)定某個(gè)模式,然后去搞,十有八九不會(huì)成功。此文章系列不談這些,著重談搜索技術(shù),不同的搜索引擎,搜索的原理基本一致,只是在產(chǎn)品策略,排序因素上有各自的特性。
如果講這幾搜索引擎技術(shù)的完整性,一淘搜索最完整。具體技術(shù)以后再講,先說(shuō)說(shuō)一淘搜索。
中國(guó)最大的全網(wǎng)購(gòu)物搜索是一淘搜索(淘寶搜索不是全網(wǎng)購(gòu)物搜索),但明顯一淘搜索還不屬于購(gòu)物的主要入口,相比淘寶本身還很小,看似一個(gè)很好的應(yīng)用,卻一直沒有得到市場(chǎng)的認(rèn)可。原因是多方面的,我這里列幾個(gè):
當(dāng)市場(chǎng)一家或幾家獨(dú)大的時(shí)候,站內(nèi)的購(gòu)物搜索已經(jīng)能解決用戶90%的需求,全網(wǎng)購(gòu)物搜索引擎的需求不大;
購(gòu)買商品不同于瀏覽網(wǎng)頁(yè),需要輸入賬號(hào),很少有人愿意到一個(gè)地方搜索,然后到另外一個(gè)地方重新輸入賬號(hào)、瀏覽、購(gòu)買,然后再回來(lái)進(jìn)行搜索的;
各個(gè)電商網(wǎng)站的數(shù)據(jù)非常不一樣,如果搜索產(chǎn)品想做到非常好用,技術(shù)難度不是一般的高。
淘寶搜索是最有挑戰(zhàn)性的。我從2000年開始做搜索技術(shù),先后做網(wǎng)站的站內(nèi)搜索、企業(yè)知識(shí)搜索、網(wǎng)頁(yè)搜索,最后做淘寶搜索。這十幾年中,遇到最具挑戰(zhàn)性的就是淘寶搜索。雖然數(shù)據(jù)量不是最大的,但其技術(shù)的復(fù)雜性,一點(diǎn)都不低于網(wǎng)頁(yè)搜索,更具有挑戰(zhàn)的是,其產(chǎn)品策略太難制定,在考慮用戶體驗(yàn)的同時(shí),還需要考慮幾百萬(wàn)賣家的利益。而且道高一尺魔高一丈,無(wú)論多好的策略,很快就可能被市場(chǎng)破壞。
天貓搜索和淘寶搜索都是同一套技術(shù)體系,因?yàn)樗麄円鉀Q的問題都是一樣的。天貓的數(shù)據(jù)量小,商家數(shù)只有淘寶商家數(shù)的百分之幾,商品量也很小,天貓搜索的產(chǎn)品策略和淘寶搜索有明顯的不一樣。天貓搜索不擔(dān)心馬太效應(yīng)(馬太效應(yīng)是指大者越來(lái)越大,小者很難成長(zhǎng)),天貓可以通過制度要求讓賣家配合很多規(guī)則,例如商標(biāo)、圖片、正品要求、發(fā)票等。當(dāng)然,天貓搜索還會(huì)倡導(dǎo)品質(zhì),而不是便宜。
淘寶搜索和天貓搜索都有兩個(gè)類型的應(yīng)用,一個(gè)是直接關(guān)鍵詞搜索,一個(gè)是類目瀏覽(也就是list)。前者好理解,后者是指當(dāng)用戶通過某個(gè)類目名稱進(jìn)入到商品列表頁(yè)的時(shí)候,出現(xiàn)的搜索結(jié)果。這兩者都是調(diào)用的同一個(gè)后臺(tái),只不過排序因子有些不一樣。
阿里巴巴B2B的搜索,也就是1688的搜索,我自己還不太了解,等過些天我去拜訪一下相關(guān)的負(fù)責(zé)人,再向大家做介紹。
淘寶搜索VS. 網(wǎng)頁(yè)搜索
我們平時(shí)用網(wǎng)頁(yè)搜索引擎更多,為了讓大家更清楚了解淘寶搜索的特點(diǎn),我這里把網(wǎng)頁(yè)搜索和淘寶搜索的特點(diǎn)做個(gè)對(duì)比。
一、搜索流量的價(jià)值
淘寶上每個(gè)賣家店鋪流量來(lái)源主要分成三部分:推廣流量(付費(fèi)廣告或免費(fèi)活動(dòng));老客戶(直接登錄、收藏等);搜索流量。由于推廣活動(dòng)的持續(xù)性問題,搜索流量基本上決定了一個(gè)店鋪新客戶來(lái)源。如果一個(gè)店鋪新客戶來(lái)源不夠的話,在市場(chǎng)上會(huì)日益衰落。
目前的網(wǎng)頁(yè)搜索引擎公司,盈利的主要來(lái)源還在搜索廣告。但對(duì)于網(wǎng)頁(yè)搜索引擎來(lái)說(shuō),不是所有的流量都有價(jià)值,例如:在百度上搜索“李湘”,估計(jì)就沒有什么廣告,大多是明星新聞八卦什么的。一般的網(wǎng)頁(yè)搜索流量中,大約20%~30%的搜索詞是有商業(yè)價(jià)值的(適合出廣告)。淘寶搜索不一樣的是,基本上99%的流量都是有商業(yè)價(jià)值的。搜索“李湘”,會(huì)出來(lái)減肥茶,搜索“林志玲”,會(huì)出來(lái)充氣娃娃;在韓寒和方舟子鬧得很厲害時(shí),搜索“韓寒 VS 方舟子”也有很多個(gè)性T-shirt結(jié)果。某種程度上可以說(shuō),如果淘寶搜索流量有10億,其價(jià)值估計(jì)相當(dāng)于網(wǎng)頁(yè)搜索流量40億的商業(yè)價(jià)值。
在淘寶搜索上,如果要賣廣告,是最好融合的。因?yàn)樘詫毸阉鞯慕Y(jié)果本身就是商品,廣告也是商品,二者沒有區(qū)別。
二、搜索的社會(huì)影響
這個(gè)和淘寶本身的社會(huì)影響相關(guān)聯(lián)?,F(xiàn)在淘寶賣家數(shù)達(dá)到800萬(wàn),活躍賣家數(shù)應(yīng)該在200萬(wàn)左右。我們假設(shè)平均每個(gè)活躍賣家背后有5個(gè)人,那么直接在淘寶上就業(yè)的人就有1000萬(wàn)人,如果加上其他兼職賣家、快遞公司、第三方服務(wù)公司等,估計(jì)能到2000萬(wàn)人。每天有上億的用戶上淘寶去買東西。淘寶任何一個(gè)規(guī)則的變化,對(duì)整個(gè)社會(huì)都會(huì)有不小的影響。
2012年淘寶、天貓雙十一,整個(gè)交易額達(dá)到191億,考驗(yàn)的不只是淘寶、淘寶賣家、淘寶買家,還有物流快遞公司、銀行支付系統(tǒng)等。試想有一天淘寶忽然停業(yè)一天,全國(guó)有多少人都得在家打麻將了。同理,搜索的任何一個(gè)變化,都會(huì)影響淘寶賣家,通過賣家會(huì)影響到買家、第三方物流……
不知道有多少人還記得2010年7月份搜索規(guī)則的變化,已經(jīng)由一個(gè)公司內(nèi)部的技術(shù)變革,演變成一個(gè)社會(huì)事件。這個(gè)在本文后面會(huì)有專題介紹。
三、搜索的實(shí)時(shí)性
如果有人自己建了個(gè)網(wǎng)站,網(wǎng)頁(yè)搜索引擎要是一兩個(gè)星期沒有收錄這個(gè)網(wǎng)站,站長(zhǎng)也不會(huì)太著急。但在淘寶上不一樣,必須是實(shí)時(shí)或者接近實(shí)時(shí)的。賣家發(fā)布一個(gè)商品,希望幾分鐘后就能搜索到。因?yàn)樯唐肥菍?shí)體,賣一件少一件,價(jià)格也會(huì)有變化,賣家還會(huì)經(jīng)常搞活動(dòng),如果信息更新不及時(shí),就會(huì)誤導(dǎo)買家,造成糾紛。這些對(duì)搜索的實(shí)時(shí)性要求非常高。
在淘寶上,每天會(huì)有上億的商品信息發(fā)生變化,包括上架、下架、銷量、價(jià)格、屬性、描述的變化等。這些商品絕大部分都會(huì)在幾分鐘之內(nèi)反應(yīng)到搜索結(jié)果中去,如果要做到實(shí)時(shí)的呢? 這對(duì)技術(shù)帶來(lái)的挑戰(zhàn)是巨大的。淘寶最開始更新的周期是半個(gè)小時(shí)到40分鐘,到2012年已經(jīng)縮短到三四分鐘之內(nèi)了。當(dāng)然,晚上系統(tǒng)做更新的時(shí)候,數(shù)據(jù)更新會(huì)稍微慢一些。
四、搜索的查全率
查全率是個(gè)專業(yè)術(shù)語(yǔ)。所謂查全率,就是搜索鞋子,找到的鞋子數(shù)量占總體鞋子數(shù)量的百分比。類似的術(shù)語(yǔ)還有相關(guān)性,相關(guān)性就是指搜索結(jié)果和搜索詞是否相關(guān)。例如:搜索“做自己”,出來(lái)《做自己》這本書就算相關(guān),出來(lái)《做自己的口才專家》就屬于不相關(guān)。搜索手機(jī),出來(lái)手機(jī)鏈也屬于不相關(guān)。
網(wǎng)頁(yè)搜索是會(huì)做一些消重和過濾的。我們?cè)诰W(wǎng)頁(yè)搜索時(shí),最不希望看見的就是一摸一樣的重復(fù)結(jié)果。在淘寶搜索中,我們也不希望看見太多的重復(fù)結(jié)果,但同時(shí)又希望有不同的商家可以對(duì)比,有不同的地域可以選擇。對(duì)于賣家來(lái)說(shuō),如果自己店鋪的寶貝因?yàn)楦渌赇佒貜?fù)而不出現(xiàn)的話,一定會(huì)詢問為什么,淘寶的客服電話很快就會(huì)打爆了。
淘寶搜索,一方面要考慮買家的體驗(yàn),一方面又要考慮賣家的利益,這就需要采用很多不同的技術(shù)解決。