放眼全球,如果用一句話來形容當(dāng)下消費(fèi)互聯(lián)網(wǎng)的大勢,「視頻吃掉世界」恐怕是再合適不過的話了。

7 月,在 Facebook 歷史性地突破 20 億月活用戶后,扎克伯格告訴分析師們,隨著用戶在 FB 上視頻內(nèi)容消費(fèi)的大幅增長,F(xiàn)B 會進(jìn)一步研發(fā)底層的視頻技術(shù),保證用戶在視頻消費(fèi)、視頻生產(chǎn)(上傳)上的優(yōu)秀體驗(yàn)。

中國地區(qū)用戶對于視頻內(nèi)容的需求也十分旺盛。在 QuestMobile 發(fā)布的《移動互聯(lián)網(wǎng)2017春季報(bào)告》中,包括在線視頻、網(wǎng)絡(luò)直播、短視頻等行業(yè),移動視頻的用戶月度總規(guī)模首次突破10億,同比增長36.5%。

1 

更進(jìn)一步的佐證來自 CNNIC 的第40次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至 2017 年6月,中國網(wǎng)絡(luò)視頻用戶規(guī)模達(dá)5.65億,較2016年底增加2026萬人,增長率為3.7%;網(wǎng)絡(luò)視頻用戶使用率為75.2%。

2 

在這樣的背景下,不管是 BAT 這樣的傳統(tǒng)流量大戶還是今日頭條此等的流量新貴,都在不遺余力地押注視頻。百度強(qiáng)化視頻在 Feed 流中的地位、騰訊領(lǐng)投快手、阿里旗下土豆全面轉(zhuǎn)型、今日頭條旗下抖音準(zhǔn)備出海……這些舉措會讓人產(chǎn)生一種視頻時(shí)代即將全面到來的產(chǎn)業(yè)錯覺。

誠然,如上文所言,「視頻正在吃掉世界」,但就像過往任何產(chǎn)業(yè)爆發(fā)點(diǎn)類似,在商業(yè)應(yīng)用落地的同時(shí),底層技術(shù)進(jìn)步的重要性不言而喻。以視頻行業(yè)的現(xiàn)狀來看,一方面是產(chǎn)業(yè)生態(tài)的瘋狂,另一方面則是在一些底層技術(shù)上的瓶頸,比如可用于視頻動作分析的技術(shù)并沒有得到有效的利用,這也讓圍繞視頻內(nèi)容的分類檢索、標(biāo)簽推薦變得非常困難,不僅影響到了視頻的展示效果,同時(shí)也制約了用戶的視頻消費(fèi)體驗(yàn),而這個(gè)行業(yè)痛點(diǎn),不是融資或推廣就能解決,它必須依靠技術(shù)上的突破。

類似的困難和挑戰(zhàn)還有不少,這也使得最近一系列圍繞視頻技術(shù)學(xué)術(shù)會議或競賽成為行業(yè)關(guān)注的焦點(diǎn)。比如在今年的 ActivityNet Challenge 上,幾篇圍繞視頻技術(shù)新突破的獲獎?wù)撐木蜑橐曨l行業(yè)未來發(fā)展路徑提供了靈感。

論文透露出的行業(yè)機(jī)會

ActivityNet Challenge是目前視頻動作分析領(lǐng)域影響力最大的競賽,包括 MSRA、CUHK、CMU、UTS 等眾多高校和科研機(jī)構(gòu)都會積極參與到比賽里。在今年的比賽里,有兩個(gè)新增的項(xiàng)目:「Kinetics」和「ActivityNet Captioning」兩個(gè)數(shù)據(jù)集。其中「Kinetics」是一項(xiàng)視頻行為分類比賽,有400個(gè)視頻動作類別,大約20萬訓(xùn)練語料,可謂 ActivityNet 最具看點(diǎn)的一項(xiàng)任務(wù)。

根據(jù) ActivityNet 最新公布的結(jié)果,今年「Kinetics 視頻行為分類比賽」冠軍被來自百度的 Genome 團(tuán)隊(duì)獲得,香港中文大學(xué)和來自德國的創(chuàng)業(yè)公司 TwentyBN 分列二三位。

按照慣例,ActivityNet 各項(xiàng)任務(wù)的冠軍都有機(jī)會在 CVPR 上展示自己的論文,因此,我們也有機(jī)會進(jìn)一步了解這支來自百度的技術(shù)團(tuán)隊(duì)如何思考新一代技術(shù),尤其是基于深度學(xué)習(xí)的人工智能之于視頻行業(yè)的意義。

論文網(wǎng)址在https://arxiv.org/abs/1708.03805,有時(shí)間的話建議下載下來細(xì)細(xì)研讀,沒有時(shí)間精力的話,可以直接看下面我們的解讀:

首先,視頻分類技術(shù)的根本,是要讓視頻成為像文本、圖片一樣的結(jié)構(gòu)化數(shù)據(jù)。過去很長一段時(shí)間里,互聯(lián)網(wǎng)上都是文本、圖像數(shù)據(jù),但最近幾年隨著移動網(wǎng)絡(luò)的普及以及智能手機(jī)性能的提升,視頻內(nèi)容已然「霸占」了移動互聯(lián)網(wǎng),然而對于很多開發(fā)者或視頻服務(wù)商來說,視頻內(nèi)容是一種典型的非結(jié)構(gòu)化數(shù)據(jù),它無法像文本、圖像那樣被自動檢索和有效利用,需要大量人力成本進(jìn)行手動查看、加標(biāo)簽以及審核,效率低下。

在百度 Genome 團(tuán)隊(duì)的這篇論文里,提出了一整套視頻分類的解決思路,通過對視頻內(nèi)容的智能分析和提取,它能夠自動提取視頻中的語音、文字、任務(wù)、物體等元素,從而自動輸出這些視頻的泛標(biāo)簽。這些提取的「泛標(biāo)簽」,事實(shí)上也讓視頻內(nèi)容變成了半結(jié)構(gòu)化的數(shù)據(jù)——它可以被簡單分類和檢索,對開發(fā)者或視頻服務(wù)商來說,已經(jīng)節(jié)約了前期人工處理的時(shí)間,從而大大提升了效率。

其次,視頻分類技術(shù)的應(yīng)用場景非常廣泛,不僅會解決視頻服務(wù)商的痛點(diǎn),還能在提升用戶體驗(yàn)上發(fā)揮作用。

舉個(gè)簡單的例子,基于深度學(xué)習(xí)的視頻分類技術(shù),可以讓視頻對比檢索變得非常簡單。很多用戶常常會有一種需求,即能否通過一張靜態(tài)圖像來搜索某個(gè)視頻,這與過往以文本搜索視頻的技術(shù)完全不同,它需要在靜態(tài)圖像上提取有效信息,并將這些信息與已經(jīng)半結(jié)構(gòu)化的視頻庫進(jìn)行對比,從而準(zhǔn)確并快速找到最符合條件的視頻。

另一方面,在視頻分類技術(shù)的幫助下,視頻服務(wù)商還能提供更多可定制化的應(yīng)用場景。比如在運(yùn)營層面,借助視頻對比檢索,可以快速查詢與其包含相同片段的短視頻,可以視頻去重和版權(quán)保護(hù);產(chǎn)品層面,當(dāng)視頻內(nèi)容變得像文本、圖片一樣可方便檢索的時(shí)候,可否打造一個(gè)適配視頻內(nèi)容的搜索引擎?又或者,由于視頻服務(wù)商具備了理解不同視頻的能力,在構(gòu)建新一代視頻推薦產(chǎn)品中,是否也具備了先發(fā)優(yōu)勢呢?

誰的機(jī)會?

一個(gè)有趣的細(xì)節(jié)是,這支 Genome 團(tuán)隊(duì),在今年 2 月的 YouTube-8M 大規(guī)模視頻理解競賽中也進(jìn)入三甲。Youtube-8M數(shù)據(jù)集由谷歌今年2月在Kaggle平臺發(fā)起,擁有約800萬的已標(biāo)注視頻,是目前全球規(guī)模最大的視頻數(shù)據(jù)集之一。考慮到 Genome 團(tuán)隊(duì)出自百度深度學(xué)習(xí)實(shí)驗(yàn)室,此次該團(tuán)隊(duì)更進(jìn)一步獲得第一,也讓外界對于這些技術(shù)是否會融入百度產(chǎn)品體系,尤其是 Feed 流產(chǎn)品,充滿了好奇。

最新一季百度財(cái)報(bào)里,來自 Feed 流的日活用戶數(shù)量突破 1 億,收入也從一季度每天 1000 萬提升到了 3000 萬,這些數(shù)字的變化彰顯出百度在流量入口的強(qiáng)大控制力,同時(shí)也得力于基于海量數(shù)據(jù)、深度學(xué)習(xí)算法結(jié)合后所帶來的神奇效果,在保證用戶體驗(yàn)的前提下,讓 Feed 流成為資訊、廣告的重要載體。

這種基于內(nèi)容分發(fā)的 Feed 流模式也被 Google 所效仿,在其最新的 Google 手機(jī)搜索客戶端里,也加入了類似的產(chǎn)品形式。

縱觀百度的 Feed 流產(chǎn)品設(shè)計(jì),產(chǎn)品入口層面,不管是手機(jī)百度、貼吧還是手機(jī)瀏覽器,視頻、短視頻都有單獨(dú)的入口;技術(shù)層面,視頻分類技術(shù)所展現(xiàn)的巨大潛力,借助百度在用戶畫像的積累,不僅能夠?qū)崿F(xiàn)新用戶的冷啟動,還能不斷提升老用戶的視頻內(nèi)容消費(fèi)體驗(yàn)。更重要的一點(diǎn)則是,視頻分類技術(shù)所帶來的產(chǎn)品運(yùn)營方式方法的變化,或?qū)⒔o視頻內(nèi)容的上游產(chǎn)生諸多影響,比如,能否根據(jù)特定用戶畫像實(shí)現(xiàn)真正意義上的特定視頻推薦?也真正實(shí)現(xiàn)所謂「千人千面」的定制化 Feed 流產(chǎn)品。

事實(shí)上,將這些產(chǎn)品設(shè)計(jì)和底層技術(shù)的討論放在全民視頻消費(fèi)井噴的行業(yè)背景下,更具現(xiàn)實(shí)意義。在這一波依然以移動設(shè)備為主體的內(nèi)容消費(fèi)浪潮里,F(xiàn)eed 流或類 Feed 流已成行業(yè)共識,而得視頻者也才有可能得天下。這或許也是百度、Google 這些巨頭的機(jī)會,他們各自在用戶畫像和知識圖譜上擁有豐富積累,并且擁有中美互聯(lián)網(wǎng)流量入口的權(quán)力,未來兩家公司在 Feed 流,尤其是以視頻內(nèi)容為主導(dǎo)的 Feed 流產(chǎn)品和技術(shù)演進(jìn)格局,也將進(jìn)一步左右行業(yè)發(fā)展的方向。

寫在最后

不過,與文本、圖像相對成熟的技術(shù)、產(chǎn)業(yè)生態(tài)相比,視頻內(nèi)容還無法真正實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化存儲,這也使得某些應(yīng)用場景還處在相對初級的階段。另一方面,當(dāng) Facebook 的 News Feed 不斷鼓勵用戶生產(chǎn)、消費(fèi)視頻內(nèi)容,當(dāng)短視頻、直播類的產(chǎn)品一個(gè)個(gè)突破活躍用戶極限,整個(gè)互聯(lián)網(wǎng)已然處在視頻爆發(fā)的前夜,這既是全行業(yè)的機(jī)會,更是屬于掌握「核心技術(shù)」者的機(jī)會。

某種意義上,視頻行業(yè)的競爭早已不局限在簡單的內(nèi)容、生態(tài)競爭,而是底層技術(shù),尤其是人工智能領(lǐng)域的競爭,即包括數(shù)據(jù),也包括算法,更是人才和戰(zhàn)略的競爭。從這個(gè)角度去看,早已將人工智能放入公司發(fā)展戰(zhàn)略的 Google、FB、百度已經(jīng)擁有不小的優(yōu)勢。

當(dāng)百度上月通過一場開發(fā)者大會展現(xiàn)出了轉(zhuǎn)型人工智能決心后,整個(gè)公司的產(chǎn)品線都在圍繞人工智能進(jìn)行重構(gòu)。在 Feed 流的未來場景里,基于深度學(xué)習(xí)的視頻技術(shù),比如視頻分類技術(shù)所帶來的化學(xué)反應(yīng)——不管是利用視頻分類催生的新業(yè)務(wù)模式還是視頻技術(shù)進(jìn)步帶來的用戶體驗(yàn)上升,這一切或?qū)⒆尠俣仍?Feed 流產(chǎn)品的未來格局中占據(jù)重要位置。