在今年《自然》雜志開(kāi)展的一項調查中,60% 的科學(xué)家表示自己經(jīng)常使用該項服務(wù)。日前,《自然》雜志對話(huà)谷歌學(xué)術(shù)共同創(chuàng )始人 Anurag Acharya,聊了聊谷歌學(xué)術(shù)的過(guò)去和未來(lái)。
問(wèn):你如何知道哪些文獻需要檢索?
答:“學(xué)術(shù)”是學(xué)術(shù)領(lǐng)域的其他人都認為是學(xué)術(shù)的東西,這聽(tīng)起來(lái)像是一個(gè)遞歸的定義,但確實(shí)是這樣的。我們通過(guò)爬蟲(chóng)抓取所有網(wǎng)頁(yè)。以一篇新發(fā)表的博客為例,我們會(huì )判斷它和其他學(xué)術(shù)文章存在何種聯(lián)系。如果很多人引用它,或者它引用了很多人的文章,那么它可能具有學(xué)術(shù)價(jià)值。這里面并沒(méi)有神奇的公式可以套用,只能從很多特性中尋找證據。
問(wèn):創(chuàng )建谷歌學(xué)術(shù)的想法從何而來(lái)?
答:我在 2000 年來(lái)到谷歌,之前則在加州大學(xué)圣芭芭拉分校從事學(xué)術(shù)工作。很明顯,假如繼續從事學(xué)術(shù)研究,我不可能產(chǎn)生比待在谷歌更大的影響 -- 使世界各地的人們都可以找到信息。因此,我放棄了學(xué)術(shù)道路,花了 4 年時(shí)間管理谷歌網(wǎng)頁(yè)檢索團隊。那是一段異常忙碌的日子,整個(gè)人可以說(shuō)是心力交瘁。
Alex Verstak(注:Acharya 在網(wǎng)頁(yè)檢索團隊的同事) 和我決定休假半年,并試圖利用這段時(shí)間讓學(xué)術(shù)文章的搜索變得更加方便快捷。當時(shí)的想法并不是創(chuàng )建谷歌學(xué)術(shù),而是想提高谷歌在用戶(hù)利用網(wǎng)頁(yè)搜索學(xué)術(shù)文章時(shí)的排名。不過(guò),隨之而來(lái)的問(wèn)題是如何判定搜索用戶(hù)的意圖:他們需要學(xué)術(shù)性的結果或者只是個(gè)門(mén)外漢? 我們據此建立了一個(gè)內部原型,谷歌學(xué)術(shù)變成了一種非常有用和重要的服務(wù)。
問(wèn):這個(gè)想法很快就取得了成功嗎?
答:很快就廣受歡迎。谷歌學(xué)術(shù)啟用后,使用量呈指數級增長(cháng)。一個(gè)重要的差別在于我們按照與用戶(hù)請求的相關(guān)性排列搜索結果,這是此前的學(xué)術(shù)性搜索服務(wù)無(wú)法做到的。它們采用的是倒序方式,即首先提供最新的結果。我們還通過(guò)爬蟲(chóng)抓取到研究論文的全部文本,盡管在一開(kāi)始并未將所有出版商的全部文本包括進(jìn)來(lái)。
問(wèn):花了很多年才說(shuō)服文獻出版社允許你們抓去全文,當時(shí)是不是感覺(jué)很困難?
答:這得考慮到十年前的情況,那時(shí)候網(wǎng)絡(luò )搜索還很輕量 -- 人們更愿意搜索 Britney Spears 的圖片而不是學(xué)術(shù)文獻。但我們知道有純粹的學(xué)術(shù)搜索請求,我們不得不說(shuō)服出版商,我們的服務(wù)會(huì )為他們帶來(lái)更多的流量。當然在谷歌學(xué)術(shù)搜索推出前我們就與他們有合作。
問(wèn):2012年,谷歌學(xué)術(shù)從谷歌主頁(yè)搜索選項的下拉式菜單中消失。你是否擔心谷歌學(xué)術(shù)的地位可能下降或者被砍掉?
答:不擔心。我們的團隊在不斷成長(cháng)中,從成立之初的兩個(gè)人發(fā)展到現在的 9 人。很多人或許會(huì )將谷歌學(xué)術(shù)從首頁(yè)菜單中的撤銷(xiāo)看成是一種降級,但事實(shí)并非如此。這些菜單鏈接是為了幫助用戶(hù)從主頁(yè)轉到其他服務(wù),因此會(huì )突出那些使用最多的轉換鏈接。如果用戶(hù)已經(jīng)知道如何啟動(dòng)谷歌學(xué)術(shù),他們就不需要那種轉換鏈接。就是這樣而已。
問(wèn):谷歌學(xué)術(shù)如何盈利?
答:谷歌學(xué)術(shù)到目前還未盈利。其實(shí),谷歌提供的很多服務(wù)都不賺錢(qián)。谷歌學(xué)術(shù)的首要定位是回饋學(xué)術(shù)界。我們之所以成功堅持到現在,就是因為在谷歌看來(lái),這項服務(wù)的花費并不高。就訪(fǎng)問(wèn)量來(lái)說(shuō),谷歌學(xué)術(shù)同很多谷歌服務(wù)相比很小,因此利用廣告盈利的機會(huì )相對較少。不過(guò),到目前為止我們還沒(méi)有盈利上的壓力。
問(wèn):谷歌學(xué)術(shù)每天的訪(fǎng)問(wèn)量是多少?這項服務(wù)能追蹤多少文獻?
答:我無(wú)法回答你,這是一個(gè)非常非常大的數字。對于追蹤文獻的數量也是這樣,除了 -- 自從我們推出谷歌學(xué)術(shù)后,這個(gè)數字增長(cháng)了一個(gè)數量級。很多人關(guān)心這些數字,但這真沒(méi)多大必要。我們關(guān)注的是用戶(hù)能否找到他們想要的文獻。若果文獻本身很少的話(huà),這些數字的確很重要,但我們顯然擁有足夠多的文獻。
問(wèn):谷歌學(xué)術(shù)已經(jīng)推出了額外的服務(wù):例如作者的資料頁(yè)和一個(gè)推薦引擎。這意味著(zhù)谷歌學(xué)術(shù)準備從一個(gè)搜索引擎轉向成為類(lèi)似文獻計量學(xué)的工具嗎?
答:既是,也不是。推出資料頁(yè)的目的還是在于幫助用戶(hù)找到他們需要的文獻。有時(shí)候你可能忘了文獻的標題,但你可能記得它的作者,這樣你就能找到相關(guān)文獻。你還能追蹤某個(gè)作者的文獻和工作,著(zhù)同樣是查找文獻的線(xiàn)索。當然資料頁(yè)還有別的用途,通過(guò)閱讀一個(gè)人的資料頁(yè),我們可以了解他的學(xué)術(shù)的演化歷程、他的學(xué)術(shù)伙伴們都有誰(shuí),甚至可以向他推薦一些他的領(lǐng)域中別的研究人員關(guān)注的主題。
問(wèn):你擔心這種把戲嗎 -- 造假的文獻通過(guò)被谷歌學(xué)術(shù)檢索增加引用量?
答:不擔心。是的,你可以添加你想要的任何文件。但是,一切都是可見(jiàn)的 -- 你的資料頁(yè)上列出的文獻,引用你文獻的文獻等等。如果發(fā)現你造假,世界上的任何人都能打電話(huà)給你,基本上是你的學(xué)術(shù)生涯就結束了。我們沒(méi)有看到垃圾郵件正是由于這個(gè)原因。我有很多的經(jīng)驗處理垃圾郵件,因為我曾經(jīng)為搜索部門(mén)工作。當人們都是匿名的,垃圾郵件會(huì )變得更容易。但如果我要建立的是我的公開(kāi)出版物的歷史,我會(huì )比較謹慎。
問(wèn):未來(lái)谷歌學(xué)術(shù)會(huì )有什么樣的改變?
答:我們非常擅長(cháng)幫助用戶(hù)找到他們要搜索的文章。不過(guò),下一步我們打算做的一件大事是幫助用戶(hù)找到他們需要但又不知如何搜索的文章。我們能否讓意外發(fā)現變得更加容易? 如何幫助每個(gè)人在無(wú)須翻閱上百篇論文導致一整天任何其他事都干不了的情況下,輕松掌握學(xué)術(shù)前沿?
我不知道我們將如何實(shí)現這個(gè)目標。盡管在這方面我們已經(jīng)做了一些初步努力如推出建議搜索引擎,但離想要的東西還相去甚遠。在向用戶(hù)推送不是其主動(dòng)搜索的信息時(shí),存在一個(gè)本質(zhì)性問(wèn)題:內容必須具有相關(guān)性,確保我們沒(méi)有浪費用戶(hù)時(shí)間,但又不能太相關(guān),因為用戶(hù)已經(jīng)知道這些文章。
問(wèn):怎么幫助用戶(hù)直接找到數據而不是文獻呢?
答:這是一個(gè)有趣的想法。在收費文獻里搜索數據是完全可行的。但當我們給用戶(hù)的搜索結果指向一個(gè)收費文獻時(shí),用戶(hù)只能看到摘要。對全文檢索而言,我們也是依靠提供摘要信息讓用戶(hù)評估某篇文獻對他們是否有用。我們還沒(méi)有針對數據搜索建立類(lèi)似文本搜索的模型。
問(wèn):許多人希望能通過(guò)谷歌學(xué)術(shù)開(kāi)放API,這樣他們可以自己寫(xiě)搜索的腳本或自動(dòng)獲取別人的資料頁(yè),在此之上提供更多的服務(wù)。這可行嗎?
答:我不能這么做。我們自己和出版商合作伙伴都不會(huì )喜歡這個(gè)想法。我們被允許掃描所有的文獻,而不是講這個(gè)信息分發(fā)出去。和出版商的合作非常重要,我們因此得以可以繼續構建一個(gè)對所有人免費的全面搜索服務(wù)。這是我們的初心,其他任何東西都是次要的。
問(wèn):下一個(gè)十年你還會(huì )為谷歌學(xué)術(shù)工作嗎?
答:首先我從來(lái)沒(méi)想到我竟然為谷歌學(xué)術(shù)忙活了十年!我妻子在我(為谷歌學(xué)術(shù))工作了 5 年、7 年的時(shí)候提醒過(guò)我(工作了這么久),而我現在還沒(méi)離開(kāi)。谷歌學(xué)術(shù)是我能想到我能做的最重要的事情,我們的工作使這個(gè)星球上最聰明的人更有效率。離開(kāi)谷歌學(xué)術(shù)是一個(gè)非常有吸引力的命題,而我無(wú)法預見(jiàn)它會(huì )很快很輕松地實(shí)現。
問(wèn):當你還是印度理工學(xué)院的學(xué)生時(shí),你是否想過(guò)要是有這么一個(gè)免費、有效的搜索引擎該多好?
答:(谷歌學(xué)術(shù)) 影響了我曾經(jīng)關(guān)注的問(wèn)題。舉例來(lái)說(shuō),當時(shí)沒(méi)有任何工具可以對只提供摘要的收費文獻進(jìn)行全文檢索。我認為這是需要被解決的問(wèn)題,因為對讀者來(lái)說(shuō),需要知道信息在哪兒。如果你知道一個(gè)關(guān)鍵的信息在一篇收費文獻里,你可以寫(xiě)信給作者。但在這一點(diǎn)上,谷歌學(xué)術(shù)有它自己的生命。
問(wèn):使用谷歌學(xué)術(shù)的用戶(hù)是否有必要擔心數據隱私問(wèn)題?
答:我們采用標準的谷歌數據收集政策,谷歌學(xué)術(shù)也不例外。我在谷歌的角色主要是負責谷歌學(xué)術(shù),所以不會(huì )談太多更寬泛的問(wèn)題。
相關(guān)閱讀