中文搜索之惑

簡體版請點擊這裡

Google中國自遷到香港之後,愈發顯得病態,幾個門下的服務在偉大的GFW封鎖下奄奄一息。從六月30日起,Google的搜索服務連續3天出現大面積被封鎖狀態。Google苦心停止Google.cn至Google香港的跳轉,不過是想挽救部分用戶罷了。如果真棄了大陸用戶,無疑便將光榮的加入 Twitter,facebook等輩,成為不存在的網站。

Google事件說白了是另一個飯否事件,兩起事件都因審查而起。而審查是互聯網的公敵。雖然很多國家都規定要對互聯網審查,但卻沒有一個十分明確的界限。大多審查針對的是兒童色情,卻有不少是藉著色情來干涉網絡沿路自由,最終演變成反對人權民主了。

幾乎所有的憲法中都要規定要言論自由。像台灣的民國憲法第十一,十二條寫到:“人民有言論、講學、著作及出版之自由;人民有秘密通訊之自由。”根據這條憲法,新聞審查,網絡審查和網絡監控都是屬於違憲。好在當年黨有眼光,不但把國民黨趕下台,還把國父一手創建的民國也一併端走了,這才使得今日能藉著保護言論自由而搞網絡審查。這在洋人們看來,根本就是自相矛盾之事。 也難怪人家百度一下子就能明白的潛規則,谷歌卻不能猜透之一二。

事實證明,中文搜索不同於一般的搜索,不能完全按著別人的套路來。

中文搜索最大的特點在於其搜索的不准確性。搜索引擎的根本目標為使用戶於最短的時間找到自己需要的網站或者信息,而搜索引擎的準確性其根本在於收錄網頁的能力。Google的爬蟲能追尋每個網頁的鏈接,幾乎覆蓋所有的網頁,搜索即快又準。 而國內的搜索由於網頁的收錄有限,許多國外網站沒有收錄,這就是為什麼中文搜索引擎在搜索英文時顯得頗為吃力。以百度為例,搜索全球瀏覽量第二的facebook,竟在前 10頁也都沒有找到其官網的鏈接。

而中文搜索的不准確性的另一個原因是自我審查和中文網頁的刪除。眾所周知,在百度等搜索站中搜索某些人名,會顯示“根據相關法律法規和政策,部分搜索結果未予顯示”。而搜索某些敏感事件,許多網頁鏈接已經不存在。

中文搜索的不准確性的第三個原因是人工操作搜索結果。Google的搜索結果是完全自動形成的,它會把最符合關鍵詞的結果放在最前,不加干涉。而中文搜索站存在著競價排名,同時往往把流量大的網頁放前面,而把含有原始信息的網頁放到後面去。這造成中文搜索很難找到一篇文章或新聞的最初來源,對學術性搜索一個毀滅性的打擊。

子曰:“可使民由之,不可使民知之。”基於搜索是獲取信息知識的門窗,固然是要在裡面做點點手腳的。於是我們看到一個個搜索功能被閹割:關鍵詞聯想,網頁快照,實時搜索。而當搜索正趨於web2.0化時,中文搜索仍是原地踏步,匍伏不前,這便是令人感嘆了。