原標題:谷歌數據集搜索正式版出爐:全面升級,覆蓋2500萬數據集 來源:騰訊新聞
機器之心報道
參與:李澤南、一鳴
公開數據集往往存在于論文和網站數據庫中,想要找到它們需要花費一番功夫。除了機器之心 SOTA以外,搜索公開數據集的搜索引擎仍然比較少——除了谷歌的數據集搜索工具以外。
近日,谷歌宣布,它們的數據集搜索引擎不再是 beta 版了。這意味著該產品已經正式向用戶們開放使用。Jeff Dean 和谷歌官方都在推特上宣布了這一消息。
谷歌數據集搜索的 beta 版本早在 2018 年 9 月就上線了,該引擎面向「科學家、開發者、數據極客等人群」,一直以來都是人們尋找數據集的主要方式之一。
鏈接:datasetsearch.research.google/
谷歌表示,經過一年多的努力,數據集搜索功能的階段性測試已經完成。
如果你在數據集搜索上輸入「skiing」,會出現的結果:出現了從最快的滑雪運動員到滑雪地的收入數據集等不同類型。
正式版更新了什么?
谷歌從用戶在 Beta 版的使用中獲得了很多經驗。在正式版中,你可以根據所需的數據集類型(表格、圖片、文本等),或者數據集是否可以免費獲取等條件來進行搜索。如果數據集是關于某個地區的,你也可以通過地圖進行查找。另外,現在搜索也做了移動端的適配,并大幅改善了數據及描述的質量。任何數據集發布者都可以通過 schema.org 開放標準在自己的網站上進行規范性描述,以提高搜索結果的質量。
對于不同的學科來說,人們進行的搜索是完全不同的:科學家會尋找研究目標(如搜索催產素),學生會搜索包含自己作業主題的關鍵字,業務分析師和數據科學家會尋找移動 app 或快餐店銷售的數據……今天,所有這些內容都有數據集。
谷歌表示,目前人們在數據集搜索上查詢頻率最高的詞是「教育」、「天氣」、「癌癥」、「犯罪」、「足球」以及「狗」。
搜索「快餐店」出現的結果索引。
哪些數據集可以找到?
數據集搜索引擎可以提供數據集的快照信息,特別是有關地理信息、生物和農業方面的信息。很多信息都來自于 schema.org,只要網絡上存在的數據集符合 schema 的開放標準,搜索引擎就可以搜索到。
除了公開數據之外,數據集搜索引擎還包括了很多政府公開數據,包括美國政府超過兩百萬的數據集。絕大部分的公開數據都是以表格形式存儲的,可以很容易地下載并進行處理。
使用體驗
機器之心嘗試了這一數據集搜索工具。例如,我們在搜索欄里輸入了 CIFAR,搜索引擎很容易就提供了 CIFAR-10 和 CIFAR-100 兩個數據集的搜索結果,并附帶數據集全名、被引用數量、更新時間、提供者、下載方式、介紹和信息來源等。
如果我們不知道數據集叫什么名字,但是想看看有沒有某種數據的數據集呢?機器之心嘗試了一些不常用關鍵詞,如「Chinese Poem」(中國詩歌)。
搜索結果也還不錯,提供了相當多的數據集,包括數據集所在的論文等。
下一步計劃
項目團隊表示,他們會繼續優化數據集搜索這項產品,并歡迎用戶提出進一步改進建議。
參考鏈接:
blog.google/products/search/discovering-millions-datasets-web/
reddit/r/MachineLearning/comments/etdiz9/n_googles_dataset_search_is_out_of_beta/
本文為機器之心報道,轉載請聯系本公眾號獲得授權。
------------------------------------------------