確實(shí)是這樣,如果沒有數(shù)據(jù)的話,人工智能技術(shù)就是空中樓宇。不過幸好歐美一些科研機(jī)構(gòu)和政府組織,開放了一些高質(zhì)量的免費(fèi)數(shù)據(jù),接下來提供30個(gè)免費(fèi)的在線大數(shù)據(jù)來源:
1、 世界銀行開放數(shù)據(jù)(World Bank Open Data),是涵蓋了全球人口統(tǒng)計(jì)數(shù)據(jù)、大量經(jīng)濟(jì)和發(fā)展指標(biāo)的數(shù)據(jù)集。
2、 國際貨幣基金組織數(shù)據(jù)(IMF Data),國際貨幣基金組織公布的國際財(cái)務(wù)狀況、債務(wù)率、外匯儲(chǔ)備、商品價(jià)格和投資數(shù)據(jù)。
3、 美國國家教育統(tǒng)計(jì)中心(The US National Center for Education Statistics Data),提供了覆蓋美國和世界各地的教育機(jī)構(gòu)和教育人口統(tǒng)計(jì)的數(shù)據(jù)。
4、 英國數(shù)據(jù)中心(The UK Data Centre)是英國最大的社會(huì)、經(jīng)濟(jì)和人口的數(shù)據(jù)集。
5、 FiveThirtyEight,有大量提供政治和體育問題輿論數(shù)據(jù)的民意調(diào)查。
6、 FBI統(tǒng)一犯罪報(bào)告(FBI Uniform Crime Reporting),聯(lián)邦調(diào)查局負(fù)責(zé)編輯和出版國家犯罪統(tǒng)計(jì)數(shù)據(jù),并在國家、州和縣級(jí)提供免費(fèi)數(shù)據(jù)。
7、 美國司法局(Bureau of Justice),在這里你可以找到關(guān)于美國執(zhí)法機(jī)構(gòu)、監(jiān)獄、假釋和緩刑機(jī)構(gòu)及法院的數(shù)據(jù)。
8、 Qlick Data Market提供免費(fèi)包,可訪問涵蓋世界人口、貨幣、發(fā)展指標(biāo)和天氣數(shù)據(jù)的數(shù)據(jù)集。
9、 美國宇航局外行星存檔(NASA Exoplanet Archive)的公共數(shù)據(jù)集涵蓋了由美國宇航局空間探索任務(wù)收集的行星和恒星數(shù)據(jù)。
10、聯(lián)合國貿(mào)易數(shù)據(jù)庫(UN Comtrade Database Statistics)統(tǒng)計(jì)是由聯(lián)合國匯編并出版的資料,包括Comtrade Lab,展示了如何使用尖端分析和工具從數(shù)據(jù)中提取價(jià)值。
11、金融時(shí)報(bào)市場數(shù)據(jù)(Financial Times Market Data)是關(guān)于全球金融市場的最新信息,包括股票價(jià)格指數(shù)、商品和外匯。
12、谷歌趨勢(Google Trends)是檢查和分析全球互聯(lián)網(wǎng)上搜索活動(dòng)和趨勢新聞的數(shù)據(jù)。
13、Twitter,Twitter的優(yōu)勢在于大多數(shù)對(duì)話都是公開的,這意味著大量的數(shù)據(jù)可以通過其API獲得,誰正在談?wù)撌裁矗蔚?、何時(shí)以及為什么。
14、谷歌學(xué)術(shù)(Google Scholar)包括學(xué)術(shù)論文、期刊、書籍和法律判例法的文本內(nèi)容。
15、Instagram,與Twitter一樣,Instagram的帖子和對(duì)話默認(rèn)為公開,其API允許對(duì)喜歡、提及和商業(yè)細(xì)節(jié)進(jìn)行分析。
16、OpenCorporates是全球最大的企業(yè)開放數(shù)據(jù)庫。
17、Glassdoor API提供了有關(guān)職位空缺、候選人、薪水和員工滿意度的信息,可通過他們的開發(fā)者API獲得。
18、IMDB Datasets,是從網(wǎng)絡(luò)上最大的電影、電視和從業(yè)人員中獲得的多種格式數(shù)據(jù)集。
19、OpenLibrary Data Dumps是關(guān)于世界各地圖書館書籍目錄的數(shù)據(jù)集。
20、Labelled Faces in the Wild整理并標(biāo)記了13,000個(gè)人臉圖像,用于開發(fā)涉及面部識(shí)別的應(yīng)用。
21、Microsoft Marco是微軟的開放式機(jī)器學(xué)習(xí)數(shù)據(jù)集,用于閱讀理解和問題回答的培訓(xùn)系統(tǒng)。
22、機(jī)器學(xué)習(xí)數(shù)據(jù)集知識(shí)庫(Machine Learning Dataset Repository)由集合了由參與機(jī)器學(xué)習(xí)項(xiàng)目的數(shù)據(jù)科學(xué)家貢獻(xiàn)的開放數(shù)據(jù)集。
23、易趣市場數(shù)據(jù)洞察(eBay Market Data Insights)提供了來自eBay的數(shù)以百萬計(jì)的在線銷售和拍賣數(shù)據(jù)。
24、自然歷史博物館數(shù)據(jù)門戶(Natural History Museum Data Portal)提供了關(guān)于倫敦博物館藏品中近400萬個(gè)歷史標(biāo)本的信息,以及自然世界的科學(xué)錄音。
25、歐洲核子研究中心開放數(shù)據(jù)(CERN Open Data),歐洲核子研究中心開展的粒子物理實(shí)驗(yàn)提供了超過1PB的數(shù)據(jù)。
26、One Million Audio Cover Images數(shù)據(jù)集托管在上,涵蓋世界各地發(fā)布的音樂,用于圖像處理研究
27、Complete Public Reddit Comments Corpus,2007年至2015年期間在Reddit上發(fā)布的10多億份公共評(píng)論,用于訓(xùn)練語言算法。
28、Microsoft Azure Data Markets Free Datasets,提供了涵蓋從農(nóng)業(yè)到天氣所有內(nèi)容的免費(fèi)數(shù)據(jù)集。
29、Irish Electric Vehicle Charge Point Status收集了這個(gè)負(fù)責(zé)愛爾蘭共和國和北愛爾蘭電動(dòng)汽車充電站網(wǎng)絡(luò)數(shù)據(jù)機(jī)構(gòu)的數(shù)據(jù)。
30、LondonAir提供了來自倫敦各地的污染和空氣質(zhì)量數(shù)據(jù)。
聯(lián)系客服