韩国一级片在线播放,久久久久久久成人午夜精品福利,国产欧美久久久久久精品一区二区

kaggle是很多數(shù)據(jù)分析和機(jī)器學(xué)習(xí)初學(xué)者非常喜愛的數(shù)據(jù)科學(xué)競賽平臺(tái)。

這個(gè)平臺(tái)上有很多接近現(xiàn)實(shí)業(yè)務(wù)場景的數(shù)據(jù)集，非常適合練手。

今天向大家推薦一個(gè)下載kaggle數(shù)據(jù)集的小工具——kaggleAPI

配置好之后，可以寫個(gè)腳本，以后下載數(shù)據(jù)就方便多了。

安裝

pip install kaggle

安裝完畢之后執(zhí)行

kaggle compeitions list

然后就會(huì)報(bào)錯(cuò)，提示沒有kaggle.json文件，不用理他。
這一步主要是讓其運(yùn)行后生成配置文件夾，一般在C盤-用戶-用戶名下的.kaggle

配置

登錄kaggle官網(wǎng)

右上角頭像處點(diǎn)擊，選擇Account

進(jìn)去之后滾動(dòng)到最下面API處，選擇Create New API Token

然后就會(huì)自動(dòng)下載一個(gè)kaggle.json文件，另存到第一步那個(gè).kaggle文件夾

下載數(shù)據(jù)集

再執(zhí)行以下

kaggle compeitions list

可以看到近期的一些競賽，重點(diǎn)關(guān)注以下獎(jiǎng)金??

除了list，kaggle competitions 還有一些其他用法，不展開講了。

kaggle competitions {list, files, download, submit, submissions, leaderboard}

大家最關(guān)心的數(shù)據(jù)集下載

kaggle datasets{list,files,download,create,version,init,metadata,status}

比較常用的是：list（可用數(shù)據(jù)集列表）、files（數(shù)據(jù)文件）、download（下載）

kaggle datasets list

用法

usage: kaggle datasets list [-h] [--sort-by SORT_BY]
[--size SIZE] [--file-type FILE_TYPE] [--license LICENSE_NAME] 
[--tags TaG_IDS] [-s SEARCH] [-m] [--user USER] [-p PAGE] [-v]

這個(gè)里面還有2個(gè)常用的參數(shù)：-s 搜索，后面可以加關(guān)鍵詞；-p 展示多少行，默認(rèn)是20

kaggle datasets download

用法

usage: kaggle datasets download 
[-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
[-o] [-q][dataset]

更真實(shí)的用法

如果單純在cmd執(zhí)行個(gè)下載指令就大材小用了，我們還可以用kaggleAPI寫shell腳本完成更復(fù)雜的用法，比如：

#!/bin/sh
DATASET="noxmoon/chinese-official-daily-news-since-2016"
ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip"
DATA_FILE="chinese_news.csv"
DATA_DIR="data"
COL_NAME="headline"
LINES=3000
OUTPUT_FILE="headlines.txt"

if [ -d ${DATA_DIR} ]; then
  echo ${DATA_DIR}' exists, please remove it before running the script'
  exit 1
fi

echo "Creating dir"
mkdir -p ${DATA_DIR}
cd ${DATA_DIR}
kaggle datasets download -d ${DATASET}
unzip ${ARCHIVE_FILE}

echo "Deleting original dataset archive"
rm -f ${ARCHIVE_FILE}

echo "Extracting, cutting, shuffling data"
awk  -v col=$COL_NAME -F "\"*,\"*" '{print $COL_NAME}' $DATA_FILE | shuf -n 3000 > ${OUTPUT_FILE}

下載-解壓一氣呵成！

如有收獲，歡迎給個(gè)在看！轉(zhuǎn)發(fā)！

也可以加一下老胡的微信

圍觀朋友圈~~~

推薦閱讀

（點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀）

100天搞定機(jī)器學(xué)習(xí)|Day1-62 合集

所以，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別是什么？

墻裂建議收藏，100道Python練手題目

老鐵，三連支持一下，好嗎？↓↓↓

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

安裝

配置

下載數(shù)據(jù)集

更真實(shí)的用法