スポンサーリンク

daskでcsvファイの読み込みを高速化(datetime64型でindexの列を設定)

daskでcsvファイの読み込みを高速化してみました。
使ってみると、もっと早くdaskを使っていればと後悔。

まずはdaskをimportして、

read_csv().compute()で読み込みます。
このとき、pandasで指定できたindex_colは指定できないことに注意が必要です。

なので、date列をdatetime64型に変換して上書きします。

そして、date列をindexに設定します。

スポンサーリンク

サンプルコード

例えば、下記のin.txtがあったとします。

下記がサンプルコードになります。

下記が実行結果になります。

スポンサーリンク