2018年5月8日火曜日

データサイエンスの勉強に使える無料のデータ

データ分析の実践をする上で欠かせないのがデータ。社会人の人は会社のデータを使えばいいですが学生だと自分でデータ用意するのは難しいですよね。他のデータも扱って色々とやってみたいと思いますよね。kaggleに参加するのも手ですが、初心者はハードルが高いです。

そこで、気軽に勉強できるサンプルのデータをご紹介します。

自然科学系データ

■気象庁 過去の気象データ

→ 気温や降水量など季節性がはっきりしているので、ARIMAとかカルマンフィルターのモデルを作るのに適したデータになっています。


マーケティング系データ

■KSPーSP 食品スーパー新商品売れ筋ランキング

→ 週次のPOSの売上ランキングが掲載されています。毎週のランキングをつなげ合わせることで、特定商品の売上をトラッキングすることもできます。
なお、CSVでの提供はないようなので、自分でHTMLファイルを加工してデータを作成する必要があります。


経済系データ

■セントラル短信 FXデータ

→ 各種類の通貨ペアの日足、週足、月足のデータが掲載されています。単純な値動きでけでなく、移動平均やボラティリティなどでk-meansなどでセグメントをし、各セグメントの特徴を抽出するなどの練習ができると思います。


【サンプルデータ付きの本を購入するのも手】