2018年5月8日火曜日

データサイエンスの勉強に使える無料のデータ

データ分析の実践をする上で欠かせないのがデータ。社会人の人は会社のデータを使えばいいですが学生だと自分でデータ用意するのは難しいですよね。他のデータも扱って色々とやってみたいと思いますよね。kaggleに参加するのも手ですが、初心者はハードルが高いです。

そこで、気軽に勉強できるサンプルのデータをご紹介します。

自然科学系データ

■気象庁 過去の気象データ

→ 気温や降水量など季節性がはっきりしているので、ARIMAとかカルマンフィルターのモデルを作るのに適したデータになっています。


マーケティング系データ

■KSPーSP 食品スーパー新商品売れ筋ランキング

→ 週次のPOSの売上ランキングが掲載されています。毎週のランキングをつなげ合わせることで、特定商品の売上をトラッキングすることもできます。
なお、CSVでの提供はないようなので、自分でHTMLファイルを加工してデータを作成する必要があります。


経済系データ

■セントラル短信 FXデータ

→ 各種類の通貨ペアの日足、週足、月足のデータが掲載されています。単純な値動きでけでなく、移動平均やボラティリティなどでk-meansなどでセグメントをし、各セグメントの特徴を抽出するなどの練習ができると思います。


【サンプルデータ付きの本を購入するのも手】

2018年5月7日月曜日

データ分析で使えるエクセルの機能と関数のまとめ

エクセルの関数は星の数ほどありますが、便利な関数だけ覚えておけば大丈夫です。
では、データ分析でよく使えるエクセルの機能や関数はどういったものがあるでしょうか?


■フィルタ

「フィルタ」を使うと簡単便利にデータを絞り込むことができます。
メニューからデータ→フィルタをクリックすればできますが、
ショートカットキーを覚えて置くと便利です。
ショートカットはAltボタンを押しながら、D+F+F(Fボタン2回)です。

■マージ

以前の記事でも紹介しましたが、Vlookup関数はエクセルで分析をする上で必要不可欠な関数です。必ず覚えたい関数ですね。

■トランスフォーム(数値変換)

日付を操作する関数

  • year(日付)    → 年だけ
  • month(日付) → 月だけ
  • day(日付)   → 日だけ
 日付から、年だけ、月だけ、日だけを取り出す関数です。特にmonth関数は月次の数値を計算するときのキーを作るときによく使う関数です。

さらに
  • weekday(日付) → 曜日に変換
  • weeknum(日付) → その年の何番目の週か?(週数)
曜日別や週次の推移を計算する際にはこうした関数も覚えて置くと便利です。

文字列操作する関数

  • left(文字列 , 文字数) → 指定した文字列のから指定した文字数だけ抽出
  • right(文字列 , 文字数)   → 指定した文字列のから指定した文字数だけ抽出
  • ASC(文字列) → 全角カタカナを半角カタカナに変換
アンケートデータに入っているフリーアンサー情報などを加工する際によくつかう関数です。

異常値を操作する関数

  • IF関数
  • IFERROR関数
少し高度なデータ操作をする場合には、IF関数も理解する必要があります。IF関数は覚えなくてもデータの加工はできるので、「効率的にエクセルの関数を組めるようになりたい!」と感じるようになってから勉強すればいいと思います。


【参考になる本】