2014年5月23日金曜日

データクレンジング(データクリーニング)について


データマイニングをする上で、
データクレンジングにかかる作業量は
全体の8割に達するそうです。

ということで、最近、読んだ文献
https://www.prometheusresearch.com/good-data-management-practices-for-data-analysis-tidy-data-part-2/

データクレンジングがなされたデータはTidy dataといって、
下記の3条件を満たすとのことです。


 1.Each variable forms a column
 2.Each observation forms a row
 3.Each data set contains information on only one observational unit of analysis
  (e.g., families, participants, participant visits)

で、上記文献を含め、色々な文献を見てみると、
データ分析の作業は下記のような流れに整理できるっぽいです。

input→tidy→(trasnform⇔model⇔visualize)→output

でもって、この作業に対応してるRのパッケージが、

reshape2
plyr(いまはdplyrも?)
ggplot2

とのことでした。
ちなみに、trasnformの考え方,split-apply-combineなんかは、
pythonの分析パッケージとかにも影響を与えていたりするんで、
R以外のソフトウェアでデータ分析をしている人にも話したい内容ですよね。