2013年8月21日水曜日

無料でソーシャルリスニング(twitter)をする方法 その2

1.特定キーワードのツイートを収集する


「PythonでtwitterのAPIを叩く」と息巻いて書いたのですが、
twitterのAPIの仕様変更が頻繁におこなわれるそうで、
その度にちまちまソースコードを変えるのも煩わしいので、
別の方法はないかと模索しておりました。

で、なんとCSVで検索結果を吐き出してくれる便利なWebサービスがあるみたいです。

「1500ったー」

こちらから、分析したい検索キーワードを引っ張ってきます。

2.ツイートを形態素解析する(MeCabで分解!)

まずMeCabをインストールする必要があります。
インストールする方法は色々とあるのですが、
MacPortsをインストールした上で、
MeCabをインストールするのが便利です。

0.macportのインストール
下記のURLで、インストールの手順が網羅されているかと思われます。

1.MeCabのインストール
流れは下記のとおりです。
  
#MeCabのインストール
sudo port install mecab

#形態素分析用の辞書のダウンロードとインストール
#wgetがインストールされていない場合には、mecabと同様にportからインストールする必要があります。
wget http://iij.dl.sourceforge.jp/naist-jdic/53500/mecab-naist-jdic-0.6.3b-20111013.tar.gz
tar zxf mecab-naist-jdic-0.6.3b-20111013.tar.gz
cd mecab-naist-jdic-0.6.3b-20111013
./configure --with-charset=utf8
make
make install

#形態素分析用の辞書の指定
#emacsが入っていない場合には、mecabと同様にportからインストールする必要があります。
cd /opt/local/etc
sudo emacs mecabrc

#emacsで開いた後に、
#dicdir = /usr/local/lib/mecab/dic/mecab-ipadicを
#dicdir = /usr/local/lib/mecab/dic/mecab-naistに書き換え


※なにも分からずにコピペでやろうとすると、
 支障をきたすおそれがあるので、
 バックアップはしっかりとって調べながら作業してください!

2.日本語の形態素解析

ここまで正常にインストールが完了したら、準備万端です。
MeCabを起動して、日本語を入力すると、
形態素解析ができるようになるかと思わます。


〜その3へ続く〜

2013年8月8日木曜日

データクレンジングの方法 ~awkを使ったデータクレンジング~

以前、SQLとRでクレンジングをするやり方を記事にしました。

ただ、SQLとRも便利なんですが、
awkももっと便利だと気づいたので、メモを残したいと思います。

------
道はそれますが、

分析業務で一番時間をとられるのは、
データのクレンジングだったりするんですけど、
手法について整理された本てあまりないですよね?
システム環境とか、分析のゴールによって
クレンジングの仕方って変わるんで、
まとめるのが難しのが理由なのかもしれませんが。。

いろいろ調べて、「Bad Data」という洋書になんか
書かれているのではないかと思ってるんですけど、
洋書なんですよね。。 英語がんばろ。。

------

で、awkですが
こちらはプログラミング言語スクリプト言語です。
でも、VBAとかPythonよりも簡単につかえます。
なんたってもうエクセル関数を扱うノリでつかえます。
個人的には、Rよりもawkの方が実務向きなのではと思ってしまえます。


1.awkはどうやって使うの?

macを使っている方であれば、ターミナルを起動をすればすぐに使えます。

①ターミナルを起動
 Lanchpadのその他の中にあります。

②コマンドcdを使って、データが入っているディレクトリに移動 
 <コマンド例: cd data/criantA>

③コマンドawkを使って、ファイル「list.csv」の2列目だけのデータを取得       
 <コマンド例: awk '{BEGIN{FS = ","}{print $2}}' list.csv>

上記の3つの操作だけで、簡単にawkを試せてしまうのです。

※分からない方はbash(シェル)の勉強をおすすめします!
※Windosの方はgawkというものをダウンロードすれば使えるようです。

2.awkってなんなの?

データファイルの中身を一行ずつ処理してくれる、プログラミング言語スクリプト言語です。

http://antlers.cis.ibaraki.ac.jp/PROGRAM/CPROG/125.pdf

リンク先PDFの2P目が分かりやすいです。


3.awkの操作方法はどうやるの?

先ほどのように、ターミナルからコマンドを使って処理命令を出します。
具体的な命令の例については下記のURLがとても参考になります。

http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/awk/intro/awk-intro.pdf

※リンク先PDFの4P以降がわかりやすいです。

具体的な説明はリンクまかせになってしまいましたが。。
awkはとても便利ですよというお話をしたかったまでです。

エクセルでは扱えない大きなデータを処理するための
一歩として、確実に身に着けておきたい分析ツールのひとつだと思います!

2013年8月7日水曜日

無料でソーシャルリスニング(twitter)をする方法 その1

ソーシャルリスニングって、
お金をかけずにマーケティングできるので便利ですよね。
効果検証も頑張ってやろうと思っても、
キーワードを引っ張ってきて目でみてポジネガを仕分けるという人力になってしまいがち。

今回は、お金をかけずに
どうにか自動で仕分けできる方法はないかと検討してみたいと思います。

---
1.特定キーワードのツイートを収集する(PythonでtwitterのAPIを叩く!)
2.ツイートを形態素解析する(Mecabで分解!)
3.解析結果をクレンジング(awkでRに取り込める形に!)
4.特定キーワードと一緒にツイートされている言葉を確認する(Rのarulesを使ってグラフ化!)
---

今回の分析は、「特定キーワード」がどのようにつぶやかれていて、
どんな印象をもたれているかを分析することに重きをおいてますね。

やり方については、おいおい書いていきます。