1.特定キーワードのツイートを収集する
「PythonでtwitterのAPIを叩く」と息巻いて書いたのですが、
twitterのAPIの仕様変更が頻繁におこなわれるそうで、
その度にちまちまソースコードを変えるのも煩わしいので、
別の方法はないかと模索しておりました。
で、なんとCSVで検索結果を吐き出してくれる便利なWebサービスがあるみたいです。
「1500ったー」
こちらから、分析したい検索キーワードを引っ張ってきます。
2.ツイートを形態素解析する(MeCabで分解!)
まずMeCabをインストールする必要があります。
インストールする方法は色々とあるのですが、
MacPortsをインストールした上で、
MeCabをインストールするのが便利です。
下記のURLで、インストールの手順が網羅されているかと思われます。
流れは下記のとおりです。
#MeCabのインストール sudo port install mecab #形態素分析用の辞書のダウンロードとインストール #wgetがインストールされていない場合には、mecabと同様にportからインストールする必要があります。 wget http://iij.dl.sourceforge.jp/naist-jdic/53500/mecab-naist-jdic-0.6.3b-20111013.tar.gz tar zxf mecab-naist-jdic-0.6.3b-20111013.tar.gz cd mecab-naist-jdic-0.6.3b-20111013 ./configure --with-charset=utf8 make make install #形態素分析用の辞書の指定 #emacsが入っていない場合には、mecabと同様にportからインストールする必要があります。 cd /opt/local/etc sudo emacs mecabrc #emacsで開いた後に、 #dicdir = /usr/local/lib/mecab/dic/mecab-ipadicを #dicdir = /usr/local/lib/mecab/dic/mecab-naistに書き換え
※なにも分からずにコピペでやろうとすると、
支障をきたすおそれがあるので、
バックアップはしっかりとって調べながら作業してください!
支障をきたすおそれがあるので、
バックアップはしっかりとって調べながら作業してください!
2.日本語の形態素解析
ここまで正常にインストールが完了したら、準備万端です。
MeCabを起動して、日本語を入力すると、
形態素解析ができるようになるかと思わます。
〜その3へ続く〜
形態素解析ができるようになるかと思わます。
〜その3へ続く〜