2013年6月27日木曜日

安く、それなりのWebサイトを構築するには?

過去の記事でGAEでWebサイトを作ると宣言したのですが、
勢いでWebサイトを作るのはよくないと思い、
改めてシステムまわりについて調べてみました。

■Webサイトつくるまでのステップ

そもそもWebサイトはどうやってつくるかをお話すると、
ステップはざっくり3つあるかと思ってます。

・どんなWebサイトにするか頭を使って考えて、
・実際に手を動かしてWebサイトを作って、
・アップして、メンテナンスをする。

詳しくはキノトロープさんのサイトに記載されております。
http://www.kinotrope.co.jp/method/workflow/index.html



--引用
Phase0 与件整理
Phase1 現状把握
Phase2 目標の明確化
Phase3 ユーザー体験シナリオ
Phase4 戦略の策定
Phase5 戦術策定
Phase6 コンテンツ製作
Phase7 サイト設計
Phase8 システム設計
Phase9 開発・制作・テスト
Phase10 データ投入
Phase11 PDCAサイクル
--引用、ここまで

今回の記事は「Phase8 システム設計」が該当するかと思われます。

一般的なサイトでは、
サーバや回線の選定、セキュリティ周りをどうするかという
話が「Phase8 システム設計」で出てきます。

ただ、自分がこれから作成しようとしているサイトは、
大掛かりなサイトではないので、
「どのシステムにWebサイトを格納するか?」を考えれば十分です。


■システム要件

今回、自分がつくるサイトは
以下の3点が満たされるシステムであればいいなあと思っています。

・あまりお金がかからない(月500円以内)
・データの管理がしっかりしている(データが突然きえない)
・情報が豊富にある(調べる材料が豊富にある)

■システムの選定

いろいろと調べた結果、以下の3つに絞りました。

①tumbler
②Google App Engine
③格安のレンタルサーバー


①tumbler
SNSで、ブログもできて、写真も掲載できて、
しかもカスタマイズもできてというメリットがあります。
そして、既に企業も使っていたりして、実例も豊富です。

ただし、
コーポレートサイト調の見栄えにするには、
カスタマイズする必要があるようです。

カスタマイズされたtumblerのサイトの作りを調べてみたのですが、
画像などの素材系は別のところから引っ張ってきているのが多いみたいです。
結局、tumblerでそれなりのWebサイトをつくるには

別途、画像などの素材を格納する場所の確保
(すなわち、独自ないしレンタルサーバの確保。最悪dropboxでもいけるかも。。)

が必要になってくるかと思われます。

②Google App Engine

Webサイトだけのために使うにはもったいない気もしますが、
お金をかけずにgoogleの設備を使えてしまうのが魅力ですね。

そして、CMSを載せられるようなので、
メンテナンスもtumblerにひけをとらないくらい楽かと。
ただ、CMSをつかうにはgoogle cloud SQLを使う必要があるみたいですし、有料です。
従量課金で、最低1ドルくらいから使えるらしいのですが、
どれくらい費用がかかるかは、やってみないとわからないですね。。

※google siteは今回スルーしています。

③格安のレンタルサーバー
100円くらいから使えるようですね。
CMSも付けられるし、サポートもしっかりしているし、
入門にはこのあたりがいいのかもしれません。

■システムの比較
上記の3つを簡単に比較してみました。

①tumbler ②GAE ③レンタルサーバー

-----
・金額
①無料
②1ドル~  (変動)※固定もあるみたいです。
③100円~  (固定)

・拡張性
①高い
②とても高い
③とても高い

※今回は対象としていないのですが、
 買い物ができるサイト(ECサイト)を
 tumblerに設置することはできないかと思われます。(たぶん)

・サポート体制
①メールでの問い合わせが可能
②なし
③メールと電話での問い合わせが可能

----

というとこで、
結局なににしようかな。。。


2013年6月26日水曜日

屋号を決める

Webサイトを作成するにあたって、ドメインの取得のためにも
屋号を決めたいと考えています。

屋号を決める上で、どうしても守らなければならない制限は次の2点でした。

---

①既に登録されている商標権と重複しないこと。

②個人事業主の屋号の場合は
 会社(法人)と誤解されるような言葉を使えない。

---

屋号を聞いて何をやっているのかが分かるようにする等の作法もあるようですが、
あまり本質的ではないなあと個人的には思っています。

にしても、
屋号はずっと使うものでかつ、運命を決める名前であると考えるとなかなか難しい問題ですね。。。

2013年6月25日火曜日

重回帰分析をする上で気をつけたいこと

重回帰分析は最も使われている多変量解析の一つであり、
業務でも使用する機会は多々あるかと思います。
そこで重回帰モデルを構築する上で、統計の本には掲載されていない
大事なポイントについて記載したいと思います。


■一般的な重回帰式の作成ステップ

重回帰モデルを作るときは、
主に4つのステップで行われることが
多いのではないかと考えています。

---
①良さげな説明変数をチョイス
②相関分析でマルチコの確認
③ステップワイズ法で重回帰式の作成
④自由度調整済み決定係数などで評価
---


■一般的な重回帰式作成上の問題点

ただし、この方法では確かに理論上で
最適なモデルを得られるのですが、
アクションにつながるモデルを得られるかどうかは
運任せになってしまう傾向があります。


■アクションにつながるモデルって?

そもそもモデルの評価を行うときには
主に下記の2点があるかと思います。

・実績値と理論値(決定係数)が当てはまりの良いものがいい
・説明変数の数(自由度)が少ない方がいい

これに加えて、実務ではモデルを評価する視点はもうひとつあります

・コントロール出来る指標であるかどうか
 (内部要因か、外部要因か)

例えば、需要予測をするときに、
GDPの伸び率などの経済指標が
説明変数としてよく当てはまりますが、
どんなに大きな企業であっても
コントロールできる指標ではありません。

広告出稿費など、自らコントロールできる
指標が入っていなければ、
予測値を向上させるための施策を検討する
ことが難しくなってきます。

■アクションにつながるモデルをつくるには?


ステップワイズ法などでモデルの目星をつけた後に
総当り法でモデルを抽出します。

説明変数が10個程度に絞ることができれば、
高々1024個程度のモデルの算出で終わりますし、
総当り法を実施できるツールをWEBに公開してくださる方々がいらっしゃるので
エクセルでも、Rでも総当り法をすることは簡単です。

総当り法でモデルをリスト化し、
「自由度調整済み決定係数」「指標のコントロール可否」
で絞り込みを行えば採用できそうなモデルはすぐに2、3個のモデルにしぼり込めると思います。


コントロールできる指標を入って、しかも、当てはまりのいいモデルを作るというのは
実際に重回帰モデルの構築する業務においては難しいかと思いますが、
こうした視点をもって、アクションにつなげるモデルを構築する努力することが
大切だと思っています



2013年6月24日月曜日

Rの勉強会資料

先日、Rの勉強会を行なってきました。 すでにエクセルなどで統計業務を行なっていたりする方にとっては、 理解しやすい内容にしたつもりです。 

※ご意見、ご指摘ありましたら@hrfm_yまでいただけましたら嬉しいです!


 

2013年6月19日水曜日

分析環境を整える


Windowsで作業を進めていた自分としては、
分析環境を整えようとしてもPCの操作から学ばなくては
なりませんでした。。

ここでは、
分析環境を整えるまでの道のりについて記したいと思います。
なお、本記事はMacで整える場合を対象にしています。

■ターミナルに慣れる
まず、ターミナルの操作を覚えるところから始まりました。
ターミナルはMacなどUnixベースのOSに必ずついているアプリです。
コマンドベースで、PCを自由自在に操作できます。(慣れればの話)

ターミナルでは、
主に”シェル”とよばれるOSと利用者とを仲介するシステムを使用します。

※参考書籍
Fedora Coreビギナーズバイブル
http://www.amazon.co.jp/%E6%9C%AC/dp/483991365X


■MacPortsを入れる
データを処理する上で様々なアプリが必要となります。
その手間を省くことができるツールが、MacPortsです。
アップデートやインストールなどの管理を一挙に引き受けてくれます。

■インストールを行う
とりあえず分析をするのに必要な
MySQL、R、PythonをMacPortsを使ってインストールしました。

なお、Pythonのバージョンは2.7を入れています。
(現在、3への移行が進んでいるのでこれからPythonを勉強される方は
 3から学ぶといいかもしれません。)

※参考書籍

はじめてのSQL
http://www.amazon.co.jp/%E5%88%9D%E3%82%81%E3%81%A6%E3%81%AESQL-Alan-Beaulieu/dp/4873112818/

Pythonチュートリアル
http://www.amazon.co.jp/Python%E3%83%81%E3%83%A5%E3%83%BC%E3%83%88%E3%83%AA%E3%82%A2%E3%83%AB-%E7%AC%AC2%E7%89%88-Guido-van-Rossum/dp/487311442X/

2013年6月17日月曜日

エクセルでできる広告予算の最適化を考える     その1

■背景

ここでいう広告は主にWEB広告です。
近頃では単にWEB広告といっても様々な形態やメディアがあり、
その配分を考えるだけでも大変な労力になります。

■問題

前にいた会社では、まれに「広告の予算を最適化して欲しい」との
依頼を受けていました。

仕事に手を付ける前に、まずは調査と、
【広告 予算 最適化】とググってみても、
イグニッションワンなどのツール類がでてくるだけで、
中々情報を得られないという苦労をしました。
※甘い考えですみません。。。

そこで仕方なくモデルをつくり、
エクセルのソルバーを使って試行錯誤してみました。
しかし、最も効率の良いメディアに一点張りするのが最適という
結論しか導き出せなかった経験があります。

単純にCVRだけで予算配分することを考えてしまうと、
最もCVRが高いメディアのみに予算を配分することが理想となります。
しかし、実際問題はそうはいかないものです。

■解決策への糸口をつかむ

この問題を根本から考えてみました。

まずゴールから考えます。
そもそも理想的な広告の出稿条件は下記の2点に絞られます。
・できるだけ多くのCVを獲得する
・できるだけ安く広告を出稿する

この条件だけだと、
・出稿期間内のCV数が多いメディア
・出稿期間内のCPAが良いメディア
に偏ってしまい、結局、
最も効率の良いメディアに一点張りという
結論になってしまいがちになってしまいます。

ここで、思考が停止したのですが、発想を変えました。

---

同じ予算管理で最適化が行われている分野は金融工学。
具体的にはポートフォリオ最適化の話を広告に置き換えることはできないか?

大学院時代に受けた金融工学の内容を思い出しました。
確か大事なのはポートフォリフォリオの、

・平均 (収益)
・分散 (ボラティリティ)

だったかと、、これを広告に置き換えると、

・平均 (CV)
・分散 (日々のCV獲得安定性)

になるのではないかと。

すなわち、広告の理想的な運用方法を
・できるだけ多くのCVを獲得する
・できるだけ安く広告を出稿する
・できるだけ安定的にCVを獲得できる広告に出稿する<追加>

とすると最適化の問題に帰着させることができ、
エクセルでも解けてしまうのではないかと思ったりしました。

~つづく~
その2へ

2013年6月14日金曜日

マーケティング業務で活躍する分析方法の使い方

業務でよく使われる分析手法について星取表で、まとめてみました。


サポートベクターマシン(SVM)なんかは、あまりレポートなんかでは使われたところを
見たことがないのですが、今後は使われる場面が増えるのではないかと思っております。

クラスターは、
「海のものか、山のものかわかんないので、データが似ているもの同士で分けてみよう!」
という考え方で、グループ分けをする分析手法です。

対して、SVMは、
「過去に集めたデータは、海のものか山のものかわかるけど、あたらしく拾ってきたデータは、どっちなんだろう?」という時に使える分析手法です。
巷で話題の機械学習という本に頻繁に出てくる分析手法でもあります。
分別がついている既存のデータで機械に学習させ、
学習によって作られたモデルをもとに、新しいデータを分別します。

例えばSVMをCRMに応用すると、

1.既存顧客のデータを用いて、優良と休眠にフラグをつける<人間がやる>
2.顧客の属性情報をもとに学習させる<機械がやる>
3.以後、新規顧客を獲得した時点で、属性情報から優良か、将来休眠するのかを判別する
<機械がやる>
4.優良と判定された顧客に対して積極的にアプローチをかける<人間か機械がやる>

みたいなことができるわけです。

<130924追加>
因子分析とクラスター分析のやり方の記事を掲載しました。

2013年6月12日水曜日

WEBコンテンツの検討<事業領域編>

ぼんやりと
サイトの構成を検討しています。
業務領域はどういった説明にしようか、
どこまでやると宣言するか。

似ている業務をされている方はどんな説明をなされているのか。

以下、メモ程度で、
コンテンツにしたい項目を考えてみました。

データ分析をやったことない人には難しい表現だな。。。

-------------------------------------------
事業領域は、
主にデータドリブンのPDCAを効果的に回すための
マーケティング活動のサポート全般をさせて頂きます。
 ①KPIの策定
 ②効果的なデータの収集方法の検討
 ③データ分析
 ④施策の検討と報告書作成


例えば、下記の3点の領域が得意ですが、
どんな案件にも柔軟に対応いたしますので、
お気軽にご相談ください。

○データアナリティクス関連
 ・需要予測モデルの作成
 ・インターネットアンケートの調査票作成、集計
 ・大規模データ(購買行動データ、SNSデータ・・・)の解析 

○WEBサイト関連
 ・google analyticsの導入
 ・サイト運用効果の最大化に向けての計画立案(KPIの策定)
 ・サイト、及び広告効果の効果検証

○システム関連
 ・日常業務集計業務の自動化
 ・需要予測計算の自動化
 ・アンケートデータ収集システムの構築


2013年6月8日土曜日

目的別の解析方法一覧

目的に応じて、解析手法の使い分けが記載されていた本を
見たことがないと言っていましたが、
なんと、その2日後に使い分け方が記載された本を発見したのでご紹介します。

本の内容と僕の経験をもとに、
目的別の解析手法を整理しています。

①観測されている複数の項目をもとに、ある項目を予測したい
 回帰分析
 判別分析
 時系列分析
 ニューラルネットワーク

②観測されている複数の項目をもとに、代表的な総合的指標を求めたい

  回帰分析
 主成分分析
 因子分析

③観測されている複数の項目を、特徴別に分類したい

  クラスター分析
 サポートベクターマシン(SVM)

④項目間の複雑な関係の構造を知りたい

  重回帰分析
 因子分析
 決定木
 AHP
 共分散構造分析


※文献「多変量統計解析法」を参考にしていますが、
 一部解析手法を追加したりしています。

※星取表で解析方法をここでまとめています。


2013年6月6日木曜日

いろんな解析手法

昨日、データ分析関連で大変お世話になっている方とお食事をした中での話題です。
お食事した方は、データアナリストをされていらっしゃいます。
「よくお客さんから、解析手法の使い分け方を知りたいと言われる。」
という話をうかがいました。

たしかに、解析手法を紹介する本では、
方法だけの紹介のみにとどまっているケースが多く、
”出したい結果を導くために、どんな解析手法を適用したらいいか”
がわかりやすくまとめている本に出会ったことがないです。

しかし、解析手法を適用する上で決まりは無いので、
目的やデータの制約に応じて解析手法を適用しますが、
それぞれ得意不得意とかがあると思うので、
解析手法別に整理してみたいと思いました。

というわけで、
わかりやすく解析方法を説明しているものが
あればと思いながらスライドシェアを中心に調べ、
各リンク先をまとめました。

~ つづく ~

--------------------------------------------------

重回帰分析(数量化Ⅰ類)
http://www.slideshare.net/yokkuns/tokyo-r12-r

判別分析(数量化Ⅱ類)
http://www.slideshare.net/langstat/nagoyar3discriminant

主成分分析(数量化Ⅲ類)
http://www.slideshare.net/sanoche16/tokyor31-22291701

因子分析(数量化Ⅲ類)
http://www2.rikkyo.ac.jp/web/murase/07factor.pdf



クラスター分析
http://www.slideshare.net/hamadakoichi/r-3754836
AHP
http://www.slideshare.net/soultoru/rahp
決定木
http://www.slideshare.net/takemikami/r13-9821987
http://www5.atpages.jp/kera/up/log/20.pdf


アソシエーション分析
http://www.slideshare.net/hamadakoichi/r-r-4219052


ベイジアンネットワーク
http://www.slideshare.net/aistmotomura/ss-14821827
http://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2006/BN/BN-shinnou.pdf

ニューラルネットワーク
http://www.slideshare.net/Prunus1350/4-47
http://www.slideshare.net/rinrin1981/ss-5290500

サポートベクターマシン
http://www.slideshare.net/mknh1122/svm-13623887
http://www.slideshare.net/ShinyaShimizu/ss-11623505



コンジョイント分析
http://www.slideshare.net/bob3/r-19234607


時系列分析
http://www.slideshare.net/hamadakoichi/r-3836773


テキスト分析(形態素解析)
http://www.slideshare.net/JunOhtani/lucene-gosen-solr7

2013年6月5日水曜日

自社WEBサイトの構築にむけて

データ解析のために勉強し始めたPythonですが、

Webサイトの構築なんかにも親和性が良いので、

興味本位でgoogle app engine(略してGAE)も勉強してみました。

GAEはWebアプリケーションを構築する環境としてはかなり簡単でした。

Apacheなどのサーバ周りの知識を必要としないので、

スタートガイドに記載されている方法通りに進めば

Python初学者の僕でもすぐにWebアプリケーションを動かせました。

このあたりを勉強しつつ、

コンテンツ案も考えていないのですが

手探りで、自分の会社のWEBサイトをつくりたいと思います。

2013年6月4日火曜日

分析環境の準備

今の分析環境の紹介とそうなった経緯を記します。

会社員だった頃の環境


・データ整理⇒Excel
・アンケートデータ集計⇒Quick-CROSS(Excel)
・大きいデータ⇒SPSSかSAS

という具合でツールを分けていましたが、
アンケートを発注しないと使えないQuick-CROSSや
費用のかかるSASやSPSSは買えないので、
RとPythonを選ぶことにしました。

今の環境


■OS
10.8 Mountain Lion / mac OS X

■解析ツール
・Excel
・R
・Python

※RとPythonの導入について
MacPortsというツールを使って導入しています。
ソフトウェアの管理ツールで、
インストールやアップデートの作業が楽になります。
なお、MacPortsの導入にはXcodeが必要です。

Pythonをデータ解析ツールとして選んだ理由

Rはオンメモリ処理のため、
大きなデータを扱うには、それ相応のメモリを積んだ端末が必要となってきます。
それ相応の端末を揃えるお金もないので、
大きなデータはPythonで分析することにしましました。

大きなデータを扱う以外に、Pythonを選んだ理由は下記の通りです。

・Pythonは、Numpy/Scipyといったデータ解析用のパッケージが豊富
・データ解析だけでなく、Beautiful Soupといったデータ収集系のパッケージもある
・Rと連携して分析ができる
・プログラミング言語の中でも比較的習得が容易

などです。
今後、RやPythonなどで分析しながらブログで紹介していきます。

はじめに

ぼくは、一人のデータアナリストとして活動するために
3年間勤めたマーケティング会社を2013年3月にやめました。
いまは、母校の大学に戻り事務職員をしながら、独立に向けて活動を行なっています。

このところの手を動かしている作業としては、
①統計・データ解析の勉強のやりなおし
②RやPythonなどのツール類の勉強
③サイトの作成

の3点です。

これらの情報を中心に
ブログに書いていきたいと思います。