個人をターゲティングする問題をさらに掘り下げていこう。前回はロジスティック回帰分析を使って顧客になる確率を個人別に予測した。では本当にこの予測式を信じてビジネスを実践して大丈夫だろうか?タワーマンションへの入居意向率が7%だという調査結果が肌感覚に合わないと感じる人がいるかもしれない。このような実務家の不安に理論サイドはどう応えるのだろうか。
問題の根源はセレクションバイアス
あなたが分析したいデータに偏りはないだろうか。住宅取得に関する調査なら転居に強い関心を持った人ほど回答が増えるかもしれない。マーケティング・リサーチに限らず、ネット上で発生するデータを分析する場合も心配は変わらない。ブログやSNSもテーマに関心のある人しか書き込まないから、世の中の消費者全体の様子とはギャップがあるに違いない。いくらビッグデータといっても偏ったデータが増えるだけなので不安は何も解決しない。この種の偏りをセレクションバイアスという。
大学入試なら大学側が合否を決めるので学生のデータには想定できるバイアスが入る。その点、アンケートの場合は、調査を断るのは消費者の方なので、企業側の思い通りに回答をコントロールできない。マーケティングにおけるセレクションバイアスは大学入試よりもメカニズムが複雑になる。いずれにせよ偏ったデータからビジネスの計画を立てるのは危険なのだろう。
さてタワーマンションの顧客の出現見込みはどれくらいが妥当だろうか?外部データを使って目の子で推定してみよう。首都圏の新築住宅の着工戸数は平成29年度で32.7万戸であった。首都圏では新築と中古の入居比率を 6 対 4 とみると、新築・中古を合わせた市場規模は54.5万戸である。首都圏におけるタワーマンションの竣工戸数は平成29年度は6千戸であった。すると直近におけるタワーマンションの戸数構成比は 0.6 / 54.5 = 0.01 、つまり1%程度と推定される。
この外部データを予測モデルに組み込んで、より精度の高い予測モデルに直せないだろうか。
対策1:簡単な補正
ロジスティック回帰分析の予測モデルをそのまま使って、外部情報の確率と分析データにおける確率の比を各個人の予測確率に掛けて調整する方法。今回の例では 1 / 7 を掛ける。現象に合わせて予測値を補正(calibration)する方法なので、つじつま合わせには違いない。補正に合理的な根拠があるのか?予測モデル自体には外部情報が組み込まれていないじゃないか、などの批判があるかもしれない。しかし当面をしのぐ応急処置としては有用である。
対策2:構成比を組み込んだ2群判別
タワーマンションの見込み客を、それ以外の客をとする。各個人に関して得られる情報を変数Xとする。変数の数はいくつでも構わないので、一般的に r 次のベクトルで測定値を記述しよう。説明変数が一つなら r = 1 である。
フィッシャー(1936)は2群の平均値の差に着目して線形判別関数を導いてグループ判別の問題に応えた。彼の仮定を示しておこう。
ユーザーを、ノンユーザーをとし、 r 個の説明変数が2群とも多変量正規分布に従うと仮定する。
さらに説明変数の平均ベクトルは2群で異なるが、分散共分散行列∑は両群で等しいと仮定する。
r 次元の多変量正規分布の確率密度関数 f はグループの違いを g 、円周率をとして①の通りに表される。左辺の縦線の右のは f がこの2組のパラメータで条件付けられた確率密度関数であることを示している。煩わしいので以下では条件付けの表記を省略した。
……………①
特定の個人についてデータが得られたとしよう。その場合、①は確率密度関数ではなく、もっともらしさの程度を示す尤度(ゆうど)を意味する。従って特定のにおける2群の尤度比はを分母に置けば②の通り。①を代入してコツコツと展開すると∑が共通だというフィッシャーの仮定が効いて②の右辺のようにスッキリ整理できる。
………………②
②右辺のベクトルの定義は次の通りである。
……………③
このが判別係数、が線形判別関数でDが判別スコアである。③を求めるRのコードは朝野(2012)による例がある。
さて②の尤度比が 1 以上か 1 未満かで所属グループを判定する方法は、ほとんどのマーケティング課題で通用しない。
なぜなら市場におけるユーザーとノンユーザーの構成がちょうど半々というケースはまれだろうからである。レアなマーケットではユーザーは少ない(図1)。そこで2つのグループの構成比であるとを予測に組み込む必要がある。
ベイズの定理を使う
ユーザーである確率をとすれば、データの人がに属する確率はベイズの定理から④のようになる。この式によって個人別のユーザー確率が予測できる。なお④では、確率密度関数に関して何の前提もつけていないように見えるが、④の展開で②を代入しているのでのフィッシャーの仮定を用いていることになる。
……………④
結局判別スコアDにロジットを加算するという形で事後確率が求められることになる。この④式を多重ロジスティック関数という。はベイズ統計学では事前確率として理解される。
なおなら④のロジットの項が 0 になるのでロジスティック回帰分析に帰着する。したがって、多重ロジスティック関数はロジスティック回帰分析を特殊な場合として含んだ一般的なモデルだといえる。
図1 の導入による2群判別の変化 出所(朝野、2012)
計算の実行手順について
判別関数は統計パッケージを利用して推定すればよい。今回の分析データの場合は連載第1回の②式ですでにと関数が推定されていた。
事前確率のロジットはになる。ロジットを加えることで、同一の判別スコアに対応する予測確率のグラフは図2のように平行移動する。Excelの関数を使うとしたらで個人別の確率が計算できる。
図2 ロジットの働き 出所(朝野、2012)
表1 対策による確率の予測値の相違
今回は2つの対策を示した。典型的なXの値に対応した確率の予測値を比較したのが表1である。対策によってまったく異なる予測値を出力することが分かる。ここで経験的平均値というのは分析データにおける平均値である。Dがゼロになる説明変数値というのは、医学統計でいうED50(50%で有効になる用量)に相当する値である。
今回のまとめ
・レアなターゲットを対象にした調査では、調査データ内でのユーザー比率が市場の実態と乖離することが珍しくない。
・ベイズの定理を利用することでグループのサイズの違いを予測モデルに明示的に組み込むことができる。
・個人別にユーザー確率を出すことによって、one-to-one マーケティングに対応しやすくなる。判別分析はイエスかノーしか出力しないので、きめ細かな顧客対応に向かない。
・調査データにおけるバイアスはセレクションバイアスだけではないだろう。疑問と不安が他にも出てくるかもしれない。ということで、さらなる検討を次回の宿題にしよう。
(注)Truettら(1967)の多重ロジスティック関数はCornfie1d (1962)のロジスティック回帰分析にベイズ的なアイデアを組み入れて拡張したものとみられる。ロジスティック回帰分析は近年、データサイエンスの技法として注目されているが、そのルーツは半世紀も前の疫学研究にあった。日本では井上・辻岡(1977)による多重ロジスティック関数の適用例がごく初期のものであった。統計分析の理論は医学・生物学からもたらされたものが少なくない。
【引用文献】
朝野熙彦(2012)「マーケティング・リサーチ」講談社
Cornfie1d,J. (1962) Joint dependence of riskof coronary heart disease on serum cholesterol and systolic blood pressure: a discriminant function analysis. Fedn Proc, 21, No4, Pt11,58-61.
Fisher,R.A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, Vol.7,179-188.
井上通敏・辻岡克彦・他(1977)多重ロジスティックモデルによる慢性疾患のリスクファクターの検討,第5回日本行動計量学会発表論文集、51-52.
Truett,J. Cornfield,J and Kannel W. (1967) A multivariate analysis of the risk of coronary heart disease in Framingham. Journal of Chronic Disease, Vol.20, 511- 524.
朝野熙彦「マーケティング・リサーチ入門 ―「調査」の基本から「提言」まで」東京図書
2018年12月6日発行
本書は、とかくビッグデータの掛け声に踊らされがちな産業界の切実な悩みに応えるものであり、ビジネスの意思決定を導く実践的なガイドになることを目指しています。
私が書籍全体の編集にあたり、さらにこれまで「マーケティングの処方箋」で述べた一部の内容を転載することにしました。各章は自己完結的な内容とし、実務の上で発生する様々な課題に対して、最新の分析手法を応用することで明確なガイドを与えることを目指しています。
皆様にはぜひご高覧いただき、お仕事に活用していただければ幸いです。
朝野 煕彦 (あさの ひろひこ)
<略歴>
1969年、千葉大学文理学部卒業後、マーケティング・リサーチの企業に就職し、コンサルティング業務を行う。1980年、埼玉大学大学院修了。その後、筑波大学特別研究員、専修大学教授を経て、東京都立大学、首都大学東京教授を歴任する。現在、中央大学および多摩大学大学院客員教授。日本マーケティング・サイエンス学会論文誌編集委員。日本行動計量学会理事。著書は「最新マーケティング・サイエンスの基礎」(講談社)など多数。