無料調査レポート

非階層クラスター分析 k-umeyama(2023年8月日本行動計量学会第51回大会特別セッション発表)

Facebook X
非階層型クラスタリングの圧倒的な精度向上を達成する、独自手法「k-umeyama」を開発しました。「k-umeyama」の採用により、マーケティングや広告業界にとどまらず、クラスタリングが日常的に活用されている、画像処理やAIを用いた判断処理等、多くの分野で革新的な精度向上が実現可能となりました。
*「k-umeyama」は開発者である弊社梅山貴彦の名をとったものです

  • 高い分類精度と再現性を持つ、革新的な非階層型クラスタリングを開発
  • 因子分析や主成分分析がなくても、様々な単位のデータでクラスター分析が実行可能

「k-umeyama」の概要

k-umeyamaは、分析対象のすべてのデータを格納して分析をおこなうため、情報量が多くても、もれなく分析を実施することができます。データに対して、相関性を排除する因子分析や主成分分析などのデータ加工を介さず、全てのデータ同士の関係性を加味して、無理なく分類できます。また、データが類似しており違いが小さい場合、どのクラスターに分類されるかがこれまで不安定であったものを、シグモイド関数を利用して、データ間の距離の重み付けをより明確にすることにより、データ分類の精度を向上させることを可能にしました。

標準的な非階層型クラスタリングの抱える課題

k-meansのアルゴリズムは、初期シードの選び方に依存して結果が変わり、そのシードが近くに偏ると、クラスタリングの質が低下する可能性が指摘されています。また、ランダムな選択方法により、再現性が低いという課題があります。下記の左側がk-meansのグラフとなりますが、初期シードが1回目と2回目では違う場所が指定され安定性が低いことがわかります。
これらの問題点を解決するための新しいアプローチとして、k-means++が開発されました。この方法では、初期シードを順番に選び出し、前のシードから距離が遠い次のシードを確率的に選択することで、クラスターが均等に分布するように配置されます。この改良により、クラスタリングの質と再現性が向上しました。中央がk-means++、右側がk-umeyamaとなり、それぞれシードの位置は違いますが。1回目と2回目のシードの位置は安定しています。しかし、k-means++は、シードの選択過程で、最も遠い点の外れ値が選ばれやすくなるという弱点があります。<図1>

図1 非階層クラスター分析の距離

シードの選択過程の弱点改良に向けて、シグモイド関数を活用

弊社では、k-means++のシード選択に関する課題を解決すべく、新しい手法「k-umeyama」を開発いたしました。この方法は、シグモイド関数を活用することで、各データポイントが距離とウエイト値に基づいて明確に分類される特長があります。具体的な例として、グラフの左側をk-means++、右側をk-umeyamaとして表示した際、k-umeyamaによりデータポイント1や0を比較すると、ウエイトがk-means++(1=0.065,0=0.069)、k-umeyama(1=0.03,0=0.195)とはっきりとした分類となることが確認できます。この技術により、k-means++のシード選択の精度を一層向上させることが期待されます。<図2>

図2 シード選択の過程

従来の非階層クラスター分析と距離の弱点改良に向けて

クラスター分析は、似た特徴を持つもの同士をグループにまとめる手法で、特にマーケティング・リサーチの業界でよく用いられます。一般的な手法、k-meansでは、最初にデータを「因子分析・直交化」という方法で整理します。これは、いろいろな情報を簡潔に表すためのステップですが、実は弱点があります。因子分析・直交化はデータの中の関連性を取り除く手法ですが、すべての集団が完璧に相関性を取り除いて整理されているわけではありません。また、因子分析・直交化をおこなうと、データ全体を表現する量が減少することもあります。グラフを用いて、因子分析・直交化したk-meansとマハラノビス汎距離を導入したk-umeyamaのクラスター分析の結果を比較したところ、その差異は一目瞭然となりました。グラフの左側は、因子分析による直交化を施したデータをk-meansでクラスタリングした結果です。こちらは、クラスター0と1が近接し、重なり合う正円の形をしていて、異なる集団がうまく分けられていないことを意味します。一方で、右側のグラフはマハラノビス汎距離を採用したk-umeyamaのクラスタリング結果です。こちらは、3つのクラスターが楕円の形状をとりながら、明確に区別されており、それぞれの集団の特性や違いをより精確に捉えることが確認できます。マハラノビス汎距離を導入することで、明らかにクラスタリングの精度と有用性が大きく向上することがわかります。<図3>

図3 クラスタリング結果

k-umeyamaの計算モデル

ランダムに一つずつ初期シードを選びそのシードと最短距離のdiを選び、すべてのデータポイントを計測。その平均距離をだした値をシグモイド関数で変換して、次シードを抽出するためのデータポイントのウエイト付けをします。その後、初回だけユークリッド距離で測り、サンプルをクラスターに所属させます。その後は、クラスター毎に平均と分散共分散、その一般逆行列を算出して、次にマハラノビス汎距離を測って所属クラスターの更新を繰り返します。クラスターの平均値が変化しなくなったら、終了です。<図4>

図4 k-umeyamaの計算モデル

精度テスト(嘴の長さ、深さ等を用いたペンギンの分類)

クラスタリングの精度確認のため、パーマペンギンデータセットを用いて、ペンギンの成鳥の4種類のサイズから「ヒゲペンギン」、「ジェンツーペンギン」、「アデリーペンギン」の3群の正解のあるデータを、k-meansとk-means++、k-umeyamaでクラスター分析を行い比較しました。
k-umeyamaが、正解率0.982、k-means++は0.918、k-meansが0.775となり、k-umeyamaの分類精度が高い結果となりました。<図5>

図5 パーマペンギンデータセットを用いたクラスター分析結果

*パーマペンギンデータセットは、南極のパーマー基地周辺のパーマー群島の島々で観察されたアデリー、ヒゲペンギン、ジェンツーペンギンの成鳥のサイズ測定、嘴の長さ (mm)、 嘴の深さ (mm)、フリッパーの長さ (mm)、体重 (g)などのデータが含まれています。データはKristen Gorman博士とパーマー基地長期生態学研究(LTER)プログラムによって収集されたものを利用しています。
Horst, A. M., Hill, A. P., & Gorman, K. B. (2020). palmerpenguins: Palmer Archipelago (Antarctica) penguin data. R package version 0.1.0. https://allisonhorst.github.io/palmerpenguins/. doi:10.5281/zenodo.3960218

【学会発表】

2023年8月29日(火)に行われた「日本行動計量学会 第51回大会」にて、k-umeyamaを発表いたしました。

【開発・研究協力】

朝野熙彦 元東京都立大学教授 「マハラノビス研究会」の研究代表者

【引用文献】

・朝野熙彦(2023)「マハラノビス研究会報告」日本マーケティング・リサーチ協会
・Arthur, D. and Vassilvitskii, S. (2007) k-means++: the advantages of careful seeding. SODA '07: Proceedings of the eighteenth annual ACM-SIAM symposium on discrete algorithms, 1027-1035.
・Cerioli, A. (2005) k-means cluster analysis and Mahalanobis metrics: A problematic match or an overlooked opportunity?. Statistica Applicata, 17(1), 61-73.
・水野欽司(1996)「多変量データ解析講義」朝倉書店
・Friedman H.P. & J. Rubin (1967) On Some Invariant Criteria for Grouping Data, Journal of the American Statistical Association, 62:320, 1159-1178
・Pillai, K. C. S. (1955). Some new test criteria in multivariate analysis. Annals of Mathematical Statistics, 26(1), 117-121.
・Hotelling, H. (1936). Relations between two sets of variates. Biometrika, 28(3/4), 321-377.
・Fisher,R.A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7,179-188.
・Mahalanobis,P.C. (1936) On the generalized distance in statistics. Proceedings of the National Institute of Sciences of India, 2 (1), 49-55.
・Wilks, S.S. (1932). Certain generalizations in the analysis of variance. Biometrika,24, 471 494.

本レポートのダウンロードにより閲覧できる情報

  

本レポート(全18ページ)では、詳細情報をご覧いただけます。

引用・転載時のクレジット表記のお願い
本リリースの引用・転載時には、必ず当社クレジットを明記いただけますようお願い申し上げます。
<例>「マーケティング・リサーチ会社のクロス・マーケティングが実施した調査によると・・・」


本件に関する報道関係からのお問い合わせ先
広報担当: マーケティング部
TEL:03-6859-1192   E-mail: pr-cm@cross-m.co.jp

おすすめの調査記事

無料調査レポート

AIに関する調査(2025年)意識編

2025年10月、全国20~79歳の男女3,000名を対象に「AIに関する調査(2025年)」を行いました。今回は意識編として、AI・生成AIの浸透状況、利用意向、自分の生活との関係、期待と不安、法律やルールによる規制の必要性、生成AIのイメージ、今後、AIが発展している中で人間が頑張れることを分析しました。
# IT・家電・自動車 # 時事・流行・イベント
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

健康に関する実態・意識調査(2025年11月定点ココロスタイルリサーチ)

2025年11月、全国18~79歳の男女3,000名を対象に「健康に関する実態・意識調査(2025年11月定点ココロスタイルリサーチ)」を実施。今回は健康編として、自分の健康状態、疲れとストレスの状況、疲れを感じる理由、ストレス解消法、身体の衰えの自覚、名称に対する年齢イメージをピックアップし分析をしました。
# ライフスタイル # 消費動向 # 時事・流行・イベント # 医療・健康
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

消費動向に関する定点調査(2025年10月)

全国47都道府県に在住する20~69歳の男女1,200人を対象に「消費動向に関する定点調査(2025年10月)」を実施。47都道府県すべての最低賃金が時給1,000円超え、大阪・関西万博の閉幕、日本初の女性首相による高市内閣が発足したばかりの2025年10月22日~24日に調査をしました。
# 消費動向
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

食生活に関する実態・意識調査(2025年10月定点ココロスタイルリサーチ)

2025年10月、全国18~79歳の男女3,000名を対象に「食生活に関する実態・意識調査(2025年10月定点ココロスタイルリサーチ)」を行いました。今回は食生活編として、食事や食品/料理/食生活に関する考え方・態度、1年前より支出を増やしたいジャンルに着目し分析しました。
# ライフスタイル # 消費動向 # 食品・飲料・食事
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

住まいに関する調査(2025年)意識編

2025年9月、全国20~79歳の男女3,000名を対象に「住まいに関する調査(2025年)意識編」を行いました。今回は、ご近所の「空き家」について、持ち家と賃貸住まいに対する意識、戸建てと集合住宅に対する意識、高齢になった時に住んでいたいところをピックアップし、分析しました。
# ライフスタイル
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

住まいに関する調査(2025年)現在の住まい編

2025年9月、全国20~79歳の男女3,000名を対象に「住まいに関する調査(2025年)現在の住まい編」を行いました。ここ数年で住まいの購入費用や維持費、賃貸料金の値上がりが顕著です。今回は、居住形態、住まい選びの決め手、住宅購入意向と購入したい居住形態、リフォームの経験と内容について分析をしました。
# ライフスタイル
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

情報収集に関する実態・意識調査(2025年9月定点ココロスタイルリサーチ)

2025年9月、全国18~79歳の男女3,000名を対象に「情報収集に関する実態・意識調査(2025年9月定点ココロスタイルリサーチ)」を行いました。今回は情報収集編として、情報収集に関する考え方・態度、情報源の信頼度、新商品感度、情報伝播度、平日と休日のインターネット利用時間に着目し分析をしました。
# ライフスタイル # IT・家電・自動車 # 消費動向 # 時事・流行・イベント # SNS・メディア
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

気候変動に関する調査(2025年)

2025年9月、全国20~79歳の男女2,400名を対象に「気候変動に関する調査(2025年)」を行いました。今回は、気候変動による不安、日本の食料自給率に対しての不安、自然災害や身体への影響、環境や生態系への影響をピックアップし分析をしました。
# ライフスタイル # 時事・流行・イベント # その他
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート

アジア6か国における消費実態・生活意識調査(2025年)

日本、インドネシア、タイ、ベトナム、フィリピン、インドの6か国、20~69歳の男女有職者、各国200人を対象に「アジア6か国における消費実態・生活意識調査(2025年)」を2025年7月15~28日に実施しました。今回は、生活意識や景況感、食品・日用品や雑貨類・衣服の購入方法などについて分析をしました。
# ライフスタイル # IT・家電・自動車 # レジャー・旅行 # 消費動向 # 食品・飲料・食事 # 保険・金融 # 医療・健康 # 美容・ファッション # 海外
業界/業種
支援領域
開催日:-
受付終了
ご相談・お見積もり依頼
【法人・個人様】
フリーダイヤルでのお問い合わせ
0120-198-022
※ モニター様からのお電話でのお問い合わせは受け付けておりません。
資料ダウンロード