2025-01-01から1年間の記事一覧

因果表現学習と概念ベースの表現学習の理論とマーケティングにおける応用の考察

はじめに 1. なぜ因果表現学習が必要になったのか 1.1 従来の表現学習の限界 1.2 分布シフト問題 1.3 解釈可能性の欠如 1.4 変数間の独立性の仮定 2. 因果表現学習とは何か 2.1 因果表現学習の基本概念 2.2 因果グラフと構造方程式モデル 2.3 識別可能性(Id…

変分ベイズ推定の理論

はじめに 1. ベイズ推論と計算の課題 1.1 ベイズ推論の基本 1.2 計算の課題:積分の壁 2. 変分ベイズ法の基礎理論 2.1 変分ベイズ法の基本的考え方 2.2 変分下界(ELBO)の導出 2.3 平均場近似 3. MCMCと変分ベイズ法の比較 3.1 MCMCの基本的考え方 3.2 変分…

不均衡データに対する機械学習:理論と実践

はじめに 1. 不均衡データとは何か 1.1 不均衡データの定義と実例 1.2 なぜ不均衡データが問題なのか 1.3 数学的視点から見た不均衡データの課題 2. 不均衡データへの対処の根本的な考え方 2.1 基本的アプローチの体系 2.2 統計的基盤: なぜこれらの方法が機…

微分可能因果探索とNOTEARSの理論

はじめに 因果探索の伝統的アプローチとその限界 連続最適化としての因果探索:発想の転換 構造方程式モデル(SEM)と隣接行列 問題の再定式化 NOTEARSの理論:非巡回性の微分可能な特性付け 非巡回性の連続的表現:直観的理解 NOTEARSアルゴリズム:実装と…

代表性のないサンプル問題

はじめに 代表性のないサンプルの数学的定義 サンプル選択バイアスのメカニズム 1. 自己選択バイアス 2. サンプルフレームバイアス 3. 生存バイアス 代表性のないサンプルによる影響の数学的解説 パラメータ推定におけるバイアス 関係性の推定におけるバイア…

決定木系モデル理論まとめ

はじめに 決定木理論 ランダムフォレストの理論 GBDT(勾配ブースティング決定木)の理論 XGboostとLightGBMの理論 CatBoostの理論 ベイズ決定木系モデルの理論 番外編 LightGBMのハイパーパラメータ調整を理論面から考える Causal TreeとCausal Forestの理…

マーケティングにおける顧客セグメンテーション:ベイズ統計の応用

はじめに 1. 階層ベイズモデルによるセグメント推定 1.1 階層ベイズモデルの基本的な考え方 1.2 コンジョイント分析への応用 1.3 階層ベイズモデルの推定方法 1.4 モデルの実用的な特徴 2. 隠れマルコフモデル(HMM)による動的セグメンテーション 2.1 なぜ動…

ベイズ決定木系モデルの理論(特にBART)

はじめに 基礎理論(ベイズ統計と決定木の関係) 代表的な手法(ベイズ回帰木、ベイズ適応的パーティショニング、BARTなど) ベイズ回帰木(Bayesian CART) ベイズ適応的パーティショニング(Bayesian Adaptive Partitioning) BART(Bayesian Additive Reg…

因果機械学習の理論と実装

はじめに Upliftモデリング:個々の因果効果の予測 アップリフト効果の定義 アップリフトモデルの学習方法 アップリフトモデリングの実装例 マルチアームドバンディット:逐次的な最適介入の学習 探索と活用のトレードオフ 代表的なバンディットアルゴリズム…

サンプルサイズと統計的推論(よくある誤解も含めて)

はじめに サンプルサイズの基礎理論 検定力と必要サンプルサイズ 大規模サンプルの特性と影響 効果量の重要性 実務での適切なサンプルサイズの決定 コストとリソースの考慮 実務での推奨事項 おわりに はじめに サンプルサイズと統計的推論といえば、データ…

ベースレート(基礎確率)の無視

はじめに ベースレート(基礎確率)の無視といえば、データ分析の世界で最も陥りやすい落とし穴の一つとして知られています。経験豊富なデータサイエンティストでさえ、この誤りを犯すことがあります。特に、「99%の精度がある」といった部分的な情報に注目…

平均への回帰

はじめに 平均への回帰の基本的な理解 典型的な誤解と実例 ビジネスでの誤解例と対策 実務での問題と対策 適切な分析アプローチ おわりに はじめに 平均への回帰といえば、統計学の中でも最も誤解されやすい概念の一つとして知られています。データサイエン…

回帰分析における誤解

はじめに 回帰分析といえば、データ分析の世界では最も基本的かつ重要な手法として知られています。多くのデータサイエンティストや分析者が日々活用していますが、その使い方や解釈において、様々な誤解や思い込みが存在しているのも事実です。特に、「回帰…

CausalImpact・pycausalimpact・tfcausalimpact 内部アルゴリズムの比較

Googleによる CausalImpact は、時系列データにおける介入の効果を推定するために開発された手法です​。*1もともとはR向けのパッケージとして公開されましたが、その後Pythonでも同等の機能を持つライブラリがいくつか登場しています。R版の CausalImpact、P…

A/Bテストの必要なサンプルサイズやテスト期間を最大50%削減できるかも?

はじめに 適応的割当モデルの理論的背景 数式の詳細な導出と概念的解説 マーケティング実務におけるA/Bテストへの応用 実際の企業での活用方法・導入メリット 最後に はじめに お久しぶりです。(前までの投稿頻度を考えると)A/Bテストは、ウェブサイトやア…

CatBoost vs. XGBoost vs. LightGBM:最新ブースティングアルゴリズムの理論と比較

はじめに アーキテクチャの比較 メモリ効率と計算速度の比較 カテゴリカル変数の処理 適切な使用シーンと実践的な注意点 最後に はじめに XGBoost、LightGBM、CatBoostは現代の機械学習において最も強力なブースティングアルゴリズムとして知られています。…

多重共線性とは何なのか

はじめに 多重共線性の数学的定義 多重共線性による影響の数学的解説 標準誤差の増大メカニズム 係数符号の反転メカニズム 実践的な影響の詳細解説 予測と解釈における多重共線性の影響 予測における多重共線性の影響 実務例:売上予測モデル 解釈における多…

セミパラメトリックロジスティック回帰モデルの理論と応用

はじめに セミパラメトリックロジスティック回帰モデルの理論と応用 セミパラメトリックロジスティック回帰モデルの基礎理論 セミパラメトリックロジスティック回帰モデルの推定と解釈 GAMのロジスティック回帰モデルへの発展 GAMのロジスティック回帰モデル…