決定木系

不均衡データに対する機械学習:理論と実践

はじめに 1. 不均衡データとは何か 1.1 不均衡データの定義と実例 1.2 なぜ不均衡データが問題なのか 1.3 数学的視点から見た不均衡データの課題 2. 不均衡データへの対処の根本的な考え方 2.1 基本的アプローチの体系 2.2 統計的基盤: なぜこれらの方法が機…

ロジスティック回帰モデルの理論(ベイジアンロジスティック回帰も扱います)

はじめに ロジスティック回帰の基本概念 モデルの学習メカニズム パラメータの最適化プロセス 正則化の導入 ベイジアンロジスティック回帰への拡張 ベイジアンロジスティック回帰の詳細理論 ベイジアンロジスティック回帰実装 多項ロジスティック回帰 最後に…

CatBoostの理論

はじめに CatBoost CatBoostの概要 予測シフト問題 順序付きブースティング カテゴリカル特徴量の処理 最後に はじめに 以前書いた、XGBoostとLightGBMの記事の反響が想定よりも良かったので、今回はcatboostに焦点を当てて、理論解説をしていこうかなと思い…

Causal TreeとCausal Forestの理論と実装

はじめに Causal Tree CATE(条件付き平均処置効果) CATEを用いてATEを推定する CATEで特定のサブグループに対する処置効果の推定 個別処置効果(ITE: Individual Treatment Effect)の推定 目的関数 CATE推定の詳細 分割基準 Causal Treeのフルスクラッチ…

XGBoostとLightGBMの理論の解説

最初に XGboost 1. 目的関数 2. 正則化項 二次近似 もっと詳しく 4.木の成長戦略 詳しく概念的な話 5. 特徴量重要度 LigthGBM 1. Gradient-based One-Side Sampling (GOSS) 2. Exclusive Feature Bundling (EFB) 3. Leaf-wise Tree Growth 最後に 最初に 前…

GBDT(勾配ブースティング決定木)の理論とフルスクラッチ実装とその解説

はじめに GBDT(勾配ブースティング決定木)とは 1. 概要 2.数学的な説明 各ステップの解説 Step1 Step2 Step3 重要な特徴 重要なハイパーパラメータ GBDTの問題点 フルスクラッチ実装 最後に はじめに 引き続き、今度はGBDTに関しての記事を書いていこうと…

ランダムフォレストの理論とフルスクラッチ実装とその解説

はじめに ランダムフォレストとは 1. ブーストラップサンプリング 基本概念 サンプリングプロセス 理論的背景 特徴と利点 数学的に表現すると 2. 特徴量のランダム選択 基本概念 選択プロセス 理論的背景 特徴と利点 数式で表現してみると 実践における考慮…

決定木の理論とフルスクラッチ実装とその解説

最初に 決定木とは 1.決定木の基本構造 2.不純度 3. 情報利得 注意して欲しいこと 4. 最適分割点の選択 5. 再帰的な木の成長 6. 停止条件 7. 枝刈り(オプション) フルスクラッチ実装 最後に 最初に 決定木の理論とフルスクラッチ実装とその解説というと、…