機械学習理論
はじめに 1. 不均衡データとは何か 1.1 不均衡データの定義と実例 1.2 なぜ不均衡データが問題なのか 1.3 数学的視点から見た不均衡データの課題 2. 不均衡データへの対処の根本的な考え方 2.1 基本的アプローチの体系 2.2 統計的基盤: なぜこれらの方法が機…
はじめに アーキテクチャの比較 メモリ効率と計算速度の比較 カテゴリカル変数の処理 適切な使用シーンと実践的な注意点 最後に はじめに XGBoost、LightGBM、CatBoostは現代の機械学習において最も強力なブースティングアルゴリズムとして知られています。…
はじめに 多重共線性の数学的定義 多重共線性による影響の数学的解説 標準誤差の増大メカニズム 係数符号の反転メカニズム 実践的な影響の詳細解説 予測と解釈における多重共線性の影響 予測における多重共線性の影響 実務例:売上予測モデル 解釈における多…
はじめに セミパラメトリックロジスティック回帰モデルの理論と応用 セミパラメトリックロジスティック回帰モデルの基礎理論 セミパラメトリックロジスティック回帰モデルの推定と解釈 GAMのロジスティック回帰モデルへの発展 GAMのロジスティック回帰モデル…
はじめに ロジスティック回帰の基本概念 モデルの学習メカニズム パラメータの最適化プロセス 正則化の導入 ベイジアンロジスティック回帰への拡張 ベイジアンロジスティック回帰の詳細理論 ベイジアンロジスティック回帰実装 多項ロジスティック回帰 最後に…
はじめに 従来のロジスティック回帰における課題 階層ロジスティック回帰モデルの設計思想 階層ロジスティック回帰モデルの理論 モデルの基本構造 変量効果の分布 推定方法 実践的応用 実装例 最後に はじめに つい最近、階層ロジスティック回帰というモデル…
はじめに 理論面から考えるLightGBMのハイパーパラメータ調整 学習制御に関する基本パラメータの理論 木の構造に関するパラメータの最適化 データ量と木の構造の理論的関係 正則化パラメータの理論的設定 最適化の優先順位 学習の収束と早期停止の理論 バギ…
はじめに カテゴリカル変数が多いデータにおいて、k-meansクラスタリングで距離関数としてコサイン類似度を使用すると、良いクラスターが得られるように感じることがあります。これは一見直感に反するように思えますが、実はコサイン類似度の持つ特性が、カ…
はじめに 傾向スコアに関して思うところを今回は記事にしていきたいと思います。 偶に、傾向スコアに関してtwitterで呟くことがあるのですが、多くの人が抱いてる傾向スコアが持つべき性質に関して勘違いがあるのではないかと思い、この記事を書くに至りまし…
はじめに 前回k-meansでBICを使うのはいいんじゃないか?という記事を書いたと思います。 tomtom58.hatenablog.com この記事に関していくつかの指摘をいただいたので、それならばk-means専用にカスタマイズした情報量を考えてみようという発想に至りました。…
はじめに 従来のフレームワークにおける課題 Optunaの設計思想 optunaの理論 Define-by-run APIの理論と実装 サンプリングアルゴリズムの理論 効率的な枝刈り(Pruning)メカニズム 分散最適化の理論とアーキテクチャ ストレージバックエンド トライアルの同…
はじめに SHAPの基礎理論 SHAPの理論的拡張 モデル特有のSHAP実装 決定木系モデルに対するSHAPの理論 TreeSHAPの欠点や注意すべき点 ニューラルネットワークにおけるSHAP(Deep SHAP) Deep SHAPの欠点や注意すべき点 カーネルSHAPの理論(KernelSHAP) Kern…
はじめに 多重代入法の理論 多重代入法の発展理論 Joint Modeling(JM) Joint Modeling(JM)実装と検証 Fully Conditional Specification(FCS) FCSの実装と検証 MCMCアプローチ MCMCアプローチの実装と検証 IterativeImputerの理論 IterativeImputerの実…
はじめに 時系列におけるGAM GAM実装してみた(検証) 広告効果の文脈に焦点を当てて これまでの話をGAMで実装してみる MMMとの比較 最後に はじめに 最近GAMを用いて時系列モデリングをしたので、その経験を基に理論的な解説をしていきたいと思います。時系…
はじめに GAM(一般化法モデル)の理論 セミパラメトリック手法 GAM 最後に はじめに 最近私は、因果推論と並んでセミパラメトリック手法にとても興味関心を持っています。解釈したい部分はパラメトリックに、それ以外の部分はノンパラメトリックにというう…
はじめに IPWと多重代入法を用いた欠損ありデータに対する傾向スコアマッチングの理論 実際に実装してみた 最後に はじめに 最近、欠損値ありデータでの傾向スコアマッチングを実装する機会があったので、見聞きはしていたIPWと多重代入法を用いた傾向スコア…
はじめに なぜ適切だと思うのか 完全に余談(混合ガウスモデルとk-meansの関係性に関して) 最後に はじめに 以前こんな記事を読みました tjo.hatenablog.com 私も尊敬しているTJOさんの記事ですね、内容的にはエルボー法はよくないよね、BICとかのほうがい…
はじめに 寄与度の算出方法 分散比 F値 シルエット係数 実装 最後に はじめに クラスタリングにおいて、どの変数が効いているのかを見たい的なことを思ったことはありませんか?正直私はなかったです。ですが、ビジネス側の人から寄与度的なものがあると嬉し…
はじめに 混合確率分布モデルの理論 モデルの概要 メリット・デメリット 前提と仮定 どんな変数にはどの確率分布を? カテゴリカル変数用の分布 多項分布 ベルヌーイ分布 連続値変数用の分布 正規分布 ガンマ分布 混合モデルの理論 パラメータの推定アプロー…
はじめに CatBoost CatBoostの概要 予測シフト問題 順序付きブースティング カテゴリカル特徴量の処理 最後に はじめに 以前書いた、XGBoostとLightGBMの記事の反響が想定よりも良かったので、今回はcatboostに焦点を当てて、理論解説をしていこうかなと思い…
はじめに 混合ガウスモデル 他のクラスタリング手法と比べて 混合ガウスモデル(GMM)の理論 混合ガウス分布の実装 最後に はじめに ちょっと仕事で、クラスタリングを扱う機会があり、混合ガウスモデルに関して、詳しく理解する必要があったため、なんとな…
最初に XGboost 1. 目的関数 2. 正則化項 二次近似 もっと詳しく 4.木の成長戦略 詳しく概念的な話 5. 特徴量重要度 LigthGBM 1. Gradient-based One-Side Sampling (GOSS) 2. Exclusive Feature Bundling (EFB) 3. Leaf-wise Tree Growth 最後に 最初に 前…
はじめに GBDT(勾配ブースティング決定木)とは 1. 概要 2.数学的な説明 各ステップの解説 Step1 Step2 Step3 重要な特徴 重要なハイパーパラメータ GBDTの問題点 フルスクラッチ実装 最後に はじめに 引き続き、今度はGBDTに関しての記事を書いていこうと…
はじめに ランダムフォレストとは 1. ブーストラップサンプリング 基本概念 サンプリングプロセス 理論的背景 特徴と利点 数学的に表現すると 2. 特徴量のランダム選択 基本概念 選択プロセス 理論的背景 特徴と利点 数式で表現してみると 実践における考慮…
最初に 決定木とは 1.決定木の基本構造 2.不純度 3. 情報利得 注意して欲しいこと 4. 最適分割点の選択 5. 再帰的な木の成長 6. 停止条件 7. 枝刈り(オプション) フルスクラッチ実装 最後に 最初に 決定木の理論とフルスクラッチ実装とその解説というと、…