2024-01-01から1年間の記事一覧

SEMを拡張して変数Xが1変化したら因果先変数が何変化するのかまで出せる因果探索手法を考えたい

はじめに 因果探索といえば、最近流れが来ているような、来ていないような微妙な手法ですが、因果推論の流れが来ていることを考えると、計算コストの問題などを解決すれば、意外と流行るのではないかと思い、この記事を書くことにしました。タイトルの通り、…

ロジスティック回帰モデルの理論(ベイジアンロジスティック回帰も扱います)

はじめに ロジスティック回帰の基本概念 モデルの学習メカニズム パラメータの最適化プロセス 正則化の導入 ベイジアンロジスティック回帰への拡張 ベイジアンロジスティック回帰の詳細理論 ベイジアンロジスティック回帰実装 多項ロジスティック回帰 最後に…

階層ロジスティック回帰モデルの理論

はじめに 従来のロジスティック回帰における課題 階層ロジスティック回帰モデルの設計思想 階層ロジスティック回帰モデルの理論 モデルの基本構造 変量効果の分布 推定方法 実践的応用 実装例 最後に はじめに つい最近、階層ロジスティック回帰というモデル…

p値に関して解説してみよう

はじめに 統計学における「p値」は、科学的推論の中で最も広く使われる指標の一つですが、同時に最も誤解されやすい概念でもあります。「p値とは、帰無仮説が正しいと仮定した場合に、観測されたデータと同等かそれ以上に極端なデータが得られる確率である」…

LightGBMのハイパーパラメータ調整を理論面から考える

はじめに 理論面から考えるLightGBMのハイパーパラメータ調整 学習制御に関する基本パラメータの理論 木の構造に関するパラメータの最適化 データ量と木の構造の理論的関係 正則化パラメータの理論的設定 最適化の優先順位 学習の収束と早期停止の理論 バギ…

カテゴリ変数が多い場合のk-meansでコサイン類似度の選択が良いような気がする理由

はじめに カテゴリカル変数が多いデータにおいて、k-meansクラスタリングで距離関数としてコサイン類似度を使用すると、良いクラスターが得られるように感じることがあります。これは一見直感に反するように思えますが、実はコサイン類似度の持つ特性が、カ…

傾向スコアの本来の目的とその特性

はじめに 傾向スコアに関して思うところを今回は記事にしていきたいと思います。 偶に、傾向スコアに関してtwitterで呟くことがあるのですが、多くの人が抱いてる傾向スコアが持つべき性質に関して勘違いがあるのではないかと思い、この記事を書くに至りまし…

k-meansで使用する新たな情報量規準を考えてみる(KIC:K-means Information Criterion)

はじめに 前回k-meansでBICを使うのはいいんじゃないか?という記事を書いたと思います。 tomtom58.hatenablog.com この記事に関していくつかの指摘をいただいたので、それならばk-means専用にカスタマイズした情報量を考えてみようという発想に至りました。…

optunaの理論

はじめに 従来のフレームワークにおける課題 Optunaの設計思想 optunaの理論 Define-by-run APIの理論と実装 サンプリングアルゴリズムの理論 効率的な枝刈り(Pruning)メカニズム 分散最適化の理論とアーキテクチャ ストレージバックエンド トライアルの同…

SHAPの理論

はじめに SHAPの基礎理論 SHAPの理論的拡張 モデル特有のSHAP実装 決定木系モデルに対するSHAPの理論 TreeSHAPの欠点や注意すべき点 ニューラルネットワークにおけるSHAP(Deep SHAP) Deep SHAPの欠点や注意すべき点 カーネルSHAPの理論(KernelSHAP) Kern…

多重代入法の理論と実装と検証(統計的な欠損値補完)

はじめに 多重代入法の理論 多重代入法の発展理論 Joint Modeling(JM) Joint Modeling(JM)実装と検証 Fully Conditional Specification(FCS) FCSの実装と検証 MCMCアプローチ MCMCアプローチの実装と検証 IterativeImputerの理論 IterativeImputerの実…

GAM(一般加法モデル)による時系列モデリング(主に広告効果のモデリングに関して:MMM亜種)

はじめに 時系列におけるGAM GAM実装してみた(検証) 広告効果の文脈に焦点を当てて これまでの話をGAMで実装してみる MMMとの比較 最後に はじめに 最近GAMを用いて時系列モデリングをしたので、その経験を基に理論的な解説をしていきたいと思います。時系…

セミパラメトリック手法の1種GAM(一般化法モデル)の理論

はじめに GAM(一般化法モデル)の理論 セミパラメトリック手法 GAM 最後に はじめに 最近私は、因果推論と並んでセミパラメトリック手法にとても興味関心を持っています。解釈したい部分はパラメトリックに、それ以外の部分はノンパラメトリックにというう…

IPWと多重代入法を用いた欠損値ありデータに対する傾向スコアマッチング

はじめに IPWと多重代入法を用いた欠損ありデータに対する傾向スコアマッチングの理論 実際に実装してみた 最後に はじめに 最近、欠損値ありデータでの傾向スコアマッチングを実装する機会があったので、見聞きはしていたIPWと多重代入法を用いた傾向スコア…

k-meansのクラスター数の決定に情報量規準(BIC)を使用するのはどうか?(結論いいのではないか?)

はじめに なぜ適切だと思うのか 完全に余談(混合ガウスモデルとk-meansの関係性に関して) 最後に はじめに 以前こんな記事を読みました tjo.hatenablog.com 私も尊敬しているTJOさんの記事ですね、内容的にはエルボー法はよくないよね、BICとかのほうがい…

クラスタリングにおいて各変数の寄与度を算出する方法の理論と実装

はじめに 寄与度の算出方法 分散比 F値 シルエット係数 実装 最後に はじめに クラスタリングにおいて、どの変数が効いているのかを見たい的なことを思ったことはありませんか?正直私はなかったです。ですが、ビジネス側の人から寄与度的なものがあると嬉し…

k-meansにおいて欠損値を含むデータをそのまま使用できるようにする方法

はじめに どうやってやるのか ユークリッド距離バージョン 実装コード コサイン類似度バージョン 実装コード 最後に はじめに クラスタリングしたいけど、データの属性情報に欠損がありすぎて、クラスタリングにその変数が使えない!みたいな現象に出会った…

BSTSモデル(Bayesian Structural Time Series model)の理論(Causal Impactで使用されているものです)

最初に BSTSモデル 基本構造 トレンド成分の詳細 スパイクスラブ分布 BSTSモデルは状態空間モデルの一種です 概念的な説明 付録(stanがわかる方向けに) 最後に 最初に 今回は、Causal Impactの内部で使用されている、BSTSモデルに関して説明していきたいと…

ベイジアンネットワークの理論と実装

はじめに ベイジアンネットワーク 概要 理論 モデル手順 スコアベースの手法 制約ベースの手法 パラメータ学習 静的ベイジアンネットワーク実装 動的ベイジアンネットワーク (DBN) 構造方程式モデル(SEM)の実装 最後に はじめに 前回のLiNGAMの記事に引き…

DIDにおける傾向スコアを用いて平行トレンドを満たす方法の実装編

はじめに 実装編 最後に はじめに 以前DIDにおいて傾向スコアを使用して、平行トレンド仮定を満たす方法という記事を書きましたね、その実装に関しては、理論さえ分かってしまえば簡単なのですが、書く記事の題材が思い浮かばなかったので、今回はその記事の…

介入のタイミングが異なる場合のDID

はじめに 実装編 最後に はじめに 大分前に、私の初めての記事として、介入のタイミングが異なる場合のDIDの論文に関しての解説記事を書きました。最近の私の記事では、コードも基本的に付属しているので、理論だけしか説明してなかった記事に関しても、実装…

ベイジアンA/Bテストの理論と実装

はじめに ベイジアンネットワークの理論 通常のA/Bテストとの違い 実際にやってみた 最後に はじめに XでベイジアンA/Bテストを実装した記事を書こうという話をしたので、今回この記事を書くことになりました。 私自身、ベイジアンA/Bテストを知ったのは、本…

混合確率分布クラスタリングモデルの理論と実装

はじめに 混合確率分布モデルの理論 モデルの概要 メリット・デメリット 前提と仮定 どんな変数にはどの確率分布を? カテゴリカル変数用の分布 多項分布 ベルヌーイ分布 連続値変数用の分布 正規分布 ガンマ分布 混合モデルの理論 パラメータの推定アプロー…

時系列データにおいてどのよう変数間の影響の強度と方向性(正負)を推察するのか?

はじめに 時系列データに対して相関以外にどうアプローチするのか? セミパラメトリック手法で何をしたのか 最後に はじめに 今回は、普段書いている記事とは趣向を変えて、実務上発生し頭を悩ませがちな問題に関して、どんな方法が良いのかを考察してみたい…

CatBoostの理論

はじめに CatBoost CatBoostの概要 予測シフト問題 順序付きブースティング カテゴリカル特徴量の処理 最後に はじめに 以前書いた、XGBoostとLightGBMの記事の反響が想定よりも良かったので、今回はcatboostに焦点を当てて、理論解説をしていこうかなと思い…

混合ガウスモデルの理論と実装

はじめに 混合ガウスモデル 他のクラスタリング手法と比べて 混合ガウスモデル(GMM)の理論 混合ガウス分布の実装 最後に はじめに ちょっと仕事で、クラスタリングを扱う機会があり、混合ガウスモデルに関して、詳しく理解する必要があったため、なんとな…

合成コントロール法の理論と実装

はじめに 合成コントロール法 実装 付録(合成コントロール法とCausal Impactの比較+前に解説した傾向スコアを用いる方法も追加で) 最後に はじめに 結構前は、DIDに関する記事から、はてなブログを書き始めたので、久々にDIDに関する記事を書いてみようか…

Meta-learnersの理論

はじめに Meta-learnersの概要 S-learner(Single-model learner)の理論 T-learner(Two-model learner)の理論 X-learnerの理論 R-learnerの理論 DR-learner (Doubly Robust learner)の理論 U-learner(U-statistic based learner)の理論 M-learner(Modifi…

LiNGAMの理論と実装(因果探索)フルスクラッチで実装してDAGまで書くコードあります

最初に LiNGAM 概念的説明 理論 普通のLiNGAM実装してみた 非線形拡張版のLiNGAM 非線形拡張のLiNGAM実装してみた 非線形LiNGAM(ベイズで実装) TimeSeriesLiNGAM(時系列LiNGAM) TimeSeriesLiNGAMを実装してみた(線形のです) 最後に 最初に 前回、ロジ…

Causal TreeとCausal Forestの理論と実装

はじめに Causal Tree CATE(条件付き平均処置効果) CATEを用いてATEを推定する CATEで特定のサブグループに対する処置効果の推定 個別処置効果(ITE: Individual Treatment Effect)の推定 目的関数 CATE推定の詳細 分割基準 Causal Treeのフルスクラッチ…