2024-12-01から1ヶ月間の記事一覧

p値に関して解説してみよう

はじめに 統計学における「p値」は、科学的推論の中で最も広く使われる指標の一つですが、同時に最も誤解されやすい概念でもあります。「p値とは、帰無仮説が正しいと仮定した場合に、観測されたデータと同等かそれ以上に極端なデータが得られる確率である」…

LightGBMのハイパーパラメータ調整を理論面から考える

はじめに 理論面から考えるLightGBMのハイパーパラメータ調整 学習制御に関する基本パラメータの理論 木の構造に関するパラメータの最適化 データ量と木の構造の理論的関係 正則化パラメータの理論的設定 最適化の優先順位 学習の収束と早期停止の理論 バギ…

カテゴリ変数が多い場合のk-meansでコサイン類似度の選択が良いような気がする理由

はじめに カテゴリカル変数が多いデータにおいて、k-meansクラスタリングで距離関数としてコサイン類似度を使用すると、良いクラスターが得られるように感じることがあります。これは一見直感に反するように思えますが、実はコサイン類似度の持つ特性が、カ…

傾向スコアの本来の目的とその特性

はじめに 傾向スコアに関して思うところを今回は記事にしていきたいと思います。 偶に、傾向スコアに関してtwitterで呟くことがあるのですが、多くの人が抱いてる傾向スコアが持つべき性質に関して勘違いがあるのではないかと思い、この記事を書くに至りまし…

k-meansで使用する新たな情報量規準を考えてみる(KIC:K-means Information Criterion)

はじめに 前回k-meansでBICを使うのはいいんじゃないか?という記事を書いたと思います。 tomtom58.hatenablog.com この記事に関していくつかの指摘をいただいたので、それならばk-means専用にカスタマイズした情報量を考えてみようという発想に至りました。…

optunaの理論

はじめに 従来のフレームワークにおける課題 Optunaの設計思想 optunaの理論 Define-by-run APIの理論と実装 サンプリングアルゴリズムの理論 効率的な枝刈り(Pruning)メカニズム 分散最適化の理論とアーキテクチャ ストレージバックエンド トライアルの同…

SHAPの理論

はじめに SHAPの基礎理論 SHAPの理論的拡張 モデル特有のSHAP実装 決定木系モデルに対するSHAPの理論 TreeSHAPの欠点や注意すべき点 ニューラルネットワークにおけるSHAP(Deep SHAP) Deep SHAPの欠点や注意すべき点 カーネルSHAPの理論(KernelSHAP) Kern…