はじめに
結構前に書いた記事で、XGBoostとLightGBMの理論という記事を書いたかと思います。
この記事に、LightGBMはハイパーパラメータの調整をしっかり行わないと、過学習のリスクが高いということを述べたと思います。それはLightGBMの理論的背景によるところが大きいという話をしたかなと思います。ということで今回は、LightGBMのハイパーパラメータ調整をLightGBMの理論的背景から考えてみようということをやっていこうと思います。では内容にはいっていきましょう。
理論面から考えるLightGBMのハイパーパラメータ調整
学習制御に関する基本パラメータの理論
まず、モデルの学習過程を制御する基本的なパラメータについて考えます。学習率と反復回数の関係は以下の式で表現されます。
学習率の設定は、山登りに例えることができます。大きな学習率は大きな歩幅で登る戦略で、素早く頂上付近に到達できますが、最適地点を見逃すリスクがあります。一方、小さな学習率は慎重な歩みを表し、より正確に最適地点を見つけられますが、到達までに多くの時間(反復)が必要となります。
木の構造に関するパラメータの最適化
木の構造を制御するパラメータ間の関係は、以下の不等式で表現されます。
データ量と木の構造の理論的関係
特定のノードでの分割を決定する際の統計的な信頼性は、以下の式で表現されます。
正則化パラメータの理論的設定
正則化の強さを決定するlambdaパラメータは、以下の理論式に基づいて設定します。
これは、料理における調味料の調整に似ています。材料(データ)の質や量に応じて、適切な調味料(正則化)の量を決定する必要があります。新鮮な材料(クリーンなデータ)ならば控えめに、そうでない場合はより積極的な調整が必要となります。
最適化の優先順位
理論的な影響度に基づいて、以下の順序でパラメータを調整することが推奨されます。
学習の収束と早期停止の理論
学習の収束過程は、以下の理論式で特徴付けられます。
この式は、マラソンランナーのペース配分に似ています。最初は大きく損失が減少し(速いペース)、徐々に改善幅が小さくなっていきます(ペースダウン)。この理論に基づき、early_stopping_roundsは以下の基準で設定することが推奨されます。
バギング関連パラメータの理論的設定
feature_fractionとbagging_fractionのバランスは、以下の式で表現されます。
これは、料理人が複数の調理方法を組み合わせる際の考え方に似ています。各調理法(特徴量)の特性と、材料の使い方(データのサンプリング)のバランスを取ることで、より安定した結果を得ることができます。
GOSSに関連するハイパーパラメータの理論
GOSSのサンプリング戦略を制御するパラメータは、理論的に以下の式で表される情報利得の計算に直接影響を与えます。
これらのパラメータの相互作用は、水の濾過システムに例えることができます。top_rateは最初のフィルター(大きな勾配を持つ重要なインスタンスの保持)の目の粗さを、bagging_fractionとother_rateは二次フィルター(残りのインスタンスのサンプリング)の特性を決定します。理論的な最適値は以下の式で示される条件を満たす必要があります。
EFBに関連するハイパーパラメータの理論
EFBのバンドル化プロセスは、以下の最適化問題として定式化されます。
特徴量の選択プロセスは、以下の理論式に基づいて制御されます。
これは図書館の書籍整理に例えることができます。max_binは各棚(バンドル)の収容能力を、min_data_in_binは各セクション(ビン)に必要な最小書籍数を、feature_fractionとfeature_fraction_bynodeは書籍の分類方法と配置戦略を決定します。カテゴリカル特徴の処理にはcat_smoothが関与し、以下の式で表される平滑化を行います。
最後に
目新しい記事をと思い、理論面からLightGBMのハイパーパラメータチューニングに関しての記事を書いてみました。どうしてLightGBMなのかというと、ハイパーパラメータチューニングが特に重要なモデルだからです。
LightGBMでハイパーパラメータチューニングが重要な理由は、主にモデルの構造と学習戦略に起因します。
特に重要な理論的背景として、LightGBMはleaf-wiseな木の成長戦略を採用しています。この戦略は各イテレーションで最大の損失減少を持つ葉を選択して分割を行いますが、この過程で木が非対称的に深くなりやすい性質があります。これは複雑なパターンの捕捉能力を向上させる一方で、過学習のリスクを高める要因となっています。
また、GOSSによるサンプリング戦略も重要な要素です。GOSSは勾配の大きいインスタンスを優先的に選択し、残りをランダムサンプリングすることで計算効率を向上させています。しかし、このサンプリング比率が不適切な場合、データの分布を正確に反映できなくなる可能性があるというわけです。
さらに、EFB(Exclusive Feature Bundling)による特徴量の次元削減も、適切なパラメータ設定が必要です。EFBは疎な特徴空間において互いに排他的な特徴をバンドルすることで計算効率を向上させますが、過度な特徴量のバンドル化は情報損失につながる可能性があります。
というわけで、LightGBMにおいては、ハイパーパラメータチューニングが重要だというわけです。
最後までお読みいただきありがとうございます。