きっと続かんブログ

勉強したことや人に言いたいことを書く。

スケーリング

意味

数値を特定の範囲内におさめるために施す処理。 またそのための定数をスケール因子(スケーリング因子)と呼ぶ。

0~1000の値Aを0~50の値Bにスケーリングする。
B = \frac{A}{20}
20がスケール因子に相当する。
上のように、単純に大きすぎる値を小さい範囲に収めたいとき、逆に値を大きくしたいとき、範囲をずらしたい(0~10から10~20など)とき、数値を掛けたり割ったり足したり引いたりする操作をスケーリングと呼ぶ。

登場文献

論文解説 Attention Is All You Need (Transformer) - ディープラーニングブログ

TransformerのAttention機構はScaled Dot-Product Attention(縮小付き内積アテンション)と呼ばれる。数式は以下である。
Attention(Q,K,V) =softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V
通常の内積アテンションと異なるのは、スケール因子\sqrt{d_k}によってスケーリングしている点である。
例と同様、大きすぎる値を小さくする狙いがある。d_kQueryKeyの次元数を意味する。