教養統計

超幾何分布

投稿日 2018年09月29日

基本的に、足りない地頭を補うために時間を使ってきた歴史がある。
理解の速度や再現に地頭が影響する。
頭の中でパンパンパンって話が進む経験は全くない。
たぶんここに書いていることを活かすには地頭が必要だと思うので今後の人生で使えないだろうな。

具体的な確率分布を理解していく。
超幾何分布(hypergeometric distribution)。

超幾何分布

2種類のグループ\(A,B\)があって、個数の構成はそれぞれ\(M\),\(N-M\)。
これらから\(n\)個を取り出したときに、\(A\)が\(x\)個、\(B\)が\(n-x\)個であるとする。
袋の中に赤い玉が\(M\)個、白い玉が\(N-M\)個あって、
赤い玉を\(x\)個、白い玉を\(n-x\)個取る確率だな。取り出して戻さないやつ。
俯瞰して書くとこういうことになる。

\begin{eqnarray}
f(x) = \frac{ {}_M C_x \cdot {}_{N-M} C_{n-x} }{ {}_N C_n }
\end{eqnarray}

単に確率を求めただけ、みたいに見えるけど、
この事実が確率変数\(x\)を使った確率分布になっている。

\(x\)以外は定数（つまり観測可能、設定可能な値）となっていて、
\(n,M,x\)から\(N\)を推測するのに使われたりする。

超幾何分布という確率分布を知ったのであれば、
捕獲再捕獲法という条件下で、\(n,M,x\)という既知の値を使って\(N\)を推測したいなと

式が確率分布であることの証明

そもそも\(f(x)\)はある\(x\)に関する確率を求めただけではないのか、
なぜ確率分布なのか。以下のように考えるらしい。
スタートは以下の恒等式。

\begin{eqnarray}
(1+t)^N \equiv (1+t)^M \cdot (1+t)^{N-M}
\end{eqnarray}

\(N=2\)のとき、左辺を展開すると\(t^2+2t+1\)。
\(N=3\)のときは\(t^3+3t^2+3t+1\)。
\(N\)を増やしていった時、一般的に\(t^n\)の項の係数は\({}_N C_n \)。（初めて考えたけどこうなるんだな…）

対して、右辺の展開式において\(t^n\)の項の係数を調べる。
\((1+t)^M\)の展開式において次数\(x\)の項と、
\((1+t)^{N-M}\)の展開式において次数\(n-x\)の項の積が次数\(n\)となる。
\(x\)は複数あるが、全ての\(x\)について係数を足すことで\(t^n\)の係数を求められる。
つまり、\(\sum_x {}_M C_x \cdot {}_{N-M} C_{n-x}\)

左辺、右辺の\(t^n\)の項の係数は同じであるはずなので、
\begin{eqnarray}
{}_N C_n = \sum_x {}_M C_x \cdot {}_{N-M} C_{n-x}
\end{eqnarray}

両辺を\({}_N C_n\)で割ると、
\begin{eqnarray}
1 &=& \sum_x \frac{ {}_M C_x \cdot {}_{N-M} C_{n-x} }{ {}_N C_n } \\
&=& \sum_x f(x)
\end{eqnarray}

全部足して1になるということは確率分布。

左辺がサクッと1になって、右辺がサクッと超幾何分布の式になるという、
ぷよぷよの2段消しみたいな快感。
確率分布とは関係ない恒等式からスタートして、いきなり言いたいことが出てくるという不思議。

超幾何分布と二項分布の関係

超幾何分布は2種類のグループから取り出したものを戻さずに次を取り出す際の確率分布だけども、
戻して取り出す場合と戻さずに取り出す場合では、立式自体が変わってくる。
で、戻さないで次を取り出すときは二項分布になる。

\(N\)の極限を取ると二項分布になると書いてある。
立式の上では、以下の通り、確かに二項分布になる。
\begin{eqnarray}
\lim_{N \rightarrow \infty} f(x) &=& \lim_{N \rightarrow \infty} \frac{ {}_M C_x \cdot {}_{N-M} C_{n-x} }{ {}_N C_n } \\
&=& \lim_{N \rightarrow \infty} \cdot \frac{ {}_{M_1} C_x \cdot {}_{M_2} C_{n-x} }{ {}_N C_n } \\
&=& \lim_{N \rightarrow \infty} \frac{M_1!}{(M_1-x)! \cdot x!} \cdot \frac{M_2!}{(M_2-n+x)!(n-x)!} \cdot \frac{(N-n)!n!}{N!} \\
&=& \lim_{N \rightarrow \infty} \frac{n!}{(n-x)! x!} \frac{M_1(M_1-1)\cdots (M_1-x+1)\cdot M_2(M_2-1)\cdots (M_2-n+x+1)}{N(N-1)(N-2)\cdots (N-n+1)} \\
&=& \lim_{N \rightarrow \infty} {}_N C_x \cdot \frac{ \frac{M_1}{N}(\frac{M_1-1}{N})\cdots (\frac{M_1-x+1}{N}) \cdot \frac{M_2}{N}(\frac{M_2-1}{N})\cdots (\frac{M_2-n+x+1}{N}) }{(1-\frac{1}{N})(1-\frac{2}{N})\cdots (1-\frac{n-1}{N})} \\
&=& \lim_{N \rightarrow \infty} {}_N C_x \cdot \frac{ p \cdot (p-\frac{1}{N}) \cdot (p-\frac{x+1}{N}) \cdot q \cdot (q-\frac{1}{N}) \cdot (q-\frac{n-x-1}{N}) }{ (1-\frac{1}{N})(1-\frac{2}{N})\cdots (1-\frac{n-1}{N}) } \\
&=& {}_N C_x p^x \cdot q^{n-x} \\
&=& {}_N C_x p^x \cdot (1-p)^{n-x}
\end{eqnarray}

\(N\)が十分に大きいときはより簡単な二項分布で近似せよ、ということになる。
あぁ、ここで、\(p=\frac{M_1}{N}, q=\frac{M_2}{N}\)。

アルゴリズムの計算量の話のように、どういう問題がどんな分布に収まるのか、
というのは、知っておくと便利な気がする。

単純にモデルに当てはめるというのではなくて、
世の中には、こういうデータの測り方がありますよ、というケーススタディなんですな。

確率変数、確率密度関数

[mathjax] やりなおし統計もだいぶ頭が慣れてきた。だいぶ赤本を読めるようになってきたぞ、という感触がある。続けて確率密度関数の定義を読んでいく。一線でやっているデータサイエンティスト(俗称)の方の話として、必要な数学力というのは実はそこまで高くなく、線形代数といっても実は単に行列の掛け算ができる、とか、解析学といっても、高校数学の数Ⅲぐらいだったりとか、そういうことを言う人が多いみたい。（アカデミックな層とは2段も3段も劣るオッさんが基礎を学んだところで行けるラインなんて限界がある。）機械学習と密接な関係の統計学くらいはちゃんとインプットしておきたいのだが。もちろん一発で理解できる頭ではないので、たぶんこれから何度もやりなおすだろう。一方で足りなかったら後から足していけば良いぐらいの位置に立てたかな、とも思う。確率変数と確率分布サイコロを投げてそれぞれの目が出る相対度数はおそらく(1/6)くらいだろう。実際に出る目はランダムで相対度数は決まらなない。一方で確率の定義からそれぞれ(1/6)。実際に出る目を(X)として表して、(P(X) = 1/6)として表現する。つまり、 begin{eqnarray} P(X=1)=1/6, P(X=2)=1/6, P(X=3)=1/6, \\ P(X=4)=1/6, P(X=5)=1/6, P(X=6)=1/6 end{eqnarray} この(X)を確率変数という。また(P(X=x_k)=p_k)を確率分布という。加算集合({x_1,x_2,cdots,})の中の値を取る確率変数(X=x_k)について確率分布は離散的であり、(sum_{k=1}^{infty} f(x_k) =1 )である。また、確率変数が連続である場合、(P(aleq X leq b)=int_{a}^{b} f(x) dx =1 )である確率密度関数連続型の確率変数(X)について、(P(xleq X leq x+ Delta x)=int_{a}^{b} f(x) dx )と表す場合、区間(a)から(b)の定積分、つまり面積が確率値となる。 (X)は連続型の確率分布をもつという。(f(x))を(X)を確率密度関数という。ここで、全ての(X)に対して以下が成り立つ。 begin{eqnarray} f(x) geq 0 \\ int_{-infty}^{infty}f(x) dx = 1 end{eqnarray} 「密度」とは何なのか。 (P(X)=int_{a}^{b} f(x))の式において、(a=b)であるならば定積分は0である。確率密度関数において一点の確率は0ということになる。これだと、密度関数の大小が確率にどう影響を与えるか説明しづらい。小さい(Delta x)を考えたとき、面積を(Delta x)を使って近似する。微小区間に掛け与える値の大小(f(x))が確率(P(X))に影響する。この振る舞いを「密度」と言っているらしい。 begin{eqnarray} P(xleq X leq x+ Delta x) simeq f(x)cdot Delta x end{eqnarray} 全ての確率変数(X)について均一に確率が存在している訳ではなく、高い確率、低い確率の存在に濃淡がある。その様を表すのが確率密度関数である。うん、特に難しくない。

標本分散(sample variance)と不偏分散(unbiased variance)

[mathjax] 不偏分散は(frac{1}{n} sum_{i=1}^n (X_i-bar{X})^2)ではなく、(frac{1}{n-1} sum_{i=1}^n (X_i-bar{X})^2)。分母から1を引く必要がある。なんでか調べてみたので書いてみる。標本平均は(n)の大小によらず母平均の近傍にあって、母平均に確率収束する。標本平均は(n)の大小に関係なく、その期待値と母平均が等しい（不偏）。 begin{eqnarray} E(bar{X}) &=& frac{1}{n}nmu = mu \\ lim_{n rightarrow infty} V(bar{X}) &=& 0 end{eqnarray} 100個のデータがあって、その中から5個取ったときの平均と、50個取ったときの平均に母平均の推測という意味で違いがない。では、分散はどうか。定義通り標本の分散を(S^2 = frac{1}{n}{ (X_1-bar{X})^2 + (X_2-bar{X})^2 + cdots + (X_n-bar{X})^2 } )とすると、 (S^2)は母分散と等しくならない。不偏にならない。つまり、(E(S^2) ne sigma^2)。その値が不偏であるか否かは、実際に期待値を式変形してみるとわかる。結論を知っていないと出来ない変形ばかりだけども...。 begin{eqnarray} E(S^2) &=& Eleft[frac{1}{n} sum_{i=1}^n (x_i-bar{X})^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n left( (x_i-mu)-(bar{X}-mu) right)^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 -2sum_{i=1}^n(x_i-mu)(bar{X}-mu) + sum_{i=1}^n (bar{X}-mu)^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 -2n (bar{X}-mu) +n (bar{X}-mu)^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 - n(bar{X}-mu)^2 right] \\ &=& frac{1}{n} sum_{i=1}^n Eleft[ (x_i-mu)^2 right] - Eleft[ (bar{X}-mu)^2 right] \\ &=& frac{1}{n} sum_{i=1}^n V(x_i) - V(bar{X}) \\ &=& sigma^2 - frac{1}{n} sigma^2 \\ &=& frac{n-1}{n} sigma^2 end{eqnarray} ということで、(E(S^2)ne sigma^2)。不偏でない。では、どうすれば不偏な標本分散を得られるのか。 (E(S^2)=frac{n-1}{n} sigma^2)から、(frac{n}{n-1}E(S^2)=sigma^2)なので、(s^2=frac{n}{n-1}E(S^2))とすれば、 (s^2=sigma^2)ということになり、(s^2)は不偏となる。(s^2)を不偏分散という。 begin{eqnarray} s^2 = frac{n}{n-1} { (X_1-bar{X})^2 + (X_2-bar{X})^2 + cdots + (X_n-bar{X})^2 } end{eqnarray} 100個データがあって、10個データをとったときと、100個データをとったときの (E(S^2))の母分散とのズレは以下の通り。10個のとき(E(S^2))をそのまま計算してしまうと、その値は母分散から10%もズレてしまう。100個にしても1%ずれる。 begin{eqnarray} E(S_{10}^2) &=& frac{9}{10}sigma^2 \\ E(S_{100}^2) &=& frac{99}{100}sigma^2 \\ end{eqnarray}

母集団の推測と仮説検定

[mathjax] 母集団の推定背後に正規分布に従う母集団があるとして、そこからあるデータ(x)が観測されたとする。観測されたデータ(x)から、母集団を推測しようとする試みについてまとめてみる。仮説検定標本が平均(mu)、標準偏差(sigma)の正規分布に従うとき、標本から観測されたデータ(x)が母集団（母数=N）の95%予言的中区間の範囲外であるならば、母数=Nであるという仮説を棄却する。このとき、以下の2つの考え方があるが、 1) 観測されたデータxが、仮定した母集団の95%予言的中区間の外である 2) 仮定した母集団が誤っている 1)の肯定的言及は言うことができず、2)の消極的言及のみ言うことができる。今は母集団を推測しようとしているのだから、2)をもって母集団を予測していく。コインの裏表から考える仮説検定今、コインをN回投げたとする。表が出る回数の平均は(mu=frac{N}{2})、標準偏差は(sigma=frac{sqrt{N}}{2})である。 N=16と仮定すると(mu=frac{16}{2}=8)、(sigma=frac{sqrt{16}}{2}=2)である。 95%予言的中区間の不等式を変形していく。 begin{eqnarray} -1.96 leq frac{x-mu}{sigma} leq 1.96 \\ -1.96 leq frac{x-8}{2} leq 1.96 \\ 4.08 leq x leq 11.92 end{eqnarray} もし仮定したN=16の半分である8回表が出た場合、上記の不等式は満たされる。従って、N=16であるという仮説は棄却できない。またN=16としたとき、表が2回した出なかったのであれば、上記の不等式は満たされない。従って、N=16であるという仮説は棄却できる。

Snowflake External OAuthについての公式ドキュメントを読んでみた話

はじめに Enterpriseにおいて「お前は誰か？」を確認する手段は非常に多岐にわたる。セキュリティと絡んで手段は拡大傾向にあり、新しい認証手段への追従が求められるケースは多い。自前で認証情報を保有、管理し、セキュリティの保証を担保した手順を用意するのは不可能に近い。現実的には認証情報の保有と管理、および認証手段を専用のプラットフォームに移譲させたい。実際、認証の泥臭いプロセスはIdP(Identity Provider)が面倒を見てくれる。 SnowflakeはIdPと薄く関係して、IdPによる認証結果を使い回すことができる。 SnowflakeはIdPがどういったプロセスで認証したのかは一切関与しない。認証後、「お前にこの権限を与えて良いか？」を実装しなければならない場合、アプリ側に機能サポートがなければ、コードでそれを保証しなければならない。 Snowflakeは、ここをExternal OAuth統合として汎化しフルにサポートしている。具体的には、SnowflakeはExternal OAuth統合として汎化していて、 OAuth2.0認可サーバと統合し、RBACとの紐付けまでを面倒みてくれる。 RBACの最小範囲であるスキーマより細かい粒度を区別する場合でなければ、 RBACだけで区別が完了することとなり、大幅な工数削減と品質安定化を達成できる。昔Fitbit APIのOAuth2.0フローを実装した時から始まり、過去に何件かWebアプリ開発で認証認可まわりの実装をしたと思う。 Webアプリの認証認可F/Wはかなり枯れていて、正直中身を知らなくても書けてしまう。開発者人口が少ないSaaSサービスであるSnowflakeがブラックボックス化した認証認可の仕組みを読み解くのは、Webアプリのそれとは次元の違う大変さがある。 (こと認証認可の文脈では安全性の保証がセットとなるため) Snowflake External OAuthについて厳密に調べる機会があったので、生成AIを使わず100%自分の思考と言葉で記事を起こしていく。 [arst_toc tag=\"h4\"] 認証(AuthN) 認証、つまり、Authenticationは、「お前は誰か」を確認すること。 IdPにID/PWを登録しておきID/PWを入力したりMFAを通ることで「確かに〇〇さんだ」と確認すること。単一要素認証(SFA)、多要素認証(MFA)、パスキー認証、FIDO2認証、他、多様な認証方式がある。またシングルサインオン(SSO)、により組織を跨ぐ連携を行うことができる。サービス間のSSO方式としてSAML2.0、API等のSSO方式としてOIDC2.0が広く使われている。顧客管理のIdPによる認証を本IdPに引き継ぐIDフェデレーションにより組織間認証連携を実現できる。認可(AuthZ) 一方認可、つまり、Authorizationは、「お前にこの権限を与えて良いか」を確認すること。認可とは「誰がどのデータにどんなルールでアクセスして良いか」をコントロールする設計パターン。「ルール作りの設計思想」と「システム間で権限をやり取りする技術規格」がごっちゃに扱われがちだが、レイヤが異なる2つの話を分けておくと少しわかりやすくなる。「ルール作りの設計思想」例えば以下のようにルールを定める。ロールベースアクセス制御/Role Based Access Control ユーザ個人ではなく役割に対して権限を付与しユーザをそのロールに所属させる方式。管理者権限のユーザには作成・削除を与え、一般権限のユーザには閲覧のみを与えるなど、一般的な認可方式。SnowflakeのロールモデルはまさにRBACに基づく。属性ベースアクセス制御/Attribute Based Access Control ロールだけでなくユーザの所属、勤務地、アクセスする時間帯、デバイスの種類など、複数の属性(コンテキスト)を組み合わせて動的に認可を判断する方式。「システム間で権限をやり取りする技術規格」例えば以下のようにルールを実現する技術規格を表す。 OAuth2.0 現在のWebで最も普及している「トークンベース」の認可フレームワーク。認可サーバーが発行した「アクセストークン（時限式のカードキー）」をアプリが提示し、リソースサーバー（Snowflakeなど）がそれを検証してアクセスを許可する。「権限の証明書」としてJWT(JSON Web Token)が実際にやり取りされる。JWTは、SON形式のデータを暗号論的に署名したもので、中身に「ユーザー名」「有効期限」、「付与されたロール（権限スコープ）」などが書き込まれている。ケルベロス認証・認可 (Kerberos) 主に一昔前からの社内ネットワーク（Active Directory）環境などで広く使われている方式。チケット」と呼ばれる暗号化されたデータをやり取りすることで一度のログインで社内のファイルサーバーやプリンタなどの利用権限（認可）をシームレスに得る。あああ External OAuth External OAuthは顧客のOAuth2.0認可サーバを統合してシームレスなSSOを実現する。認証プロセスはサービス側が気にするものではなく、本機能は認可の統合であることに注意すること。なお公式(外部 OAuth の概要)は間違いなく認証・認可と言う言葉をごっちゃにしている。 OAuth2.0はRFC6749でThe OAuth2.0 Authorization Frameworkと定義されている。受け渡しされるトークンはOIDCのような認証トークンではなく、OAuth2.0の認可トークンである。外部OAuthという(認可の)仕組みをSnowflakeに設定しておくことで、「外部のIdPが認証したという証明書」をSnowflakeが安全に受け取ってデータアクセス認可する仕組みだ。公式(外部 OAuth の概要)によると、以下に公式に対応している。公式にない場合は、外部 OAuth 用のカスタム認証サーバーを構成するで構成できる。なお「公式」でないからといって「非対応」ではない。「公式」になくても汎用OAuth2.0用のカスタム認証サーバーとして構成できる。 Okta - 外部OAuth用Oktaの構成 Auth0はOktaファミリーだが↑では構成できない。カスタム認証サーバーとして構成が必要 Microsoft EntraID - 外部 OAuth 用 Microsoft Entra ID の構成 Ping Identity PingFederate - 外部 OAuth 用 Microsoft Entra ID の構成 Microsoft PowerBI - Power BI SSO からSnowflakeへ公式にはExternal OAuthのメリットとして以下が挙げられている。トークンの発行を認証サーバーに委任し、発行されたトークンの管理に集中できるようになる。ログイン時のセキュリティルール(MFAやIP制限、承認フローなど)を、Prj IdP側に統合できる。ユーザがその認証と許可に関する厳しいルール(テスト)をクリアしない限り、IdPはトークンを発行しない。怪しいユーザはSnowflakeの入り口にすら辿り着けず、データは完璧に守られる。認証をIdPに持たせることでSnowflake側から認証情報を除去できるためセキュアになる。一見して認証のことしか書かれていないようだが、implicitに認可が書かれている。 Snowflakeは認可をIdPに完全に移譲し、認証とセットで認可が行われたトークンを確認するだけ、ということは、Snowflake側に認可コードを一切書くことなしに認可を実現することと同義。 External OAuthの認証部分の基本フロー公式に基本フローの図が貼ってある。ステップ1だけ構成時にのみ行う。他は都度実行される。最初にセキュリティ統合の構成と、アプリ内の実装が開発者側の責務となる。ベスプラに従ってルールから逸脱しないように構成することで、後はSaaSサービス間の自動連携となる。外部OAuth認証サーバとSnowflakeのセキュリティ統合を構成し信頼性を確立するユーザはアプリを介してSnowflakeにアクセスしようとする。アプリはユーザを確認しようとする認証サーバはOAuthトークンをアプリに返す SnowflakeドライバはOAuthトークンを使用して接続文字列をSnowflakeに渡す SnowflakeはOAuthトークンを検証する Snowflakeはユーザ検索を実行する Snowflakeはユーザのロールに基づいてセッションをインスタンス化する External OAuthの認可部分、スコープいきなり「スコープ」というワードが出てくるが、これ、JWTの\"scope\"キー/バリューのこと。 OAuth2.0においてJWTで認可範囲を設定するのだ、という理解と記憶がなければ読めない。 JWTは以下のような構成となっておりscopeを格納する場所がある。認可サーバ側で何らかの許可処理の結果、ユーザのスコープが決まり、Snowflakeに送られる。このトークンがSnowflakeに届くと、Snowflakeはscopeキーのバリューを読み取り、「このユーザにはST_USER_ROLEというロール(権限)を適用してセッションを始めるべき」と判断する。 { \"iss\": \"https://your-project-idp.auth0.com/\", \"sub\": \"user_12345\", \"email\": \"user@client.com\", \"exp\": 1719100000, \"scope\": \"session:role:ST_USER_ROLE\" <-- 🌟これが「スコープ」 } Okta, PingFederate, カスタムの場合は以下のパターンを使用しなければならない。スコープ説明 session:role:<custom_role> Snowflakeのカスタムロールにマップする。例えばsession:role:ST_USER_ROLEで、ST_USER_ROLEにマップ session:role:public Snowflakeの PUBLIC ロールにマップ session:role-any 外部OAuthサーバでのSnowflakeロール管理を行わない場合これを渡す。特定のロールを固定せず、そのユーザに付与されているロールであれば、ログイン後に自由に切り替えて(USE ROLEして)使って良い、という少し緩めの認可なお、以下のビルトインロールはデフォルトではブロックされる。 ACCOUNTADMIN GLOBALORGADMIN ORGADMIN SECURITYADMIN Snowflake OAuthは、セッション中のロールのセカンダリロールへの切り替えをサポートしていないが、 External OAuthでのセカンダリロールの使用はサポートしている。 External OAuth特有のセキュリティの抜け穴と対策 Snowflakeにおいて、アカウントレベルでネットワークポリシーによりIP制限をかけていたとしても、 External OAuthと合わせて構成するSecurity Integrationを経由してログインしてくる場合、そのユーザ個人のIP制限が無視されてしまう、という仕様がある。つまり、IdP側のIP制限が破られたり、トークンが盗まれたりした場合、攻撃者はどこからでもSnowflakeのデータにアクセスできてしまう状態になる。 Snowflakeは、External OAuth自体にもネットワークポリシーを直接紐づけることを推奨している。具体的にはSecurity Integrationにネットワークポリシーを直接紐づける。これによりIdPから届いたトークンであっても、ネットワークポリシーで許可されたIPアドレス以外からのリクエストであれば、Snowflakeはセッションを開始しない。これはIdPフェデレーション等で複雑化したユーザ組織の通信経路を全て把握する必要性を言っている。こういうの、デフォルトで安全側に振って欲しいなとは思う。カスタム認証サーバーの構成・トークンペイロード要件カスタム認証サーバーがSnowflakeに送信するアクセストークンには、下表が含まれている必要がある。クレーム説明 scp Snowflake のカスタムロールを指定する文字列が含まれていること。値として session:role:ST_USER_ROLE のような Snowflake 指定の形式の文字列を、配列またはスペース区切りの文字列で必ず埋め込まなければならない。 scope 同上。IdPプロダクトによりscpかscopeのどちらかを入れる。 aud Snowflake アカウントの完全な URL（https://.snowflakecomputing.com）が含まれている必要がある。 exp 有効時間。トークンの有効期限が UNIX タイムスタンプ（エポック秒）で刻まれている必要がある。Snowflake はトークンを受け取った瞬間の時刻とこの exp を比較します。有効期限が過去の時刻になっている（期限切れ）場合は、その時点で認可を即座に拒否する。 iss 発行者。アクセストークンを発行したプリンシパルを文字列 URI として識別。つまりトークンを発行した IdPのアイデンティティ（例: https://your-project-idp.auth0.com/）。最後のスラッシュ（/）の有無まで1文字違わず一致させる必要がある。Snowflake 側の EXTERNAL_OAUTH_ISSUER で指定した文字列と完全に一致する必要がある。 iat 発行時刻。必須。JWT が発行された時刻を識別カスタム認証サーバーの構成・セキュリティ統合の作成 External OAuth を実現する Snowflakeのリソースの実体。カスタム認証サーバからのアクセストークンと安全に通信して検証し、アクセストークンに関連付けられたユーザーロールに基づいてSnowflakeへのアクセスをユーザに提供する。 create security integration external_oauth_custom type = external_oauth enabled = true external_oauth_type = custom external_oauth_issuer = \'\' external_oauth_rsa_public_key = \'\' external_oauth_audience_list = (\'\', \'\') external_oauth_token_user_mapping_claim = \'upn\' external_oauth_snowflake_user_mapping_attribute = \'login_name\'; それぞれの内容は下表の通り。パラメータ説明 EXTERNAL_OAUTH_ISSUER 外部認証サーバー（IdP）を一意に識別するURL（発行元URL）を指定する。IdPから発行されるアクセストークン（JWT）の iss クレームの値と完全に一致する必要がある。 EXTERNAL_OAUTH_JWS_KEYS_URL 外部認証サーバーが公開している、デジタル署名の検証に必要な公開鍵（JWKS）が配置されたURLを指定する。SnowflakeはこのURLにアクセスしてトークンの妥当性を検証する。 EXTERNAL_OAUTH_TOKEN_USER_MAPPING_CLAIM 外部認証サーバーが発行するアクセストークン（JWT）の中で、ユーザーの識別情報（メールアドレスやユーザーIDなど）が格納されている「キー（クレーム名）」を指定する。 EXTERNAL_OAUTH_SNOWFLAKE_USER_MAPPING_ATTRIBUTE トークンから抽出したユーザー識別情報を、Snowflake側の USER オブジェクトのどの属性（EMAIL_ADDRESS または LOGIN_NAME）と一致させるかを指定する。カスタム認証サーバーの構成・テスト公式では、最短パスで構成を検証するため、curl で HTTP Post を送る手順が書かれている。 IdP側にテストユーザを作成しておく。テストユーザはパスワードを持つ必要がある Snowflake側にも、上記と同じメールアドレス（または識別子）を持つ USER オブジェクトを事前に作っておく。login_name, または emailでマッピングする IdP側の画面でこのテスト用のアカウントを作成し、専用のClientID, ClinetSecretを取得する次のように、 OAuth 2.0クライアントがカスタムトークンエンドポイントに POST リクエストすることを許可 OAuth 2.0の用語でいう grant_type = password（Resource Owner Password Credentials Grant）方式を使うこと。すなわち「リソース所有者に設定された付与タイプ」であり、アプリ画面を介さず、ユーザーのID/PWを直接リクエストに含めてトークンを即時発行してもらう、テスト専用の最短ルートを構築する。準備で用意したclientID と clientSecretをHTTP Basic認証ヘッダーに含めることリクエストのBody（送信データ）には、FORM形式（application/x-www-form-urlencoded）で、テストユーザーのID/PWと、Snowflakeに渡したいスコープを指定すること curl -X POST -H \"Content-Type: application/x-www-form-urlencoded;charset=UTF-8\" --user : --data-urlencode \"username=\" --data-urlencode \"password=\" --data-urlencode \"grant_type=password\" --data-urlencode \"scope=session:role:analyst\" 公式対応認証サーバーと非公式(カスタム対応)の違い公式対応認証サーバーと、非公式(カスタム対応)の違いをまとめてみる。ケース1：IdPの「署名用公開鍵」がローテーション（変更）されたとき JWT（トークン）が偽造されていないかを証明するための「公開鍵」は、セキュリティ担保のために数ヶ月ごとに自動で新しいものにローテーションするのが一般的。公式対応の場合、SnowflakeがOkta側の鍵更新スケジュールや新しい公開鍵の取得先をあらかじめ知っているため、Snowflake側が自動で追従する。開発者は何のアクションも起こす必要はなく、システムは止まらない。カスタム、つまり非公式の場合であっても基本的には指定したURL （.well-known/jwks.json）を見に行ってくれるので自動追従するが、もしIdP側のメジャーアップデート等で「公開鍵を配置するURLの仕様そのもの」が変わった場合は、Snowflakeの設定パラメータ（EXTERNAL_OAUTH_JWS_KEYS_URL）を開発者が手動で新しいURLに書き換えるまで、認証・認可がすべてエラーになってシステムが停止する。 IdP側のセキュリティ仕様やエンドポイントの仕様が変更されたとき近年、サイバー攻撃の高度化に伴い、IdP側（OktaやMicrosoftなど）がトークンの発行ルールや、検証用APIの仕様（プロトコル）をより安全なものへ強制アップデートすることがある。 SnowflakeはOktaやMicrosoftと強固な技術パートナーシップを結んでいるため、 IdP側の仕様変更がリリースされる前に、Snowflake側の「特急レーン（専用プログラム）」を事前にアップデートして追従させる。そのため、開発者がコードや設定を修正することなく、シームレスに新しいセキュリティ基準へ移行できる。カスタム、つまり非マネージドの場合、Snowflakeは「汎用的なOAuth 2.0の標準規格（RFC）」に準拠していることしか保証しない。そのため、IdP側が独自のセキュリティ拡張を行ったり、標準規格の解釈を変更したりした場合、トークンのペイロード構造（キー・バリュー）が変わり、 Snowflakeがトークンを解読できなくなるリスクがある。この場合、開発者がIdP側の設定を手動で修正して追従する必要がある。まとめ SnowflakeにおけるExternal OAuth統合の仕組みを「認証」と「認可」のレイヤを分離して読んでみた。認証・認可を完全にIdPに移譲し、Snowflakeアプリケーション内で一切の認可コードを書かずに済む。数あるIdPのうち、いくつかについてはSnowflakeが公式対応している。公式IdP構成はテクノロジーパートナーシップに基づき、Snowflakeのマネージド構成の一部として、 Snowflake側がIdP側の変更に自動追従する可能性が高い。結果としてダウンタイムの発生を回避できる。公式対応IdPでなくても、OAuth2.0 RFC準拠の認証サーバとしてカスタム連携することができるが、 SnowflakeがIdP側の変更に自動追従する性質ではなく、運用者・開発者がIdP側の変更に適用する必要がある。

超幾何分布

超幾何分布

式が確率分布であることの証明

超幾何分布と二項分布の関係

Snowflake SAML2.0 Security Integrationを使用したSP/IdP Initiated SAML Federationと構成の詳細

Streamlit appをrestricted caller’s rightsで動作させる場合にコンテナインスタンスが必須となる背景を考えた話

Snowflake External OAuthについての公式ドキュメントを読んでみた話

Streamlit in Snowflakeの開発環境を整備して初めてのアプリケーションを実装した話

Streamlit in Snowflakeにおける分離コンテナ環境とセッション管理の仕組みを理解した話

React+Next.jsでDummy JSONのCRUDをCSR/SSRの両方で作成して違いを調べてみた話

go-txdbを使ってgolang, gin, gorm(gen)+sqlite構成のAPI をテストケース毎に管理する

gorm互換の型安全なORMであるgenでCRUD APIを試作

Golang + Gin カスタムバリデーション

Golang + Gin Framework で Hello World してみた話〜基本的なルーティング、バスパラメタ・クエリパラメタ・JSON Req/Res、フォームデータ

超幾何分布

式が確率分布であることの証明

超幾何分布と二項分布の関係

関連記事