NumPy/Pandas Python

NumPy ndarray assignment, vector operation, indexing, slicing, bool indexing, transposition

投稿日 2019年06月01日

大規模高速計算を前提にC言語との接続を前提にしていて、配列処理に寄せることになる。
ndarrayで確保するメモリはPythonとは別(プロセス?)で確保される。

一通り流してみる。
shape()で配列の形を応答する。2行3列。


import numpy as np

data = np.random.randn(2,3)
shape = data.shape
print(shape)
print(data)

# (2, 3)
# [[ 0.79004157  0.45749364  0.90854549]
#  [-1.91791968  2.80050094 -0.60338724]]

ndarrayを作る

ndarrayを作る方法は以下。


data1 = [1,2,3,4,5]
data2 = [6,7,8,9,10]
data = np.array([data1,data2])
print(data)
# [[ 1  2  3  4  5]
#  [ 6  7  8  9 10]]

rng = np.arange(5)
print(rng)
# [0 1 2 3 4]

ones = np.ones((5,5))
print(ones)
# [[1. 1. 1. 1. 1.]
#  [1. 1. 1. 1. 1.]
#  [1. 1. 1. 1. 1.]
#  [1. 1. 1. 1. 1.]
#  [1. 1. 1. 1. 1.]]

# 零行列
zeros = np.zeros((3,5))
print(zeros)
# [[0. 0. 0. 0. 0.]
#  [0. 0. 0. 0. 0.]
#  [0. 0. 0. 0. 0.]]

# 未初期化の配列確保
empties = np.empty((5,3))
print(empties)
# [[-1.72723371e-077 -1.72723371e-077  2.24419447e-314]
#  [ 2.24421423e-314  2.24421423e-314  2.24563072e-314]
#  [ 2.24421559e-314  2.24563072e-314  2.24421570e-314]
#  [ 2.24563072e-314  2.24421558e-314  2.24563072e-314]
#  [ 2.24421562e-314  2.24563072e-314  2.24421577e-314]]

# 指定値で埋める
fulls = np.full((2,3),5)
print(full)
# [[5 5 5]
#  [5 5 5]]

# 単位行列
identities = np.identity(5)
print(identities)
# [[1. 0. 0. 0. 0.]
#  [0. 1. 0. 0. 0.]
#  [0. 0. 1. 0. 0.]
#  [0. 0. 0. 1. 0.]
#  [0. 0. 0. 0. 1.]]

ndarrayのデータ型

ndarrayで確保されるメモリのデータ型。
実際に型に従ってメモリが確保されているため、簡単にCに渡せる。


ary = np.array((1,2,3),dtype=np.float64)
print(ary)
# [1. 2. 3.]

# float64をint32でキャスト
ary_int = ary.astype(np.int32)
print(ary_int)
# [1 2 3]

# キャストできないとコケる
ary_str = np.array(['hoge','fuga'])
ary_str_int = ary_str.astype(np.int32) # ValueError: invalid literal for int() with base 10: 'hoge'

ベクトル演算

配列に寄せる醍醐味。Pythonに数値計算用のオペランドが用意されていることがあって、
割と自然に書ける。


ary = np.array([[1,2,3],[4,5,6]])
print(ary * ary)
# [[ 1  4  9]
#  [16 25 36]]
print(ary - ary)
# [[0 0 0]
#  [0 0 0]]

print(ary * 2)
# [[ 2  4  6]
#  [ 8 10 12]]
print(ary ** 2)
# [[ 1  4  9]
#  [16 25 36]]

スライスとView

巨大なメモリへのアクセス高速化のために、np.arrayに対するスライスによるアクセスは、
同じメモリを指すViewを返す。Viewに対する操作は元のメモリを変更する。
Copyする場合は明示的にCopyをする必要がある。


ary = np.arange(10)
print(ary) # [0 1 2 3 4 5 6 7 8 9]
ary[5] = 500
print(ary) # [  0   1   2   3   4 500   6   7   8   9]
ary[3:5] = 999
print(ary) # [  0   1   2 900 900 500   6   7   8   9]
copied = ary.copy()
print(copied) # [  0   1   2 900 900 500   6   7   8   9]

2次元のnp.array。要素へのアクセスの仕方は2通り。


ary2d = np.array([[1,2,3],[10,20,30]])
print(ary2d)
# [[ 1  2  3]
#  [10 20 30]]
print(ary2d[1]) # [10 20 30]
print(ary2d[1][0]) # 10
print(ary2d[1,0]) # 10

n次元arrayへスカラーでインデックス参照するとn-1次元が戻る。
スライス参照はn次元が戻る。


ary2d = np.array([[1,2,3],[10,20,30],[100,200,300]])
print(ary2d[1])
# [10 20 30]
print(ary2d[:2])
#  [[ 1  2  3]
#   [10 20 30]]
print(ary2d[1,:2])
# [10,20]

Viewの選択

ndarrayから欲しいViewを選択するために色々と条件をつけられる。
例えば、bool index参照。


data = np.random.randn(7,4)
print(data)
# [[-0.69179761 -1.30790477  1.7224557  -0.67436315]
#  [ 0.45457462  0.24713663 -0.84619583 -0.31182853]
#  [-1.36397651  0.51770088 -1.8459593  -1.75146057]
#  [ 2.38626251 -0.4747874  -0.49951212  0.61803437]
#  [ 1.00048197  1.21838773 -0.4828001   0.9952139 ]
#  [ 0.17838262  1.687342    0.81501139 -1.12800811]
#  [ 0.65216988 -2.57185067  0.29802975  0.28870091]]

recs = np.array(['apple','orange','banana','mountain','river','moon','snow'])
print(recs=='mountain')
# [False False False  True False False False]

print(data[recs=='mountain'])
# [[ 2.38626251 -0.4747874  -0.49951212  0.61803437]]

reshape

reshape()を使って行列の形を変える。例えば1×15のndarrayを3×5のndarrayに変換。
もちろんCopyではなくView。これは頻出っぽい。
ちなみに、転値は専用のメソッド(T)が用意されている。


data1 = np.arange(15)
print(data1)
# [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
data2 = data1.reshape(3,5)
print(data2)
# [[ 0  1  2  3  4]
#  [ 5  6  7  8  9]
#  [10 11 12 13 14]]
data3 = data2.T
print(data3)
# [[ 0  5 10]
#  [ 1  6 11]
#  [ 2  7 12]
#  [ 3  8 13]
#  [ 4  9 14]]

TableauServer 構成

TableauServerのインストール時に気をつけること. 過去の経緯からかライセンス,サイトロールの関係が結構カオス. 増築しました感がかなりある. ライセンス,サイトロール,パーミッションの3要素からアクセス権が決まる. 複雑... 1. キャッシュサーバの構成. 1. 実体はCacheServerプロセス. 1. クエリと実行結果のペアをキャッシュする. Webブラウザの操作によりクエリが実行されるときにキャッシュを更新. 1. 可用性(性能)を上げるにはキャッシュサーバプロセスを複数のノードに構成する. 1. tsmコマンドで構成を変更. tsm data-access caching set -r . 規定値は全キャッシュ. 有効時間(value)を指定可能. 1. プロセス分散の適用 1. 分散パターンは3種類. シングルノード,マルチノード,高可用性. 高可用性はマルチノードのより冗長なサブセット. 1. マルチノードにおいて\"最初のコンピュータ(初期ノード)\"だけ他のノードと扱いが異なる. 初期ノードにしかインストールできないプロセスがある. 1. サブスクリプション/メールアラート 1. 「ビュー」「ワークブック」の\"イメージ\",\"PDFスナップショット\"を定期的に作成しメールで送信する機能. 1. 自分自身向けか(所有者,プロジェクトリーダー,管理者であれば)人向けにサブスクライブできる. 1. [検索]-[全てのワークブック]-[ツールバー]-[サブスクライブ] 1. サブスクリプションを受け取るには[画像]と[画像/PDFのダウンロード]パーミッションが必要. 1. アカウントをメールアドレスとして読んで送るため受け取るアカウントがメールアドレスでないといけない. 1. サイト構成オプション 1. ユーザー数,[ユーザー]から確認. 1. ストレージ容量,[サーバーのステータス]-[サーバーディスク空き容量].過去30日間のディスク使用量,先月のディスク使用量推移.GBと%. 1. サイトサブスクリプションの有効化-[設定]-[サブスクリプション]-[ユーザーにワークブックおよびビューのサブスクライブを許可する] 1. サイトサブスクリプションの編集-[タスク]-[サブスクリプション]-[アクション]-[スケジュールの変更]/[件名の変更]/[空きビューモードの変更]/[サブスクリプションの解除] 1. プロジェクト構成オプション-[検索]-[プロジェクト]-[共有]/[名前の変更]/[移動]/[パーミッション]/[所有者の変更]/[削除] 1. ユーザの構成オプション-[ユーザ]-[各ユーザ]-[設定] 1. サブスクリプションタイムゾーン -> スケジュールのタイムゾーン設定 1. 抽出,フロー,スケジュールされた更新 -> ジョブのアップデートがあったときにメール通知するか否か 1. サブスクリプション一時停止通知 -> 繰り返しエラーを検知したときにサブスクリプションが止まる -> メール通知するか否か 1. データアラート一時停止通知 -> 繰り返しエラーを検知したときにデータアラート通知が止まる -> メール通知するか否か 1. 誰がユーザーを追加できるか? 1. 前提として十分なユーザーライセンスとロールライセンスが必要 1. サーバ管理者サイトロールはユーザを追加できる. サイト管理者サイトロールはサーバ管理者サイトロールを持つユーザが許可した場合に限りユーザを追加できる. 1. ユーザーの制限とライセンス 1. コアベースライセンスの場合,定義した数のCreatorライセンス,無制限のExploreライセンス 1. ユーザーベースライセンスの場合, ライセンスに所有可能なユーザーの最大数が記載. 1. コアベースライセンスからユーザーベースライセンスへの移行(ライセンス変換)が可能. 1. ユーザーの追加 1. ユーザの追加体系は大枠でサーバーレベル,サイトレベルの2種類.サイトが1つの構成では自動的にサーバレベルの体系が適用. 1. サイトが2つ以上の場合,サーバレベル/サイトレベルの並列.サーバ管理者のみがサーバレベル追加可.[サーバーユーザー]と[サイトユーザー]の2通りの画面に入れる. 1. ライセンスタイプとサイトロール 1. ライセンスタイプはユーザ毎に定義. ユーザにどのサイトロールを割り当てるかにより必要なライセンスタイプが異なる. 1. サイトロールはユーザ毎に定義. マルチサイトではサイト毎に異なるサイトロールを持てる. あるサイトではCreatorサイトロール,別のサイトではViewerサイトロール.など. 1. サイトロールはユーザが持ち得る最大の権限. だが, ユーザがサイトロールの最大の権限を利用できるかは,コンテンツ毎に設定されたパーミッションにより決まる. 1. 管理者レベル 1. サーバ管理者=>TableauServerでのみ利用可能.全リソースに対する無制限のアクセス権. 1. サイト管理者=>TableauOnlineではこれのみ利用可能. サーバ管理者がサイト管理者にユーザの管理/サイトロール,サイト追加を許可するかを決定できる. 1. パブリッシュ可能/不可能な人物 1. Creatorライセンス-サーバ管理者/サイト管理者Creator/Creator => 可能 1. Explorerライセンス-サーバ管理者/サイト管理者Explorer/Explorer(パブリッシュ可能) => 可能 1. Explorerライセンス-Explorer => 不可 1. Explorer(パブリッシュ可能)についてはCreatorに纏わる権限(データソースへの接続など)に制限がある. 1. ローカル認証/ActiveDirectory経由のインポート 1. ローカル認証時のユーザ追加 - [新規ユーザー]押下. ローカル認証時にユーザ名の重複を避けるために電子メールアドレスをユーザ名として使うと良い. 1. ActiveDirectoryを介したインポート - TableauServerでActiveDirectory認証をおこなう設定をしている場合,ドメイン名無しでActiveDirectoryユーザを入力できる.フルネーム禁止. 1. パーミッション 1. パーミッションの構成 1. コンテンツ/プロジェクトに対して, ユーザ/グループに許可/不許可を与える. 1. パーミッションの段階的構成. Lv1.プロジェクトレベルに設定/ Lv2.コンテンツレベルに設定. プロジェクトに設定したパーミッションはサブコンテンツとネストされたプロジェクトに適用. 1. パーミッション設定画面の使い方. 上ペインで[ユーザ]/[グループ]を選択する. => 下ペインに該当ユーザの有効なパーミッション一覧が表示される/編集できる. 1. 下ペインのパーミッショングリッドのセル(許可/不許可が表示される部分)にカーソルを合わせると, 許可/不許可の理由が得られる. 1. プロジェクトのパーミッションロック => コンテンツ, ネストされたプロジェクトのパーミッションをカスタマイズできないように保護する. 1. 種類 => \"許可\",\"拒否\",\"未指定\". 1. 複雑にしないために => ユーザではなくグループに対して設定すべき. コンテンツではなくプロジェクトに設定すべき. 1. パーミッションの詳細 1. プロジェクト 1. ビュー => 許可の場合,プロジェクトを表示できる. プロジェクト内のコンテンツに関してではなく, プロジェクト自身の表示に関する. 1. パブリッシュ => Tableau Desktop, Tableau Prep Builderからプロジェクトにコンテンツをパブリッシュできる. コンテンツの移動,Web作成時の保存にも必要. 1. ワークブック 1. ビュー => 許可の場合,ワークブックを表示できる. 1. フィルター => 許可の場合,ビュー内のフィルターを操作できる. 不許可の場合,フィルターが表示されない. 1. コメントの表示 => 許可の場合,ワークブック内のビューに関連付けられたコメントを表示できる. 1. コメントの追加 => 許可の場合,ワークブック内のビューに対してコメントを追加できる. 1. イメージ/PDFのダウンロード => 許可の場合,ワークブック内のビューをPNG,PDF,PowerPointとしてDownloadできる. 1. サマリーデータのダウンロード => ユーザはビュー内や選択したマーク内の集計データを表示したり, CSVとしてDownloadできる. 1. データソース 1. ビュー => 許可の場合,サーバ上のデータソースを表示できる 1. 接続 => 許可の場合,Tableau Desktop,Tableau Prep Builder,データに聞く,Web編集でデータソースに接続できる. 1. データソースのダウンロード => 許可の場合,サーバからデータソースを*.tdsxとしてダウンロードできる. 1. 上書き => 許可の場合,データソースをパブリッシュしサーバ上のデータソースを上書きする. 1. 削除 => 許可の場合,データソースを削除できる. 1. パーミッションの設定 => 許可の場合,パーミッションルールを作成して編集できる. 1. Tableauのセキュリティモデル 1. プロジェクト 1. コンテンツへのアクセスを整理,管理するために使用するコンテナ. プロジェクト単位で権限を処理する. 1. 階層. 上位プロジェクトを作成できるのは管理者のみ. 所有者とプロジェクトリーダが上位プロジェクトの下にネストされたプロジェクトを作成できる. 1. 所有者とプロジェクトリーダはプロジェクト,コンテンツ,下位プロジェクトに対してアクセス権を持つ.

Amazon Redshift概要アーキテクチャ

やはりAWSの公式のドキュメンテーションは読みやすいので、公式を上から順に舐めていくスタイルで理解していく。今回は一番最初のアーキテクチャ概要。 [arst_toc tag=\"h4\"] アーキテクチャ大きなデータを扱おうとする何かは分散アーキテクチャで解決しようとする。と言っても、大抵は\"代表するノード\"と\"ワーカーノード\"のセットなのでデジャブ感がある。ちなみにTableauServerが内部設計を細かく書いていて面白かった。以下、Amazon Redshiftのアーキテクチャを表す図. (公式) Amazon Redshiftは複数のクラスタから構成される。クラスタはリーダーノードと複数のコンピューティングノードから構成される。クライアントアプリケーションからは唯一リーダーノードと呼ぶノードを参照できる。コンピューティングノードはクライアントアプリケーションから見えない場所に配置されリーダーノードが代表してコンピューティングノードを操作する。リーダーノードクライアントアプリケーションは PostgreSQL用の JDBC/ODBCドライバを使用してリーダーノード通信できる。実行計画に基づいてコードをコンパイルしコンパイル済みのコードをコンピューティングノードに配布してからデータの一部を各コンピューティングノードに割り当てる。コンピューティングノードコンパイル済みのコードを実行し中間結果をリーダーノードに返送する。中間結果はリーダーノードで最終的に集計される。コンピューティングノードのCPU、メモリ、ストレージはノードのタイプによって異なる。ノードの数、種類を増強することでスケールアップできる。ノードスライスコンピューティングノードはスライスに分割されている。各スライスにはノードのメモリとディスク容量の一部を割り当てられている。リーダーノードがスライスへのデータ分散を管理し、クエリ、データベース操作のワークロードをスライスに分配する。スライスは並列処理を行って操作を完了する。内部ネットワークリーダーノードとコンピューティングノードの間はプライベートで非常に高速なネットワーク。コンピューティングノードは独立したプライベートネットワークに配置される。 RDBとの互換性 Amazon Redshift は PostgreSQLを大規模データ用に拡張したミドルウェアである。標準的なRDBMSと同様にデータの挿入、削除、トランザクション処理を実行できる。行指向から列指向に拡張されており、行指向を前提としたクエリは苦手。

tmux – ssh接続先をtmuxのペインに表示する

昔使っていた.tmux.confが失われてしまったため、新しいものを作っていく。不要な機能が満載になっていたので、これを機に必要なものだけ設定する。複数の鯖にsshで繋ぐと、ssh接続のペインだらけになり、間違えて操作してしまうことが多い。その対策として、ssh接続ごとにペインの背景の色を変えていた。結局、間違えるときは色を変えたところで間違えるため、デザインがケバくなるだけで無意味。ペインに接続先ホスト名を表示するぐらいがちょうど良い感じだと思う。こちらの完成度が超絶高いので使うことにしてみた。ホスト名が強調されたりするともっと良いのだけれども。 SSH接続先のホスト名をtmuxのペインに表示する(大事件) #!/bin/zsh #/usr/local/bin/tmux-pane-border if [[ $1 = \"ssh\" ]]; then pane_pid=$2 info=$({ pgrep -flaP $pane_pid ; ps -o command -p $pane_pid; } | xargs -I{} echo {} | awk \'/ssh/\' | sed -E \'s/^[0-9]*[[:blank:]]*ssh //\') port=$(echo $info | grep -Eo \'-p ([0-9]+)\'|sed \'s/-p //\') if [ -z $port ]; then local port=22 fi info=$(echo $info | sed \'s/-p \'\"$port\"\'//g\') user=$(echo $info | awk \'{print $NF}\' | cut -f1 -d@) host=$(echo $info | awk \'{print $NF}\' | cut -f2 -d@) if [ $user = $host ]; then user=$(whoami) list=$(awk \' $1 == \"Host\" { gsub(\"\\\\.\", \"\\\\.\", $2); gsub(\"\\\\*\", \".*\", $2); host = $2; next; } $1 == \"User\" { $1 = \"\"; sub( /^[[:space:]]*/, \"\" ); printf \"%s|%sn\", host, $0; }\' ~/.ssh/config ) echo $list | while read line; do host_user=${line#*|} if [[ \"$host\" =~ $line ]]; then user=$host_user break fi done fi ssh_hostname=\" ssh:$user@$host \" fi echo $ssh_hostname # .tmux.conf set-option -g pane-border-status bottom set-option -g pane-border-format \"#P #(tmux-pane-border #{pane_current_command} #{pane_pid})\" 上記のサイトの通り、各ペインのセッションがsshであればペインのボトムにhostnameを表示している。 sshコマンド自体に手を入れたくないので、process listをポーリングするやり方に賛同します。次回はシステムのクリップボードコピー。

Snowflake External OAuthについての公式ドキュメントを読んでみた話

はじめに Enterpriseにおいて「お前は誰か？」を確認する手段は非常に多岐にわたる。セキュリティと絡んで手段は拡大傾向にあり、新しい認証手段への追従が求められるケースは多い。自前で認証情報を保有、管理し、セキュリティの保証を担保した手順を用意するのは不可能に近い。現実的には認証情報の保有と管理、および認証手段を専用のプラットフォームに移譲させたい。実際、認証の泥臭いプロセスはIdP(Identity Provider)が面倒を見てくれる。 SnowflakeはIdPと薄く関係して、IdPによる認証結果を使い回すことができる。 SnowflakeはIdPがどういったプロセスで認証したのかは一切関与しない。認証後、「お前にこの権限を与えて良いか？」を実装しなければならない場合、アプリ側に機能サポートがなければ、コードでそれを保証しなければならない。 Snowflakeは、ここをExternal OAuth統合として汎化しフルにサポートしている。具体的には、SnowflakeはExternal OAuth統合として汎化していて、 OAuth2.0認可サーバと統合し、RBACとの紐付けまでを面倒みてくれる。 RBACの最小範囲であるスキーマより細かい粒度を区別する場合でなければ、 RBACだけで区別が完了することとなり、大幅な工数削減と品質安定化を達成できる。昔Fitbit APIのOAuth2.0フローを実装した時から始まり、過去に何件かWebアプリ開発で認証認可まわりの実装をしたと思う。 Webアプリの認証認可F/Wはかなり枯れていて、正直中身を知らなくても書けてしまう。開発者人口が少ないSaaSサービスであるSnowflakeがブラックボックス化した認証認可の仕組みを読み解くのは、Webアプリのそれとは次元の違う大変さがある。 (こと認証認可の文脈では安全性の保証がセットとなるため) Snowflake External OAuthについて厳密に調べる機会があったので、生成AIを使わず100%自分の思考と言葉で記事を起こしていく。 [arst_toc tag=\"h4\"] 認証(AuthN) 認証、つまり、Authenticationは、「お前は誰か」を確認すること。 IdPにID/PWを登録しておきID/PWを入力したりMFAを通ることで「確かに〇〇さんだ」と確認すること。単一要素認証(SFA)、多要素認証(MFA)、パスキー認証、FIDO2認証、他、多様な認証方式がある。またシングルサインオン(SSO)、により組織を跨ぐ連携を行うことができる。サービス間のSSO方式としてSAML2.0、API等のSSO方式としてOIDC2.0が広く使われている。顧客管理のIdPによる認証を本IdPに引き継ぐIDフェデレーションにより組織間認証連携を実現できる。認可(AuthZ) 一方認可、つまり、Authorizationは、「お前にこの権限を与えて良いか」を確認すること。認可とは「誰がどのデータにどんなルールでアクセスして良いか」をコントロールする設計パターン。「ルール作りの設計思想」と「システム間で権限をやり取りする技術規格」がごっちゃに扱われがちだが、レイヤが異なる2つの話を分けておくと少しわかりやすくなる。「ルール作りの設計思想」例えば以下のようにルールを定める。ロールベースアクセス制御/Role Based Access Control ユーザ個人ではなく役割に対して権限を付与しユーザをそのロールに所属させる方式。管理者権限のユーザには作成・削除を与え、一般権限のユーザには閲覧のみを与えるなど、一般的な認可方式。SnowflakeのロールモデルはまさにRBACに基づく。属性ベースアクセス制御/Attribute Based Access Control ロールだけでなくユーザの所属、勤務地、アクセスする時間帯、デバイスの種類など、複数の属性(コンテキスト)を組み合わせて動的に認可を判断する方式。「システム間で権限をやり取りする技術規格」例えば以下のようにルールを実現する技術規格を表す。 OAuth2.0 現在のWebで最も普及している「トークンベース」の認可フレームワーク。認可サーバーが発行した「アクセストークン（時限式のカードキー）」をアプリが提示し、リソースサーバー（Snowflakeなど）がそれを検証してアクセスを許可する。「権限の証明書」としてJWT(JSON Web Token)が実際にやり取りされる。JWTは、SON形式のデータを暗号論的に署名したもので、中身に「ユーザー名」「有効期限」、「付与されたロール（権限スコープ）」などが書き込まれている。ケルベロス認証・認可 (Kerberos) 主に一昔前からの社内ネットワーク（Active Directory）環境などで広く使われている方式。チケット」と呼ばれる暗号化されたデータをやり取りすることで一度のログインで社内のファイルサーバーやプリンタなどの利用権限（認可）をシームレスに得る。あああ External OAuth External OAuthは顧客のOAuth2.0認可サーバを統合してシームレスなSSOを実現する。認証プロセスはサービス側が気にするものではなく、本機能は認可の統合であることに注意すること。なお公式(外部 OAuth の概要)は間違いなく認証・認可と言う言葉をごっちゃにしている。 OAuth2.0はRFC6749でThe OAuth2.0 Authorization Frameworkと定義されている。受け渡しされるトークンはOIDCのような認証トークンではなく、OAuth2.0の認可トークンである。外部OAuthという(認可の)仕組みをSnowflakeに設定しておくことで、「外部のIdPが認証したという証明書」をSnowflakeが安全に受け取ってデータアクセス認可する仕組みだ。公式(外部 OAuth の概要)によると、以下に公式に対応している。公式にない場合は、外部 OAuth 用のカスタム認証サーバーを構成するで構成できる。なお「公式」でないからといって「非対応」ではない。「公式」になくても汎用OAuth2.0用のカスタム認証サーバーとして構成できる。 Okta - 外部OAuth用Oktaの構成 Auth0はOktaファミリーだが↑では構成できない。カスタム認証サーバーとして構成が必要 Microsoft EntraID - 外部 OAuth 用 Microsoft Entra ID の構成 Ping Identity PingFederate - 外部 OAuth 用 Microsoft Entra ID の構成 Microsoft PowerBI - Power BI SSO からSnowflakeへ公式にはExternal OAuthのメリットとして以下が挙げられている。トークンの発行を認証サーバーに委任し、発行されたトークンの管理に集中できるようになる。ログイン時のセキュリティルール(MFAやIP制限、承認フローなど)を、Prj IdP側に統合できる。ユーザがその認証と許可に関する厳しいルール(テスト)をクリアしない限り、IdPはトークンを発行しない。怪しいユーザはSnowflakeの入り口にすら辿り着けず、データは完璧に守られる。認証をIdPに持たせることでSnowflake側から認証情報を除去できるためセキュアになる。一見して認証のことしか書かれていないようだが、implicitに認可が書かれている。 Snowflakeは認可をIdPに完全に移譲し、認証とセットで認可が行われたトークンを確認するだけ、ということは、Snowflake側に認可コードを一切書くことなしに認可を実現することと同義。 External OAuthの認証部分の基本フロー公式に基本フローの図が貼ってある。ステップ1だけ構成時にのみ行う。他は都度実行される。最初にセキュリティ統合の構成と、アプリ内の実装が開発者側の責務となる。ベスプラに従ってルールから逸脱しないように構成することで、後はSaaSサービス間の自動連携となる。外部OAuth認証サーバとSnowflakeのセキュリティ統合を構成し信頼性を確立するユーザはアプリを介してSnowflakeにアクセスしようとする。アプリはユーザを確認しようとする認証サーバはOAuthトークンをアプリに返す SnowflakeドライバはOAuthトークンを使用して接続文字列をSnowflakeに渡す SnowflakeはOAuthトークンを検証する Snowflakeはユーザ検索を実行する Snowflakeはユーザのロールに基づいてセッションをインスタンス化する External OAuthの認可部分、スコープいきなり「スコープ」というワードが出てくるが、これ、JWTの\"scope\"キー/バリューのこと。 OAuth2.0においてJWTで認可範囲を設定するのだ、という理解と記憶がなければ読めない。 JWTは以下のような構成となっておりscopeを格納する場所がある。認可サーバ側で何らかの許可処理の結果、ユーザのスコープが決まり、Snowflakeに送られる。このトークンがSnowflakeに届くと、Snowflakeはscopeキーのバリューを読み取り、「このユーザにはST_USER_ROLEというロール(権限)を適用してセッションを始めるべき」と判断する。 { \"iss\": \"https://your-project-idp.auth0.com/\", \"sub\": \"user_12345\", \"email\": \"user@client.com\", \"exp\": 1719100000, \"scope\": \"session:role:ST_USER_ROLE\" <-- 🌟これが「スコープ」 } Okta, PingFederate, カスタムの場合は以下のパターンを使用しなければならない。スコープ説明 session:role:<custom_role> Snowflakeのカスタムロールにマップする。例えばsession:role:ST_USER_ROLEで、ST_USER_ROLEにマップ session:role:public Snowflakeの PUBLIC ロールにマップ session:role-any 外部OAuthサーバでのSnowflakeロール管理を行わない場合これを渡す。特定のロールを固定せず、そのユーザに付与されているロールであれば、ログイン後に自由に切り替えて(USE ROLEして)使って良い、という少し緩めの認可なお、以下のビルトインロールはデフォルトではブロックされる。 ACCOUNTADMIN GLOBALORGADMIN ORGADMIN SECURITYADMIN Snowflake OAuthは、セッション中のロールのセカンダリロールへの切り替えをサポートしていないが、 External OAuthでのセカンダリロールの使用はサポートしている。 External OAuth特有のセキュリティの抜け穴と対策 Snowflakeにおいて、アカウントレベルでネットワークポリシーによりIP制限をかけていたとしても、 External OAuthと合わせて構成するSecurity Integrationを経由してログインしてくる場合、そのユーザ個人のIP制限が無視されてしまう、という仕様がある。つまり、IdP側のIP制限が破られたり、トークンが盗まれたりした場合、攻撃者はどこからでもSnowflakeのデータにアクセスできてしまう状態になる。 Snowflakeは、External OAuth自体にもネットワークポリシーを直接紐づけることを推奨している。具体的にはSecurity Integrationにネットワークポリシーを直接紐づける。これによりIdPから届いたトークンであっても、ネットワークポリシーで許可されたIPアドレス以外からのリクエストであれば、Snowflakeはセッションを開始しない。これはIdPフェデレーション等で複雑化したユーザ組織の通信経路を全て把握する必要性を言っている。こういうの、デフォルトで安全側に振って欲しいなとは思う。カスタム認証サーバーの構成・トークンペイロード要件カスタム認証サーバーがSnowflakeに送信するアクセストークンには、下表が含まれている必要がある。クレーム説明 scp Snowflake のカスタムロールを指定する文字列が含まれていること。値として session:role:ST_USER_ROLE のような Snowflake 指定の形式の文字列を、配列またはスペース区切りの文字列で必ず埋め込まなければならない。 scope 同上。IdPプロダクトによりscpかscopeのどちらかを入れる。 aud Snowflake アカウントの完全な URL（https://.snowflakecomputing.com）が含まれている必要がある。 exp 有効時間。トークンの有効期限が UNIX タイムスタンプ（エポック秒）で刻まれている必要がある。Snowflake はトークンを受け取った瞬間の時刻とこの exp を比較します。有効期限が過去の時刻になっている（期限切れ）場合は、その時点で認可を即座に拒否する。 iss 発行者。アクセストークンを発行したプリンシパルを文字列 URI として識別。つまりトークンを発行した IdPのアイデンティティ（例: https://your-project-idp.auth0.com/）。最後のスラッシュ（/）の有無まで1文字違わず一致させる必要がある。Snowflake 側の EXTERNAL_OAUTH_ISSUER で指定した文字列と完全に一致する必要がある。 iat 発行時刻。必須。JWT が発行された時刻を識別カスタム認証サーバーの構成・セキュリティ統合の作成 External OAuth を実現する Snowflakeのリソースの実体。カスタム認証サーバからのアクセストークンと安全に通信して検証し、アクセストークンに関連付けられたユーザーロールに基づいてSnowflakeへのアクセスをユーザに提供する。 create security integration external_oauth_custom type = external_oauth enabled = true external_oauth_type = custom external_oauth_issuer = \'\' external_oauth_rsa_public_key = \'\' external_oauth_audience_list = (\'\', \'\') external_oauth_token_user_mapping_claim = \'upn\' external_oauth_snowflake_user_mapping_attribute = \'login_name\'; それぞれの内容は下表の通り。パラメータ説明 EXTERNAL_OAUTH_ISSUER 外部認証サーバー（IdP）を一意に識別するURL（発行元URL）を指定する。IdPから発行されるアクセストークン（JWT）の iss クレームの値と完全に一致する必要がある。 EXTERNAL_OAUTH_JWS_KEYS_URL 外部認証サーバーが公開している、デジタル署名の検証に必要な公開鍵（JWKS）が配置されたURLを指定する。SnowflakeはこのURLにアクセスしてトークンの妥当性を検証する。 EXTERNAL_OAUTH_TOKEN_USER_MAPPING_CLAIM 外部認証サーバーが発行するアクセストークン（JWT）の中で、ユーザーの識別情報（メールアドレスやユーザーIDなど）が格納されている「キー（クレーム名）」を指定する。 EXTERNAL_OAUTH_SNOWFLAKE_USER_MAPPING_ATTRIBUTE トークンから抽出したユーザー識別情報を、Snowflake側の USER オブジェクトのどの属性（EMAIL_ADDRESS または LOGIN_NAME）と一致させるかを指定する。カスタム認証サーバーの構成・テスト公式では、最短パスで構成を検証するため、curl で HTTP Post を送る手順が書かれている。 IdP側にテストユーザを作成しておく。テストユーザはパスワードを持つ必要がある Snowflake側にも、上記と同じメールアドレス（または識別子）を持つ USER オブジェクトを事前に作っておく。login_name, または emailでマッピングする IdP側の画面でこのテスト用のアカウントを作成し、専用のClientID, ClinetSecretを取得する次のように、 OAuth 2.0クライアントがカスタムトークンエンドポイントに POST リクエストすることを許可 OAuth 2.0の用語でいう grant_type = password（Resource Owner Password Credentials Grant）方式を使うこと。すなわち「リソース所有者に設定された付与タイプ」であり、アプリ画面を介さず、ユーザーのID/PWを直接リクエストに含めてトークンを即時発行してもらう、テスト専用の最短ルートを構築する。準備で用意したclientID と clientSecretをHTTP Basic認証ヘッダーに含めることリクエストのBody（送信データ）には、FORM形式（application/x-www-form-urlencoded）で、テストユーザーのID/PWと、Snowflakeに渡したいスコープを指定すること curl -X POST -H \"Content-Type: application/x-www-form-urlencoded;charset=UTF-8\" --user : --data-urlencode \"username=\" --data-urlencode \"password=\" --data-urlencode \"grant_type=password\" --data-urlencode \"scope=session:role:analyst\" 公式対応認証サーバーと非公式(カスタム対応)の違い公式対応認証サーバーと、非公式(カスタム対応)の違いをまとめてみる。ケース1：IdPの「署名用公開鍵」がローテーション（変更）されたとき JWT（トークン）が偽造されていないかを証明するための「公開鍵」は、セキュリティ担保のために数ヶ月ごとに自動で新しいものにローテーションするのが一般的。公式対応の場合、SnowflakeがOkta側の鍵更新スケジュールや新しい公開鍵の取得先をあらかじめ知っているため、Snowflake側が自動で追従する。開発者は何のアクションも起こす必要はなく、システムは止まらない。カスタム、つまり非公式の場合であっても基本的には指定したURL （.well-known/jwks.json）を見に行ってくれるので自動追従するが、もしIdP側のメジャーアップデート等で「公開鍵を配置するURLの仕様そのもの」が変わった場合は、Snowflakeの設定パラメータ（EXTERNAL_OAUTH_JWS_KEYS_URL）を開発者が手動で新しいURLに書き換えるまで、認証・認可がすべてエラーになってシステムが停止する。 IdP側のセキュリティ仕様やエンドポイントの仕様が変更されたとき近年、サイバー攻撃の高度化に伴い、IdP側（OktaやMicrosoftなど）がトークンの発行ルールや、検証用APIの仕様（プロトコル）をより安全なものへ強制アップデートすることがある。 SnowflakeはOktaやMicrosoftと強固な技術パートナーシップを結んでいるため、 IdP側の仕様変更がリリースされる前に、Snowflake側の「特急レーン（専用プログラム）」を事前にアップデートして追従させる。そのため、開発者がコードや設定を修正することなく、シームレスに新しいセキュリティ基準へ移行できる。カスタム、つまり非マネージドの場合、Snowflakeは「汎用的なOAuth 2.0の標準規格（RFC）」に準拠していることしか保証しない。そのため、IdP側が独自のセキュリティ拡張を行ったり、標準規格の解釈を変更したりした場合、トークンのペイロード構造（キー・バリュー）が変わり、 Snowflakeがトークンを解読できなくなるリスクがある。この場合、開発者がIdP側の設定を手動で修正して追従する必要がある。まとめ SnowflakeにおけるExternal OAuth統合の仕組みを「認証」と「認可」のレイヤを分離して読んでみた。認証・認可を完全にIdPに移譲し、Snowflakeアプリケーション内で一切の認可コードを書かずに済む。数あるIdPのうち、いくつかについてはSnowflakeが公式対応している。公式IdP構成はテクノロジーパートナーシップに基づき、Snowflakeのマネージド構成の一部として、 Snowflake側がIdP側の変更に自動追従する可能性が高い。結果としてダウンタイムの発生を回避できる。公式対応IdPでなくても、OAuth2.0 RFC準拠の認証サーバとしてカスタム連携することができるが、 SnowflakeがIdP側の変更に自動追従する性質ではなく、運用者・開発者がIdP側の変更に適用する必要がある。

NumPy ndarray assignment, vector operation, indexing, slicing, bool indexing, transposition

ndarrayを作る

ndarrayのデータ型

ベクトル演算

スライスとView

Viewの選択

reshape

Snowflake SAML2.0 Security Integrationを使用したSP/IdP Initiated SAML Federationと構成の詳細

Streamlit appをrestricted caller’s rightsで動作させる場合にコンテナインスタンスが必須となる背景を考えた話

Snowflake External OAuthについての公式ドキュメントを読んでみた話

Streamlit in Snowflakeの開発環境を整備して初めてのアプリケーションを実装した話

Streamlit in Snowflakeにおける分離コンテナ環境とセッション管理の仕組みを理解した話

React+Next.jsでDummy JSONのCRUDをCSR/SSRの両方で作成して違いを調べてみた話

go-txdbを使ってgolang, gin, gorm(gen)+sqlite構成のAPI をテストケース毎に管理する

gorm互換の型安全なORMであるgenでCRUD APIを試作

Golang + Gin カスタムバリデーション

Golang + Gin Framework で Hello World してみた話〜基本的なルーティング、バスパラメタ・クエリパラメタ・JSON Req/Res、フォームデータ

ndarrayを作る

ndarrayのデータ型

ベクトル演算

スライスとView

Viewの選択

reshape

関連記事