dbt

モデルについて考えてみた話

投稿日 2023年07月15日

カテゴリ: dbtタグ: 日々の学び

dbt Fundamentalsの「Models」のセクションについて、理解した内容を言葉にしてみた。
かなりの部分で感想を織り交ぜてみた。この記事は前回の記事(以下)の続き。

サーバーサイドエンジニアのデータベースエンジニア寄りの枠ぐらいの認識しかないと、データエンジニアリングの尖った部分に永遠に近づけないという感触がある。サーバーサイドエンジニアの入口から入った場合はちゃんとチェンジしないといけないな。 dbtが公式で「データエンジニアリングの用語と概念」を長い尺で説明していて学んでみた。サーバーサイドエンジニア的にはETLは普通のジョブやバッチ処理だと思うが、 ELT化することで何を改善しようとしていて何が達成されたのか説明できるようになった。 dbt Fundamentals

実践的なコンテンツというよりは、概念の理解を優先した入門用のコンテンツであって、
これでモノを作れることはないと思うし、資格対策には不足していると思う。
動画の講師の方は自己紹介で教師のバックグラウンドがあると話されている。
個人的にはUdemyの類似品より構成と英語の発音がわかりやすいと感じる。

【目次】

∨クエリをバラして理解しやすいようにしたい
∨Modularity
∨CTEと論理レイヤとモデル
∨Materialization
∨モデルの例
∨モデリングの方法論とdbtの仮定
∨よもやま話(動画と関係なし)
∨まとめ

クエリをバラして理解しやすいようにしたい

関数型言語は、関数が再起的に評価されることで最終的な応答が確定する。
手続き型言語と異なり、再帰の評価の途中で一時停止して内容を観察することが難しい。
SQLは関数型言語ではないが、内包するSQLの評価を一時停止して観察することが難しい、
という点で近い。制御がない一筆書きである点が複雑さから逃れる理由になっていそう。

ビジネスロジックが乗った巨大なクエリは確かに一筆書きではあるが、理解しづらい。
クエリをバラしたら理解しやすいんじゃね？　みたいな動機があるのだと思う。
ただバラして制御するとそれはもう手続きなので、バラすけど再利用するだけに留める。
バラして、途中経過を観察したり動きを制御したり、そういう仕組みをdbtが提供する。

Modularity

クエリをバラすことを、dbtでは「Modularity(モジュール性)」という用語で説明している。
動画では「車の製造」が例えとして挙げられている。パーツとパーツを繋げて車を製造すると。

Modularityは構造化されていて、上流(Upstream)から下流(Downstream)へと繋がる。
Upstreamで作ったパーツをDownstreamで再利用する、という仕組み。

1個1個のパーツは、CTE(Common Table Expression)を利用して表現される。
CTEは標準SQLに定義されていて、クエリの再利用性を高める表現手段。
要は、dbtはCTEを使ってクエリの再利用性を強制するF/Wなんだろうと思う。

CTEと論理レイヤとモデル

実際に動作する生クエリを書くのではなく、論理的な記述レイヤを設けている。
論理レイヤの記述フォーマットとして、jinjaテンプレートが採用されている。
jinjaテンプレートにマクロを記述することで論理レイヤの表現能力を獲得している様子。

Modularityの観点でCTEで各パーツを定義し、Up->Downのフローを論理的に定義する。
dbtが論理レイヤをコンパイルして物理SQLを吐くという仕様になっている。

このパーツのことをdbtでは「モデル」と呼んでいる様子。
1個のSELECT文が1個のモデルと対応する制約が与えられる。
これにより、Up側モデルをDown側モデルで再利用することと、クエリ結果の再利用を紐付けている。

Materialization

パーツは個別に具体的なSQLにコンパイルされる。これには「Materialize」という用語が付いている。
Upstream側を実体化する際、その実体化の手段を選択できる。

View

モデルをViewとして実体化する。実データを作らないので作るのが速いしストレージを食わない。
Viewに乗ったロジックが複雑だと所要時間が増えるので、その場合はTableの採用を考える。
CREATE VIEW AS … が使われる。

Table

モデルをTableとして実体化する。実データを作るので作るのに時間がかかるしストレージを食う。
ロジックが複雑であっても所要時間が増えない。BIから直接参照するとかならTableの採用を考える。
Up側にあるデータに追加や変更があっても反映されない。
CREATE (TRANSIENT) TABLE AS … が使われる。

Incremental

パイプラインを構築する際、「置き換え」なのか「増分」なのかは重要な観点となる。
初回生成時は通常のTableとして、2回目移行は増分だけを生成する。なので速い。
「増分」とする場合、どこが既存と増分の境界なのかを定義する必要がある。
その定義をモデルファイルに書く必要があり、若干複雑になる。

Ephemeral

中間テーブルをいちいちViewやTableに実体化し続けると、DWが再利用する可能性が低い何かで
埋め尽くされてしまうことがある。そういったテーブルはModularityの中で論理的に再利用したいが、
物理的に存在して欲しくない。それを実現できる。
Downstream側で1個か2個使うだけで、直接クエリを実行する必要がない場合に使うと良い。

モデルの例

動画では以下のクエリをdbt流に書く例が示されている。
以下は生クエリで、with句により3個のクエリを用意し4個目のクエリで結合している。


with customers as (
    select
        id as customer_id,
        first_name,
        last_name
    from raw.jaffle_shop.customers
),
orders as (
    select
        id as order_id,
        user_id as customer_id,
        order_date,
        status
    from raw.jaffle_shop.orders
),
customer_orders as (
    select
        customer_id,
        min(order_date) as first_order_date,
        max(order_date) as most_recent_order_date,
        count(order_id) as number_of_orders
    from orders
    group by 1
),
final as (
    select
        customers.customer_id,
        customers.first_name,
        customers.last_name,
        customer_orders.first_order_date,
        customer_orders.most_recent_order_date,
        coalesce(customer_orders.number_of_orders, 0) as number_of_orders
    from customers
    left join customer_orders using (customer_id)
)
select * from final

さて、次はdbtの論理レイヤの話。まずcustomersとordersをを別のファイルに記述する。


with customers as (
    select
        id as customer_id,
        first_name,
        last_name
    from raw.jaffle_shop.customers
)
select * from customers


with orders as (
    select
        id as order_id,
        user_id as customer_id,
        order_date,
        status
    from raw.jaffle_shop.orders
)
select * from orders

customersとordersを結合する。その際、customersとordersをref関数により参照する。
言い換えると、以下が評価される時点で、既にcustomersとordersは実体が存在する。
そのため、以下を評価する前に、customersとordersの中にあるデータを確認できる。


with customers as (
    select * from {{ ref('stg_customers')}}
),
orders as (
    select * from {{ ref('stg_orders') }}
),
customer_orders as (
    select
        customer_id,
        min(order_date) as first_order_date,
        max(order_date) as most_recent_order_date,
        count(order_id) as number_of_orders
    from orders
    group by 1
),
final as (
    select
        customers.customer_id,
        customers.first_name,
        customers.last_name,
        customer_orders.first_order_date,
        customer_orders.most_recent_order_date,
        coalesce(customer_orders.number_of_orders, 0) as number_of_orders
    from customers
    left join customer_orders using (customer_id)
)
select * from final

dbt runコマンドにより、全てのモデルをコンパイルする。
また –selectをつけると、、特定のモデルだけコンパイルできる。

dbtには下図のようにモデル間の依存関係をグラフィカルに表示する機能がある。

モデリングの方法論とdbtの仮定

dbtは単なるクエリの変換ツールであって、現実世界のモデルする方法論を規定するものではない。
しかし、動画ではモデルのセクションでチラッとこの話に触れられている。

Fact TableとDimensional Tableに整理してDimension毎のFactを提供しましょう、
という流儀や、Kimball,Data Vaultのような流儀など、諸々存在する。
動画では、これらをTraditionalと分類し正規化がポイントであると言っている。

コンピューティングとストレージが安くなり、ELTが可能になったおかげで、
“正規化しない(Denormalized)”モデリング手法が実現可能になりましたよ、と言っている。

むむ.. 相当深そうだが入り口だけ。
いったん、ELTを前提としてモデルを組み上げてください、ぐらいの話として聞き取る。
ELTを前提として、モデルをこうレイヤリングし名前を付けますよと話されている。

Source
ELTであるが故に、外部のデータを無変換でDWに格納したところからスタートする。
そのレイヤを「Source」と名付ける。
Staging
Sourceレイヤのモデルのクレンジングと標準化を行うレイヤを「Staging」と名づける。
StagingモデルはSourceモデルと1:1対応させる。
Intermediate
Stagingモデルに対してビジネスロジックを適用して最終的なテーブルを生成する。
ビジネスロジックはダラダラと汚く大きくなることが常で、このレイヤで吸収する。
Fact
起きていること、または、既に起きたこと。履歴があるもの。
なんたらイベント、Webサイトにおけるクリック事象、投票など。
Dimension
時間の経過で発生するものではない履歴がない事象。
人、場所、コト、ユーザ、会社、製品、、顧客など。

以下は、動画で話されている実行例。
dbt-labs/jaffle_shop
https://github.com/dbt-labs/jaffle_shop

一番左の緑色のモデルがSource。外部から引っ張ってきたRawデータ。
Sourceと1対1対応する形で、「stg_*」という名前のStagingモデルが存在する。
Sourceに対してクレンジング、標準化を適用したデータ。
「fact_*」は、時間経過により発生する履歴データ、そして、「dim_*」は属性データ。

Down側からUp側へ、Source->Staging->Fact/Dimension という流れになっている。

よもやま話(動画と関係なし)

例えばLaravel/EloquentやRails/ActiveRecordにはQuery Builderが付いていて、
手続き型言語によってクエリのModularityを得るアプローチには既視感があると勝手に思っている。
もちろんクエリ結果をDWに統合できないから、DWに統合できるF/Wが必要なので、
そのアプローチはSnowflakeで言えばSnowparkによって扱われるのかなと思う。
手続き型言語ではソフトウエア開発の複雑さから逃れられないことになっている。

ちなみにORMにおける物理テーブルの抽象化において「モデル」という用語が充てられている。
少なくとも1990年代後半にはORMの文脈で物理テーブルを抽象化する概念は実用化されていた気がする。
2000年代には、オブジェクト指向分析設計の文脈で「現実世界のモデル化」がイキりたおされていた。
2010年代、Laravel/Eloquent, Rails/ActiveRecordでORMのモダニズムが言われてた。
手続きに持ち込まず、SQLの世界だけでモデル化が話されるのは新しい気がする。
ここは最初の「Analytics Engineers」の話に由来している気がする。

まとめ

dbt Fundamentalsの「Models」セクションを聴いて、内容を文書化してみた。
dbtはModularityと考え方に基づいてCTEによりクエリをバラすツールであることについて、
Modelの定義や実行例を追って確認してみた。

go-txdbを使ってgolang, gin, gorm(gen)+sqlite構成のAPI をテストケース毎に管理する

データベース依存のテストケースを作る際に、テストケース毎にDBがクリーンな状態を維持したい。 go-txdbはDBへの接続時にトランザクションを開始、切断時にトランザクションを終了するSQLドライバ。テスト実行中にトランザクション内で発行したステートメント・行はテスト終了時には消滅する。 DB毎に実装方法は異なり、例えばSQLiteでは\"トランザクション\"ではなくsaveponitで実装される。 [clink implicit=\"false\" url=\"https://github.com/DATA-DOG/go-txdb\" imgurl=\"https://avatars.githubusercontent.com/u/6613360?s=48&v=4\" title=\"Single transaction based sql.Driver for GO\" excerpt=\"Package txdb is a single transaction based database sql driver. When the connection is opened, it starts a transaction and all operations performed on this sql.DB will be within that transaction. If concurrent actions are performed, the lock is acquired and connection is always released the statements and rows are not holding the connection.\"] [arst_toc tag=\"h4\"] 環境構築 Claude Code (Sonnet4.5) で以下の環境を構成した。途中15回のエラーリカバリを挟んで期待通りの環境が出来上がった。 main.goがアプリケーションのルーティング(ハンドラ共有)、 main_test.goが main.goのルートに対するテスト。テストにはTestMain()が含まれている。 test_repository_test.goはGinが生成したリポジトリ層(モデル)をルートを経由せずテストする。 $ tree . -L 2 . ├── data │ └── db.sqlite # SQLite DBファイル ├── docker-compose.yml # Go+sqlite ├── Dockerfile # golang:1.23-alpineベース ├── gen.go # GORM Genコード生成スクリプト ├── go.mod # 依存関係の定義(go getやgo mod tidyで更新) ├── go.sum # 依存関係の検証用ハッシュ(自動) ├── init.sql # DDL,初期レコード ├── main.go # Gin初期化,ルーティング ├── main_test.go # main.goのルーティングに対するテストコード ├── models # モデル │ ├── model # testsテーブルと対応する構造体定義 (自動生成) │ └── query # (自動生成) ├── repository │ └── test_repository_test.go # リポジトリ層（データアクセス層）のテスト └── testhelper └── db.go # TxDB初期化等テスト用ヘルパーサンプルデータの準備 testsというテーブルに id, value というカラムを用意し、hoge, fuga レコードを挿入しておく。簡略化のためにSQLiteを使用しており、ホスト側のファイルをbindマウントし初期実行判定して投入した。 -- Create tests table CREATE TABLE IF NOT EXISTS tests ( id INTEGER PRIMARY KEY, value TEXT NOT NULL ); -- Insert initial data INSERT OR IGNORE INTO tests (id, value) VALUES (1, \'hoge\'); INSERT OR IGNORE INTO tests (id, value) VALUES (2, \'fuga\'); CRUD ルーティング gin, gorm(gen) を使用して testsテーブルに対するCRUDを行う以下のルートを定義した。それぞれ、genを使用しGolang言語のレベルでオブジェクトを操作している。 | メソッド | エンドポイント| 説明 | 仕様 | |--------|------------|----------------|-------------------------------------------------| | GET | /hello | 全レコード取得 | Find()で全レコードを取得し返却 | | GET | /hello/:id | 指定IDのレコード取得 | URLパラメータからIDを取得し、該当レコードを返却 | | POST | /hello | 新規レコード追加 | JSONリクエストボディからidとvalueを受け取り新規作成 | | PATCH | /hello/:id | 指定IDのレコード更新 | URLパラメータのIDとJSONボディのvalueでレコード更新 | | DELETE | /hello/:id | 指定IDのレコード削除 | URLパラメータのIDでレコード削除. | 各ハンドラの詳細な実装は冗長なので割愛。手動リクエストと応答各エンドポイントに対するリクエストとレスポンスの関係は以下。期待通り。 # 全件取得し応答 $ curl http://localhost:8080/hello [{\"id\":1,\"value\":\"hoge\"},{\"id\":2,\"value\":\"fuga\"}] # id=1を取得し応答 $ curl http://localhost:8080/hello/1 {\"id\":1,\"value\":\"hoge\"} # id=3を追加 $ curl -X POST http://localhost:8080/hello -H \"Content-Type: application/json\" -d \'{\"id\":3,\"value\":\"piyo\"}\' {\"id\":3,\"value\":\"piyo\"} $ curl http://localhost:8080/hello [{\"id\":1,\"value\":\"hoge\"},{\"id\":2,\"value\":\"fuga\"},{\"id\":3,\"value\":\"piyo\"}] # id=3を変更 $ curl -X PATCH http://localhost:8080/hello/3 -H \"Content-Type: application/json\" -d \'{\"value\":\"updated_piyo\"}\' {\"id\":3,\"value\":\"updated_piyo\"} # id=3を削除 $ curl -X DELETE http://localhost:8080/hello/3 {\"message\":\"record deleted successfully\"} # 全件取得し応答 $ curl http://localhost:8080/hello [{\"id\":1,\"value\":\"hoge\"},{\"id\":2,\"value\":\"fuga\"}] txdbを使用するためのテスト用ヘルパー関数 txdbを使用するためのテスト用ヘルパー関数を以下のように定義しておく。 package testhelper import ( \"database/sql\" \"fmt\" \"os\" \"sync\" \"sync/atomic\" \"github.com/DATA-DOG/go-txdb\" _ \"github.com/mattn/go-sqlite3\" \"gorm.io/driver/sqlite\" \"gorm.io/gorm\" ) var ( once sync.Once connID atomic.Uint64 ) // SetupTxDB initializes txdb driver for testing func SetupTxDB() { once.Do(func() { // Get database path dbPath := os.Getenv(\"DB_PATH\") if dbPath == \"\" { dbPath = \"./data/db.sqlite\" } // Register txdb driver with SQLite-specific options // Use WAL mode and configure for better concurrent access dsn := fmt.Sprintf(\"%s?_journal_mode=WAL&_busy_timeout=5000\", dbPath) txdb.Register(\"txdb\", \"sqlite3\", dsn) }) } // NewTestDB creates a new test database connection with txdb // Each connection will be isolated in a transaction and rolled back after test func NewTestDB() (*gorm.DB, error) { SetupTxDB() // Open connection using txdb driver with unique connection ID // This ensures each test gets its own isolated transaction id := connID.Add(1) sqlDB, err := sql.Open(\"txdb\", fmt.Sprintf(\"connection_%d\", id)) if err != nil { return nil, fmt.Errorf(\"failed to open txdb connection: %w\", err) } // Wrap with GORM db, err := gorm.Open(sqlite.Dialector{ Conn: sqlDB, }, &gorm.Config{}) if err != nil { return nil, fmt.Errorf(\"failed to open gorm connection: %w\", err) } return db, nil } テストの命名規則と共通処理テストの関数名はTestXXX()のようにTestから始まりキャメルケースを続ける。 TestMain()内に全ての処理の前に実行する処理、後に実行する処理を記述できる。 package main import ( \"bytes\" \"encoding/json\" \"net/http\" \"net/http/httptest\" \"os\" \"testing\" \"gin_txdb/testhelper\" \"github.com/gin-gonic/gin\" \"github.com/stretchr/testify/assert\" \"github.com/stretchr/testify/require\" ) func TestMain(m *testing.M) { // Set DB_PATH for testing os.Setenv(\"DB_PATH\", \"./data/db.sqlite\") // Set Gin to test mode gin.SetMode(gin.TestMode) // Run tests code := m.Run() os.Exit(code) } 全件取得のテストヘルパー関数のNewTestDB()を使用することでtxdbを使用してDBに接続している。 defer func()内でコネクションを明示的にクローズする処理を遅延評価(=テスト完了時評価)しているが、テスト実行中にエラーやpanicが起きた場合に開いたDBを切ることができなくなる問題への対処。特にSQLiteの場合「接続は常に1つ」なので、切り忘れで接続が開きっぱなしになると、次のテスト実行でロックエラーが発生する。明示的に閉じることでこの問題を確実に回避できる。後はアサートを書いていく。 func TestGetAllTests(t *testing.T) { // Setup test database with txdb db, err := testhelper.NewTestDB() require.NoError(t, err) defer func() { sqlDB, _ := db.DB() sqlDB.Close() }() // Setup router using main.go\'s SetupRouter router := SetupRouter(db) // Create request req, _ := http.NewRequest(http.MethodGet, \"/hello\", nil) w := httptest.NewRecorder() // Perform request router.ServeHTTP(w, req) // Assert response assert.Equal(t, http.StatusOK, w.Code) var response []map[string]interface{} err = json.Unmarshal(w.Body.Bytes(), &response) require.NoError(t, err) // Should have 2 initial records assert.Len(t, response, 2) assert.Equal(t, float64(1), response[0][\"id\"]) assert.Equal(t, \"hoge\", response[0][\"value\"]) assert.Equal(t, float64(2), response[1][\"id\"]) assert.Equal(t, \"fuga\", response[1][\"value\"]) } このテストだけ実行してみる。-run オプションでテスト名を指定する。 $ go test -run TestGetAllTests [GIN] 2025/10/15 - 17:17:44 | 200 | 238.666µs | | GET \"/hello\" PASS ok gin_txdb 0.496s 1件取得のテスト(正常系) [GET] /hello/:id のテスト。指定したIDが存在する正常系。 func TestGetTestByID_Success(t *testing.T) { // Setup test database with txdb db, err := testhelper.NewTestDB() require.NoError(t, err) defer func() { sqlDB, _ := db.DB() sqlDB.Close() }() // Setup router router := SetupRouter(db) // Create request req, _ := http.NewRequest(http.MethodGet, \"/hello/1\", nil) w := httptest.NewRecorder() // Perform request router.ServeHTTP(w, req) // Assert response assert.Equal(t, http.StatusOK, w.Code) var response map[string]interface{} err = json.Unmarshal(w.Body.Bytes(), &response) require.NoError(t, err) assert.Equal(t, float64(1), response[\"id\"]) assert.Equal(t, \"hoge\", response[\"value\"]) } 実行結果は以下の通り。 go test -run TestGetTestByID_Success [GIN] 2025/10/15 - 17:24:41 | 200 | 207.25µs | | GET \"/hello/1\" PASS ok gin_txdb 0.330s 1件取得のテスト(異常系) [GET] /hello/:idのテスト。指定したIDが見つからない異常系。 func TestGetTestByID_NotFound(t *testing.T) { // Setup test database with txdb db, err := testhelper.NewTestDB() require.NoError(t, err) defer func() { sqlDB, _ := db.DB() sqlDB.Close() }() // Setup router router := SetupRouter(db) // Create request for non-existent ID req, _ := http.NewRequest(http.MethodGet, \"/hello/999\", nil) w := httptest.NewRecorder() // Perform request router.ServeHTTP(w, req) // Assert response assert.Equal(t, http.StatusNotFound, w.Code) var response map[string]interface{} err = json.Unmarshal(w.Body.Bytes(), &response) require.NoError(t, err) assert.Equal(t, \"record not found\", response[\"error\"]) } 実行結果は以下の通り。 go test -run TestGetTestByID_NotFound ./gin_txdb/main.go:52 record not found [0.105ms] [rows:0] SELECT * FROM `tests` WHERE `tests`.`id` = 999 ORDER BY `tests`.`id` LIMIT 1 [GIN] 2025/10/15 - 17:22:45 | 404 | 542.875µs | | GET \"/hello/999\" PASS ok gin_txdb 0.672s 1件追加のテスト(正常系) [POST] /helloが正常終了した場合、追加したレコードをレスポンスで返す処理のため、レスポンスで返ってきたデータをアサートしている。その後、[GET] /hello/:id のレスポンスを使ってアサートしている。 func TestCreateTest_Success(t *testing.T) { // Setup test database with txdb db, err := testhelper.NewTestDB() require.NoError(t, err) defer func() { sqlDB, _ := db.DB() sqlDB.Close() }() // Setup router router := SetupRouter(db) // Create request body payload := map[string]interface{}{ \"id\": 100, \"value\": \"test_value\", } body, _ := json.Marshal(payload) // Create request req, _ := http.NewRequest(http.MethodPost, \"/hello\", bytes.NewBuffer(body)) req.Header.Set(\"Content-Type\", \"application/json\") w := httptest.NewRecorder() // Perform request router.ServeHTTP(w, req) // Assert response assert.Equal(t, http.StatusCreated, w.Code) var response map[string]interface{} err = json.Unmarshal(w.Body.Bytes(), &response) require.NoError(t, err) assert.Equal(t, float64(100), response[\"id\"]) assert.Equal(t, \"test_value\", response[\"value\"]) // Verify the record was actually created req2, _ := http.NewRequest(http.MethodGet, \"/hello/100\", nil) w2 := httptest.NewRecorder() router.ServeHTTP(w2, req2) assert.Equal(t, http.StatusOK, w2.Code) } 実行結果は以下の通り。 $ go test -run TestCreateTest_Success [GIN] 2025/10/15 - 17:30:04 | 201 | 398.167µs | | POST \"/hello\" [GIN] 2025/10/15 - 17:30:04 | 200 | 47.625µs | | GET \"/hello/100\" PASS ok gin_txdb 0.505s 1件追加のテスト(異常なパラメタ。異常系) testsレコードはid,valueカラムを持つ。idのみ(valueなし)を渡した場合400エラーを返す。 func TestCreateTest_MissingFields(t *testing.T) { // Setup test database with txdb db, err := testhelper.NewTestDB() require.NoError(t, err) defer func() { sqlDB, _ := db.DB() sqlDB.Close() }() // Setup router router := SetupRouter(db) // Create request body with missing value field payload := map[string]interface{}{ \"id\": 100, } body, _ := json.Marshal(payload) // Create request req, _ := http.NewRequest(http.MethodPost, \"/hello\", bytes.NewBuffer(body)) req.Header.Set(\"Content-Type\", \"application/json\") w := httptest.NewRecorder() // Perform request router.ServeHTTP(w, req) // Assert response assert.Equal(t, http.StatusBadRequest, w.Code) } 実行結果は以下の通り。期待通り400エラーが返ったことをアサートできた。 go test -run TestCreateTest_MissingFields [GIN] 2025/10/15 - 17:36:49 | 400 | 139.709µs | | POST \"/hello\" PASS ok gin_txdb 0.501s txdbが正しくトランザクションを分離していることのテスト Claude Code (Sonnet4.5) が (指示していないのに) 自動的にこのテストを作成してくれた。お勉強を兼ねたテストプロジェクトであることを伝えたために、気を利かせてくれた感がある。以下をテストする。トランザクション内での一貫性 (トランザクション内で作成したデータを同一トランザクション内で観察できる) トランザクション間の分離 (別のトランザクションで作成したデータを観察できない。テストは独立している) 自動ロールバックの動作確認 (txdbがClose()時に自動的にロールバックを実行している。DBは初期状態に戻る) あくまで、一貫性、分離、ロールバックの一例を見せてもらうだけなのだが、こういうことをやりたいのだな、という背景を理解できたのでお勉強としては十分。 func TestTransactionIsolation(t *testing.T) { // This test demonstrates that each test gets isolated transactions t.Run(\"Test1_CreateRecord\", func(t *testing.T) { db, err := testhelper.NewTestDB() require.NoError(t, err) defer func() { sqlDB, _ := db.DB() sqlDB.Close() }() router := SetupRouter(db) // Create a new record payload := map[string]interface{}{ \"id\": 200, \"value\": \"test200\", } body, _ := json.Marshal(payload) req, _ := http.NewRequest(http.MethodPost, \"/hello\", bytes.NewBuffer(body)) req.Header.Set(\"Content-Type\", \"application/json\") w := httptest.NewRecorder() router.ServeHTTP(w, req) assert.Equal(t, http.StatusCreated, w.Code) // Verify it exists in this transaction req2, _ := http.NewRequest(http.MethodGet, \"/hello/200\", nil) w2 := httptest.NewRecorder() router.ServeHTTP(w2, req2) assert.Equal(t, http.StatusOK, w2.Code) }) t.Run(\"Test2_VerifyRollback\", func(t *testing.T) { db, err := testhelper.NewTestDB() require.NoError(t, err) defer func() { sqlDB, _ := db.DB() sqlDB.Close() }() router := SetupRouter(db) // The record created in Test1 should not exist (rolled back) req, _ := http.NewRequest(http.MethodGet, \"/hello/200\", nil) w := httptest.NewRecorder() router.ServeHTTP(w, req) assert.Equal(t, http.StatusNotFound, w.Code) // Should still have only 2 original records req2, _ := http.NewRequest(http.MethodGet, \"/hello\", nil) w2 := httptest.NewRecorder() router.ServeHTTP(w2, req2) var response []map[string]interface{} json.Unmarshal(w2.Body.Bytes(), &response) assert.Len(t, response, 2) }) } まとめ go-txdbを使うことで、テストケース毎にDBを分離できることを確認した。あればかなり便利だと思う。

Dartでバイナリ配布可能なCLIツールを作る

エンジニアのスキルセットは基本が重要！、とか考えていると永遠にHelloWorldしてしまう。そこそこ長い間同じことを考えることで深い洞察ができるようになる効果はあると思うが、それとは別に趣味とか知的好奇心とか、興味ドリブンでやってみたいという何かは永遠に満たされない。 Dart-langに慣れるために今欲しいツールをDart-langで書いてみる。なんでDart-langなのか、とか細かいことは気にしない。 [arst_toc tag=\"h4\"] インストール Flutter 1.21からFlutter-SDKに完全なDart-SDKが含まれる. FlutterをやるならFlutterを入れた方が良い. Dart-langは別でインストールできる. 軽いのでFlutterをやらないならこちらが良い. $ brew tap dart-lang/dart $ brew install dart $ dart --version Dart SDK version: 2.16.0 (stable) (Mon Jan 31 15:28:59 2022 +0100) on \"macos_x64\" 空プロジェクトを作る Dart-langのパッケージマネージャはpub. dart-langをインストールするとパスが通り使えるようになる. 空プロジェクトの足場を作るパッケージを使う. ちなみに足場はScaffold. 舞台裏はStagehand. $ pub global activate stagehand $ mkdir dart-cli-sample $ stagehand console-full 出来上がった雛形の構成は以下. よくある構成なので説明は省略. . ├── CHANGELOG.md ├── README.md ├── analysis_options.yaml ├── bin │ └── dart_cli_sample.dart ├── lib │ └── dart_cli_sample.dart ├── pubspec.lock ├── pubspec.yaml └── test └── dart_cli_sample_test.dart Hello World 雛形のエントリポイントは bin/dart_cli_sample.dart にある main(). 別途、lib/dart_cli_sample.dart にあるコードをimportしている. CLIの雛形だからargumentsを引数にとる. Listで渡される. まぁ普通. import \'package:dart_cli_sample/dart_cli_sample.dart\' as dart_cli_sample; void main(List arguments) { print(\'Hello world: ${dart_cli_sample.calculate()}!\'); } で、lib/dart_cli_sample.dart はどうなっているかというと以下みたいな感じ. int型を返すcalculate()という関数が定義されていて6*7の計算結果を返す. int calculate() { return 6 * 7; } インタラクティブに実行するには、dartコマンドにエントリポイントを渡す. 6*7=42がちゃんと出力された. $ dart bin/dart_cli_sample.dart Hello world: 42! バイナリ生成と実行これやりたいためにDart-langを選んでみた. Macでバイナリ生成する場合Mac用のバイナリしか作れないといったように、残念ながらクロスプラットフォーム非対応. CIを構築して各プラットフォーム用に実行しないといけない. $dart compile --help 544ms  日 2/ 6 02:19:51 2022 Compile Dart to various formats. Usage: dart compile [arguments] -h, --help Print this usage information. Available subcommands: aot-snapshot Compile Dart to an AOT snapshot. exe Compile Dart to a self-contained executable. jit-snapshot Compile Dart to a JIT snapshot. js Compile Dart to JavaScript. kernel Compile Dart to a kernel snapshot. Run \"dart help\" to see global options. $ dart compile exe bin/dart_cli_sample.dart -o bin/out1 12.9s  日 2/ 6 02:18:30 2022 Info: Compiling with sound null safety Generated: /Users/ikuty/ikuty/dart-cli-sample/bin/out1 $ ./bin/out1 Hello world: 42! exeオプションでself-contained、つまりDartランタイムが無い環境で実行可能ファイルを作成できる. コンパイル方式としてAOT(Ahead Of Time)、JIT(Just In Time)を選べるという充実ぶり. バイナリのサイズは, self-containedの場合, 5,033,856 bytes(約5MB) だった. $ dart compile aot-snapshot bin/dart_cli_sample.dart -o bin/out2 日 2/ 6 02:47:32 2022 Info: Compiling with sound null safety Generated: /Users/ikuty/ikuty/dart-cli-sample/bin/out2 $ dartaotruntime bin/out2 日 2/ 6 02:47:52 2022 Hello world: 42! aot-snapshotオプションにより, プラットフォーム用の共有ライブラリとアプリケーションコードを分けられる. self-containedと同様にAOTはMacOS,Windows,Linuxそれぞれのプラットフォームが提供される. dartaotruntimeというコマンドにより実行する. バイナリのサイズは 905,072 (約900KB)だった. $ dart compile jit-snapshot bin/dart_cli_sample.dart -o bin/out3 日 2/ 6 02:53:02 2022 Compiling bin/dart_cli_sample.dart to jit-snapshot file bin/out3. Info: Compiling with sound null safety Hello world: 42! $ dart run bin/out3 1005ms  日 2/ 6 02:53:23 2022 Hello world: 42! jit-snapshotオプションにより,JIT実行可能なバイナリを出力できる. プラットフォーム固有のDart中間コードを生成する. dart compile時に1度実行されて処理結果が表示される. ソースコードをparseした結果を事前に準備し,JIT実行時に再利用することで処理速度を上げる. ちょっと詳しくは不明だがAOTよりも高速に処理できる可能性がある. バイナリサイズは 4,824,016bytes. (約4.8MB)だった. $ dart compile kernel bin/dart_cli_sample.dart -o bin/out4 日 2/ 6 03:05:54 2022 Compiling bin/dart_cli_sample.dart to kernel file bin/out4. Info: Compiling with sound null safety $ dart run bin/out4 699ms  日 2/ 6 03:06:02 2022 Hello world: 42! kernelオプションにより,プラットフォーム非依存のKernelASTを生成する. 出力されたバイナリのサイズは1056 bytes (約1KB)だった.ソースコードのパスが含まれており, おそらくソースコードを同時に配布する必要がある. AOTより遅い. まとめ Dart-langのHelloWorldコードを作成し各種コンパイルオプションを試した. Go-langのそれとは異なりクロスプラットフォームのバイナリを生成できないが, 複数のコンパイルオプションが用意されていて,様々なパターンの運用に対応できそう.

標本調査に必要なサンプル数の下限を与える2次関数

[mathjax] 2項分布に従う母集団の母平均を推測するために有意水準を設定して95%信頼区間を求めてみた。母平均のあたりがついていない状況だとやりにくい。 [clink url=\"https://ikuty.com/2019/01/11/sampling/\"] (hat{p})がどんな値であっても下限は(hat{p})の関数で抑えられると思ったので、気になって(hat{p})を変数のまま残すとどうなるかやってみた。 begin{eqnarray} 1.96sqrt{frac{hat{p}(1-hat{p})}{n}} le 0.05 \\ frac{1.96}{0.05}sqrt{hat{p}(1-hat{p})} le sqrt{n} \\ 39.2^2 hat{p}(1-hat{p}) le n end{eqnarray} 左辺を(f(hat{p}))と置くと (f(hat{p}))は下に凸の2次関数であって、 (frac{d}{dhat{p}}f(hat{p})=0)の時に最大となる。というか(hat{p}=0.5)。 (hat{p}=0.5)であるとすると、これはアンケートを取るときのサンプル数を求める式と同じで、非常に有名な以下の定数が出てくる。 begin{eqnarray} 1537 * 0.5 (1-0.5) le n \\ 384 le n end{eqnarray} (hat{p})がどんな値であっても、サンプル数を400とれば、有意水準=5%の95%信頼区間を得られる。だから、アンケートの(n)数はだいたい400で、となる。さらに、有意水準を10%にとれば、(n)の下限は100で抑えられる。なるはやのアンケートなら100、ちゃんとやるには400、というやつがこれ。

Snowflake External OAuthについての公式ドキュメントを読んでみた話

はじめに Enterpriseにおいて「お前は誰か？」を確認する手段は非常に多岐にわたる。セキュリティと絡んで手段は拡大傾向にあり、新しい認証手段への追従が求められるケースは多い。自前で認証情報を保有、管理し、セキュリティの保証を担保した手順を用意するのは不可能に近い。現実的には認証情報の保有と管理、および認証手段を専用のプラットフォームに移譲させたい。実際、認証の泥臭いプロセスはIdP(Identity Provider)が面倒を見てくれる。 SnowflakeはIdPと薄く関係して、IdPによる認証結果を使い回すことができる。 SnowflakeはIdPがどういったプロセスで認証したのかは一切関与しない。認証後、「お前にこの権限を与えて良いか？」を実装しなければならない場合、アプリ側に機能サポートがなければ、コードでそれを保証しなければならない。 Snowflakeは、ここをExternal OAuth統合として汎化しフルにサポートしている。具体的には、SnowflakeはExternal OAuth統合として汎化していて、 OAuth2.0認可サーバと統合し、RBACとの紐付けまでを面倒みてくれる。 RBACの最小範囲であるスキーマより細かい粒度を区別する場合でなければ、 RBACだけで区別が完了することとなり、大幅な工数削減と品質安定化を達成できる。昔Fitbit APIのOAuth2.0フローを実装した時から始まり、過去に何件かWebアプリ開発で認証認可まわりの実装をしたと思う。 Webアプリの認証認可F/Wはかなり枯れていて、正直中身を知らなくても書けてしまう。開発者人口が少ないSaaSサービスであるSnowflakeがブラックボックス化した認証認可の仕組みを読み解くのは、Webアプリのそれとは次元の違う大変さがある。 (こと認証認可の文脈では安全性の保証がセットとなるため) Snowflake External OAuthについて厳密に調べる機会があったので、生成AIを使わず100%自分の思考と言葉で記事を起こしていく。 [arst_toc tag=\"h4\"] 認証(AuthN) 認証、つまり、Authenticationは、「お前は誰か」を確認すること。 IdPにID/PWを登録しておきID/PWを入力したりMFAを通ることで「確かに〇〇さんだ」と確認すること。単一要素認証(SFA)、多要素認証(MFA)、パスキー認証、FIDO2認証、他、多様な認証方式がある。またシングルサインオン(SSO)、により組織を跨ぐ連携を行うことができる。サービス間のSSO方式としてSAML2.0、API等のSSO方式としてOIDC2.0が広く使われている。顧客管理のIdPによる認証を本IdPに引き継ぐIDフェデレーションにより組織間認証連携を実現できる。認可(AuthZ) 一方認可、つまり、Authorizationは、「お前にこの権限を与えて良いか」を確認すること。認可とは「誰がどのデータにどんなルールでアクセスして良いか」をコントロールする設計パターン。「ルール作りの設計思想」と「システム間で権限をやり取りする技術規格」がごっちゃに扱われがちだが、レイヤが異なる2つの話を分けておくと少しわかりやすくなる。「ルール作りの設計思想」例えば以下のようにルールを定める。ロールベースアクセス制御/Role Based Access Control ユーザ個人ではなく役割に対して権限を付与しユーザをそのロールに所属させる方式。管理者権限のユーザには作成・削除を与え、一般権限のユーザには閲覧のみを与えるなど、一般的な認可方式。SnowflakeのロールモデルはまさにRBACに基づく。属性ベースアクセス制御/Attribute Based Access Control ロールだけでなくユーザの所属、勤務地、アクセスする時間帯、デバイスの種類など、複数の属性(コンテキスト)を組み合わせて動的に認可を判断する方式。「システム間で権限をやり取りする技術規格」例えば以下のようにルールを実現する技術規格を表す。 OAuth2.0 現在のWebで最も普及している「トークンベース」の認可フレームワーク。認可サーバーが発行した「アクセストークン（時限式のカードキー）」をアプリが提示し、リソースサーバー（Snowflakeなど）がそれを検証してアクセスを許可する。「権限の証明書」としてJWT(JSON Web Token)が実際にやり取りされる。JWTは、SON形式のデータを暗号論的に署名したもので、中身に「ユーザー名」「有効期限」、「付与されたロール（権限スコープ）」などが書き込まれている。ケルベロス認証・認可 (Kerberos) 主に一昔前からの社内ネットワーク（Active Directory）環境などで広く使われている方式。チケット」と呼ばれる暗号化されたデータをやり取りすることで一度のログインで社内のファイルサーバーやプリンタなどの利用権限（認可）をシームレスに得る。あああ External OAuth External OAuthは顧客のOAuth2.0認可サーバを統合してシームレスなSSOを実現する。認証プロセスはサービス側が気にするものではなく、本機能は認可の統合であることに注意すること。なお公式(外部 OAuth の概要)は間違いなく認証・認可と言う言葉をごっちゃにしている。 OAuth2.0はRFC6749でThe OAuth2.0 Authorization Frameworkと定義されている。受け渡しされるトークンはOIDCのような認証トークンではなく、OAuth2.0の認可トークンである。外部OAuthという(認可の)仕組みをSnowflakeに設定しておくことで、「外部のIdPが認証したという証明書」をSnowflakeが安全に受け取ってデータアクセス認可する仕組みだ。公式(外部 OAuth の概要)によると、以下に公式に対応している。公式にない場合は、外部 OAuth 用のカスタム認証サーバーを構成するで構成できる。なお「公式」でないからといって「非対応」ではない。「公式」になくても汎用OAuth2.0用のカスタム認証サーバーとして構成できる。 Okta - 外部OAuth用Oktaの構成 Auth0はOktaファミリーだが↑では構成できない。カスタム認証サーバーとして構成が必要 Microsoft EntraID - 外部 OAuth 用 Microsoft Entra ID の構成 Ping Identity PingFederate - 外部 OAuth 用 Microsoft Entra ID の構成 Microsoft PowerBI - Power BI SSO からSnowflakeへ公式にはExternal OAuthのメリットとして以下が挙げられている。トークンの発行を認証サーバーに委任し、発行されたトークンの管理に集中できるようになる。ログイン時のセキュリティルール(MFAやIP制限、承認フローなど)を、Prj IdP側に統合できる。ユーザがその認証と許可に関する厳しいルール(テスト)をクリアしない限り、IdPはトークンを発行しない。怪しいユーザはSnowflakeの入り口にすら辿り着けず、データは完璧に守られる。認証をIdPに持たせることでSnowflake側から認証情報を除去できるためセキュアになる。一見して認証のことしか書かれていないようだが、implicitに認可が書かれている。 Snowflakeは認可をIdPに完全に移譲し、認証とセットで認可が行われたトークンを確認するだけ、ということは、Snowflake側に認可コードを一切書くことなしに認可を実現することと同義。 External OAuthの認証部分の基本フロー公式に基本フローの図が貼ってある。ステップ1だけ構成時にのみ行う。他は都度実行される。最初にセキュリティ統合の構成と、アプリ内の実装が開発者側の責務となる。ベスプラに従ってルールから逸脱しないように構成することで、後はSaaSサービス間の自動連携となる。外部OAuth認証サーバとSnowflakeのセキュリティ統合を構成し信頼性を確立するユーザはアプリを介してSnowflakeにアクセスしようとする。アプリはユーザを確認しようとする認証サーバはOAuthトークンをアプリに返す SnowflakeドライバはOAuthトークンを使用して接続文字列をSnowflakeに渡す SnowflakeはOAuthトークンを検証する Snowflakeはユーザ検索を実行する Snowflakeはユーザのロールに基づいてセッションをインスタンス化する External OAuthの認可部分、スコープいきなり「スコープ」というワードが出てくるが、これ、JWTの\"scope\"キー/バリューのこと。 OAuth2.0においてJWTで認可範囲を設定するのだ、という理解と記憶がなければ読めない。 JWTは以下のような構成となっておりscopeを格納する場所がある。認可サーバ側で何らかの許可処理の結果、ユーザのスコープが決まり、Snowflakeに送られる。このトークンがSnowflakeに届くと、Snowflakeはscopeキーのバリューを読み取り、「このユーザにはST_USER_ROLEというロール(権限)を適用してセッションを始めるべき」と判断する。 { \"iss\": \"https://your-project-idp.auth0.com/\", \"sub\": \"user_12345\", \"email\": \"user@client.com\", \"exp\": 1719100000, \"scope\": \"session:role:ST_USER_ROLE\" <-- 🌟これが「スコープ」 } Okta, PingFederate, カスタムの場合は以下のパターンを使用しなければならない。スコープ説明 session:role:<custom_role> Snowflakeのカスタムロールにマップする。例えばsession:role:ST_USER_ROLEで、ST_USER_ROLEにマップ session:role:public Snowflakeの PUBLIC ロールにマップ session:role-any 外部OAuthサーバでのSnowflakeロール管理を行わない場合これを渡す。特定のロールを固定せず、そのユーザに付与されているロールであれば、ログイン後に自由に切り替えて(USE ROLEして)使って良い、という少し緩めの認可なお、以下のビルトインロールはデフォルトではブロックされる。 ACCOUNTADMIN GLOBALORGADMIN ORGADMIN SECURITYADMIN Snowflake OAuthは、セッション中のロールのセカンダリロールへの切り替えをサポートしていないが、 External OAuthでのセカンダリロールの使用はサポートしている。 External OAuth特有のセキュリティの抜け穴と対策 Snowflakeにおいて、アカウントレベルでネットワークポリシーによりIP制限をかけていたとしても、 External OAuthと合わせて構成するSecurity Integrationを経由してログインしてくる場合、そのユーザ個人のIP制限が無視されてしまう、という仕様がある。つまり、IdP側のIP制限が破られたり、トークンが盗まれたりした場合、攻撃者はどこからでもSnowflakeのデータにアクセスできてしまう状態になる。 Snowflakeは、External OAuth自体にもネットワークポリシーを直接紐づけることを推奨している。具体的にはSecurity Integrationにネットワークポリシーを直接紐づける。これによりIdPから届いたトークンであっても、ネットワークポリシーで許可されたIPアドレス以外からのリクエストであれば、Snowflakeはセッションを開始しない。これはIdPフェデレーション等で複雑化したユーザ組織の通信経路を全て把握する必要性を言っている。こういうの、デフォルトで安全側に振って欲しいなとは思う。カスタム認証サーバーの構成・トークンペイロード要件カスタム認証サーバーがSnowflakeに送信するアクセストークンには、下表が含まれている必要がある。クレーム説明 scp Snowflake のカスタムロールを指定する文字列が含まれていること。値として session:role:ST_USER_ROLE のような Snowflake 指定の形式の文字列を、配列またはスペース区切りの文字列で必ず埋め込まなければならない。 scope 同上。IdPプロダクトによりscpかscopeのどちらかを入れる。 aud Snowflake アカウントの完全な URL（https://.snowflakecomputing.com）が含まれている必要がある。 exp 有効時間。トークンの有効期限が UNIX タイムスタンプ（エポック秒）で刻まれている必要がある。Snowflake はトークンを受け取った瞬間の時刻とこの exp を比較します。有効期限が過去の時刻になっている（期限切れ）場合は、その時点で認可を即座に拒否する。 iss 発行者。アクセストークンを発行したプリンシパルを文字列 URI として識別。つまりトークンを発行した IdPのアイデンティティ（例: https://your-project-idp.auth0.com/）。最後のスラッシュ（/）の有無まで1文字違わず一致させる必要がある。Snowflake 側の EXTERNAL_OAUTH_ISSUER で指定した文字列と完全に一致する必要がある。 iat 発行時刻。必須。JWT が発行された時刻を識別カスタム認証サーバーの構成・セキュリティ統合の作成 External OAuth を実現する Snowflakeのリソースの実体。カスタム認証サーバからのアクセストークンと安全に通信して検証し、アクセストークンに関連付けられたユーザーロールに基づいてSnowflakeへのアクセスをユーザに提供する。 create security integration external_oauth_custom type = external_oauth enabled = true external_oauth_type = custom external_oauth_issuer = \'\' external_oauth_rsa_public_key = \'\' external_oauth_audience_list = (\'\', \'\') external_oauth_token_user_mapping_claim = \'upn\' external_oauth_snowflake_user_mapping_attribute = \'login_name\'; それぞれの内容は下表の通り。パラメータ説明 EXTERNAL_OAUTH_ISSUER 外部認証サーバー（IdP）を一意に識別するURL（発行元URL）を指定する。IdPから発行されるアクセストークン（JWT）の iss クレームの値と完全に一致する必要がある。 EXTERNAL_OAUTH_JWS_KEYS_URL 外部認証サーバーが公開している、デジタル署名の検証に必要な公開鍵（JWKS）が配置されたURLを指定する。SnowflakeはこのURLにアクセスしてトークンの妥当性を検証する。 EXTERNAL_OAUTH_TOKEN_USER_MAPPING_CLAIM 外部認証サーバーが発行するアクセストークン（JWT）の中で、ユーザーの識別情報（メールアドレスやユーザーIDなど）が格納されている「キー（クレーム名）」を指定する。 EXTERNAL_OAUTH_SNOWFLAKE_USER_MAPPING_ATTRIBUTE トークンから抽出したユーザー識別情報を、Snowflake側の USER オブジェクトのどの属性（EMAIL_ADDRESS または LOGIN_NAME）と一致させるかを指定する。カスタム認証サーバーの構成・テスト公式では、最短パスで構成を検証するため、curl で HTTP Post を送る手順が書かれている。 IdP側にテストユーザを作成しておく。テストユーザはパスワードを持つ必要がある Snowflake側にも、上記と同じメールアドレス（または識別子）を持つ USER オブジェクトを事前に作っておく。login_name, または emailでマッピングする IdP側の画面でこのテスト用のアカウントを作成し、専用のClientID, ClinetSecretを取得する次のように、 OAuth 2.0クライアントがカスタムトークンエンドポイントに POST リクエストすることを許可 OAuth 2.0の用語でいう grant_type = password（Resource Owner Password Credentials Grant）方式を使うこと。すなわち「リソース所有者に設定された付与タイプ」であり、アプリ画面を介さず、ユーザーのID/PWを直接リクエストに含めてトークンを即時発行してもらう、テスト専用の最短ルートを構築する。準備で用意したclientID と clientSecretをHTTP Basic認証ヘッダーに含めることリクエストのBody（送信データ）には、FORM形式（application/x-www-form-urlencoded）で、テストユーザーのID/PWと、Snowflakeに渡したいスコープを指定すること curl -X POST -H \"Content-Type: application/x-www-form-urlencoded;charset=UTF-8\" --user : --data-urlencode \"username=\" --data-urlencode \"password=\" --data-urlencode \"grant_type=password\" --data-urlencode \"scope=session:role:analyst\" 公式対応認証サーバーと非公式(カスタム対応)の違い公式対応認証サーバーと、非公式(カスタム対応)の違いをまとめてみる。ケース1：IdPの「署名用公開鍵」がローテーション（変更）されたとき JWT（トークン）が偽造されていないかを証明するための「公開鍵」は、セキュリティ担保のために数ヶ月ごとに自動で新しいものにローテーションするのが一般的。公式対応の場合、SnowflakeがOkta側の鍵更新スケジュールや新しい公開鍵の取得先をあらかじめ知っているため、Snowflake側が自動で追従する。開発者は何のアクションも起こす必要はなく、システムは止まらない。カスタム、つまり非公式の場合であっても基本的には指定したURL （.well-known/jwks.json）を見に行ってくれるので自動追従するが、もしIdP側のメジャーアップデート等で「公開鍵を配置するURLの仕様そのもの」が変わった場合は、Snowflakeの設定パラメータ（EXTERNAL_OAUTH_JWS_KEYS_URL）を開発者が手動で新しいURLに書き換えるまで、認証・認可がすべてエラーになってシステムが停止する。 IdP側のセキュリティ仕様やエンドポイントの仕様が変更されたとき近年、サイバー攻撃の高度化に伴い、IdP側（OktaやMicrosoftなど）がトークンの発行ルールや、検証用APIの仕様（プロトコル）をより安全なものへ強制アップデートすることがある。 SnowflakeはOktaやMicrosoftと強固な技術パートナーシップを結んでいるため、 IdP側の仕様変更がリリースされる前に、Snowflake側の「特急レーン（専用プログラム）」を事前にアップデートして追従させる。そのため、開発者がコードや設定を修正することなく、シームレスに新しいセキュリティ基準へ移行できる。カスタム、つまり非マネージドの場合、Snowflakeは「汎用的なOAuth 2.0の標準規格（RFC）」に準拠していることしか保証しない。そのため、IdP側が独自のセキュリティ拡張を行ったり、標準規格の解釈を変更したりした場合、トークンのペイロード構造（キー・バリュー）が変わり、 Snowflakeがトークンを解読できなくなるリスクがある。この場合、開発者がIdP側の設定を手動で修正して追従する必要がある。まとめ SnowflakeにおけるExternal OAuth統合の仕組みを「認証」と「認可」のレイヤを分離して読んでみた。認証・認可を完全にIdPに移譲し、Snowflakeアプリケーション内で一切の認可コードを書かずに済む。数あるIdPのうち、いくつかについてはSnowflakeが公式対応している。公式IdP構成はテクノロジーパートナーシップに基づき、Snowflakeのマネージド構成の一部として、 Snowflake側がIdP側の変更に自動追従する可能性が高い。結果としてダウンタイムの発生を回避できる。公式対応IdPでなくても、OAuth2.0 RFC準拠の認証サーバとしてカスタム連携することができるが、 SnowflakeがIdP側の変更に自動追従する性質ではなく、運用者・開発者がIdP側の変更に適用する必要がある。

モデルについて考えてみた話

クエリをバラして理解しやすいようにしたい

Modularity

CTEと論理レイヤとモデル

Materialization

View

Table

Incremental

Ephemeral

モデルの例

モデリングの方法論とdbtの仮定

よもやま話(動画と関係なし)

まとめ

Snowflake SAML2.0 Security Integrationを使用したSP/IdP Initiated SAML Federationと構成の詳細

Streamlit appをrestricted caller’s rightsで動作させる場合にコンテナインスタンスが必須となる背景を考えた話

Snowflake External OAuthについての公式ドキュメントを読んでみた話

Streamlit in Snowflakeの開発環境を整備して初めてのアプリケーションを実装した話

Streamlit in Snowflakeにおける分離コンテナ環境とセッション管理の仕組みを理解した話

React+Next.jsでDummy JSONのCRUDをCSR/SSRの両方で作成して違いを調べてみた話

go-txdbを使ってgolang, gin, gorm(gen)+sqlite構成のAPI をテストケース毎に管理する

gorm互換の型安全なORMであるgenでCRUD APIを試作

Golang + Gin カスタムバリデーション

Golang + Gin Framework で Hello World してみた話〜基本的なルーティング、バスパラメタ・クエリパラメタ・JSON Req/Res、フォームデータ

クエリをバラして理解しやすいようにしたい

Modularity

CTEと論理レイヤとモデル

Materialization

View

Table

Incremental

Ephemeral

モデルの例

モデリングの方法論とdbtの仮定

よもやま話(動画と関係なし)

まとめ

関連記事