Fellegi-Sunter/Splink 統計

Fellegi-Sunterモデルに基づく確率的名寄せパッケージ Splinkを試してみる

投稿日 2025年08月18日

カテゴリ: Fellegi-Sunter/Splink, 統計タグ: やりなおし統計, 日々の学び

Record Linkage、Entity Recognitionなど、いわゆる「名寄せ」問題には、割とさまざまな解決策が
提案されている。その1つに確率論的な数学的背景を持つFellegi-Sunterモデルを実装したSplinkがある。
数学的背景について咀嚼して説明してくれているサイトはあまりなく、Splinkの公式ドキュメントが唯一
に近いソースだろうと思う。
今回は5万人の人物データを使って重複を除去するSplinkの主要な機能のサンプルを追ってみた。

数式を読んだところで実りは薄い、ということもあり、なるべく数式を読まずに読み進めたが、
モデルのパラメタ、予測結果を解釈する際にどうしても数式を読まないとわからない箇所があった。
特にベイズ統計について理解がかなり浅くて、正直なところ理解しきれてはいない。

Splinkの公式ドキュメントを読み進めていった際に気付いたメモを書いてみることにした。

【目次】

∨環境構築・準備
∨使用するサンプルデータ
∨データの分布を可視化
∨ブロッキングとブロッキングルールの評価
∨比較の定義
∨ComparisonとComparison Level
∨モデルのパラメタ推定
∨無作為に選んだレコードが一致する確率
∨u確率の推定
∨m確率の推定
∨モデルパラメタの可視化
∨モデルの保存と読み込み
∨リンクするのに十分な情報が含まれていないレコード
∨訓練済みモデルを使って未知データのマッチウェイトを予測
∨predictしたマッチウェイトの可視化、数式との照合
∨まとめ

環境構築・準備

環境構築の実装部分は主な学習要素ではないのでClaude Codeでサクッと作ってみた。
まずはPlan modeで計画を立ててもらう。これぐらいだとほぼ言い値で使える。

DuckDB、Splinkを使う最小構成の環境を作ります。環境はDocker composeで構築します。計画を立ててください。


⏺ DuckDB、Splinkを使うDocker Compose環境の計画を完了しました。

  計画概要

  1. 設計文書: .tmp/design.mdで要件、アーキテクチャ、技術仕様を定義
  2. タスク管理: .tmp/task.mdで詳細な実装手順を3フェーズに分けて整理

  主要コンポーネント

  - Jupyter Lab環境: DuckDB、Splink、必要なライブラリがプリインストール
  - データボリューム: サンプルデータ、notebook、出力用のディレクトリ
  - 最小構成: 開発・学習用途に特化した軽量環境

  次のステップ

  実装を開始する場合は、Phase 1から順番に進めます：
  1. Docker設定ファイル作成
  2. ディレクトリ構造構築
  3. サンプル実装
  4. テストと検証

  計画の詳細は.tmp/design.mdと.tmp/task.mdをご確認ください。実装を開始しますか？

実際にファイルを作ってもらうと以下のような構成となる。
得られる中間成果物である docker-compose.yml、Dockerfile は本記事では省略する。


.
├── data
├── docker-compose.yml
├── Dockerfile
├── notebooks
├── output
└── requirements.txt

普通に http://localhost:8888 で JupyterLab が開く。

使用するサンプルデータ

5万人の人物データを使って名寄せを行うサンプル。おそらくSplinkの用途として最初に思いつくやつ。

Splinkにデータをロードする前に必要なデータクリーニング手順について説明がある。
公式によると、まずは行に一意のIDを割り当てる必要がある。
データセット内で一意となるIDであって、重複除去した後のエンティティを識別するIDのことではない。

Data Prerequisites

Splink では、リンクする前にデータをクリーンアップし、行に一意の ID を割り当てる必要があります。このセクションでは、Splink にデータをロードする前に必要な追加のデータクリーニング手順について説明します。

使用するサンプルデータは以下の通り。


from splink import splink_datasets
df = splink_datasets.historical_50k
df.head()

データの分布を可視化

splink.exploratoryのprofile_columnsを使って分布を可視化してみる。


from splink import DuckDBAPI
from splink.exploratory import profile_columns

db_api = DuckDBAPI()
profile_columns(df, db_api, column_expressions=["first_name", "substr(surname,1,2)"])

同じ姓・名の人が大量にいることがわかる。

ブロッキングとブロッキングルールの評価

テーブル内のレコードが他のレコードと「同一かどうか」を調べるためには、
基本的には、他のすべてのレコードとの何らかの比較操作を行うこととなる。

全てのレコードについて全てのカラム同士を比較したいのなら、
対象のテーブルをCROSS JOINした結果、各カラム同士を比較することとなる。


SELECT ...
FROM input_tables as l
CROSS JOIN input_tables as r

あるカラムが条件に合わなければ、もうその先は見ても意味がない、
というケースは多い。例えば、まず first_name 、surname が同じでなければ、
その先の比較を行わない、というのはあり得る。


SELECT ...
FROM input_tables as l
INNER JOIN input_tables as r
ON l.first_name = r.first_name AND l.surname = r.surname

このような考え方をブロッキング、ON句の条件をブロッキングルールと言う。
ただ、これだと性と名が完全一致していないレコードが残らない。
そこで、ブロッキングルールを複数定義し、いずれかが真であれば残すことができる。

ここでポイントなのが、ブロッキングルールを複数定義したとき、
それぞれのブロッキングルールで重複して選ばれるレコードが発生した場合、
Splinkが自動的に排除してくれる。
このため、ブロッキングルールを重ねがけすると、最終的に残るレコード数は一致する。
ただ、順番により、同じルールで残るレコード数は変化する。

逆に言うと、ブロッキングルールを足すことで、重複除去後のOR条件が増えていく。
積算グラフにして、ブロッキングルールとその順番の効果を見ることができる。


from splink import DuckDBAPI, block_on
from splink.blocking_analysis import (
    cumulative_comparisons_to_be_scored_from_blocking_rules_chart,
)

blocking_rules = [
    block_on("substr(first_name,1,3)", "substr(surname,1,4)"),
    block_on("surname", "dob"),
    block_on("first_name", "dob"),
    block_on("postcode_fake", "first_name"),
    block_on("postcode_fake", "surname"),
    block_on("dob", "birth_place"),
    block_on("substr(postcode_fake,1,3)", "dob"),
    block_on("substr(postcode_fake,1,3)", "first_name"),
    block_on("substr(postcode_fake,1,3)", "surname"),
    block_on("substr(first_name,1,2)", "substr(surname,1,2)", "substr(dob,1,4)"),
]

db_api = DuckDBAPI()

cumulative_comparisons_to_be_scored_from_blocking_rules_chart(
    table_or_tables=df,
    blocking_rules=blocking_rules,
    db_api=db_api,
    link_type="dedupe_only",
)

積算グラフは以下の通り。積み上がっている数値は「比較の数」。
要は、論理和で条件を足していって、次第に緩和されている様子がわかる。
DuckDBでは比較の数を2,000万件以内、Athena,Sparkでは1億件以内を目安にせよとのこと。

比較の定義

Splinkは Fellegi-Sunter model モデル (というかフレームワーク) に基づいている。
https://moj-analytical-services.github.io/splink/topic_guides/theory/fellegi_sunter.html

各カラムの同士をカラムの特性に応じた距離を使って比較し、重みを計算していく。
各カラムの比較に使うためのメソッドが予め用意されているので、特性に応じて選んでいく。
以下では、first_name, sur_name に ForenameSurnameComparison が使われている。
dobにDateOfBirthComparison、birth_place、ocupationにExactMatchが使われている。


import splink.comparison_library as cl

from splink import Linker, SettingsCreator

settings = SettingsCreator(
    link_type="dedupe_only",
    blocking_rules_to_generate_predictions=blocking_rules,
    comparisons=[
        cl.ForenameSurnameComparison(
            "first_name",
            "surname",
            forename_surname_concat_col_name="first_name_surname_concat",
        ),
        cl.DateOfBirthComparison(
            "dob", input_is_string=True
        ),
        cl.PostcodeComparison("postcode_fake"),
        cl.ExactMatch("birth_place").configure(term_frequency_adjustments=True),
        cl.ExactMatch("occupation").configure(term_frequency_adjustments=True),
    ],
    retain_intermediate_calculation_columns=True,
)
# Needed to apply term frequencies to first+surname comparison
df["first_name_surname_concat"] = df["first_name"] + " " + df["surname"]
linker = Linker(df, settings, db_api=db_api)

ComparisonとComparison Level

ここでSplinkツール内の比較の概念の説明。以下の通り概念に名前がついている。


Data Linking Model
├─-- Comparison: Date of birth
│    ├─-- ComparisonLevel: Exact match
│    ├─-- ComparisonLevel: One character difference
│    ├─-- ComparisonLevel: All other
├─-- Comparison: First name
│    ├─-- ComparisonLevel: Exact match on first_name
│    ├─-- ComparisonLevel: first_names have JaroWinklerSimilarity > 0.95
│    ├─-- ComparisonLevel: first_names have JaroWinklerSimilarity > 0.8
│    ├─-- ComparisonLevel: All other

モデルのパラメタ推定

モデルの実行に必要なパラメタは以下の3つ。Splinkを用いてパラメタを得る。
ちなみに u は “‘U’nmatch”、m は “‘M’atch”。背後の数式の説明で現れる。

No	パラメタ	説明
1	無作為に選んだレコードが一致する確率	入力データからランダムに取得した2つのレコードが一致する確率 (通常は非常に小さい数値)
2	u値(u確率)	実際には一致しないレコードの中で各 ComparisonLevel に該当するレコードの割合。具体的には、レコード同士が同じエンティティを表すにも関わらず値が異なる確率。例えば、同じ人なのにレコードによって生年月日が違う確率。これは端的には「データ品質」を表す。名前であればタイプミス、別名、ニックネーム、ミドルネーム、結婚後の姓など。
3	m値(m確率)	実際に一致するレコードの中で各 ComparisonLevel に該当するレコードの割合。具体的には、レコード同士が異なるエンティティを表すにも関わらず値が同じである確率。例えば別人なのにレコードによって性・名が同じ確率 (同姓同名)。性別は男か女かしかないので別人でも50%の確率で一致してしまう。

無作為に選んだレコードが一致する確率

入力データからランダムに抽出した2つのレコードが一致する確率を求める。
値は0.000136。すべての可能なレコードのペア比較のうち7,362.31組に1組が一致すると予想される。
合計1,279,041,753組の比較が可能なため、一致するペアは合計で約173,728.33組になると予想される、
とのこと。


linker.training.estimate_probability_two_random_records_match(
    [
        block_on("first_name", "surname", "dob"),
        block_on("substr(first_name,1,2)", "surname", "substr(postcode_fake,1,2)"),
        block_on("dob", "postcode_fake"),
    ],
    recall=0.6,
)

> Probability two random records match is estimated to be  0.000136.
> This means that amongst all possible pairwise record comparisons, 
> one in 7,362.31 are expected to match. 
> With 1,279,041,753 total possible comparisons,
> we expect a total of around 173,728.33 matching pairs

u確率の推定

実際には一致しないレコードの中でComparisonの評価結果がPositiveである確率。
基本、無作為に抽出したレコードは一致しないため、「無作為に抽出したレコード」を
「実際には一致しないレコード」として扱える、という点がミソ。
probability_two_random_records_match によって得られた値を使ってu確率を求める。
estimate_u_using_random_sampling によって、ラベルなし、つまり教師なしでu確率を得られる。

レコードのペアをランダムでサンプルして上で定義したComparisonを評価する。
ランダムサンプルなので大量の不一致が発生するが、各Comparisonにおける不一致の分布を得ている。
これは、例えば性別について、50%が一致、50%が不一致である、という分布を得ている。
一方、例えば生年月日について、一致する確率は 1%、1 文字の違いがある確率は 3%、
その他はすべて 96% の確率で発生する、という分布を得ている。


linker.training.estimate_u_using_random_sampling(max_pairs=5e6)

> ----- Estimating u probabilities using random sampling -----
> 
> Estimated u probabilities using random sampling
> 
> Your model is not yet fully trained. Missing estimates for:
>     - first_name_surname (no m values are trained).
>     - dob (no m values are trained).
>     - postcode_fake (no m values are trained).
>     - birth_place (no m values are trained).
>     - occupation (no m values are trained).

m確率の推定

「実際に一致するレコード」の中で、Comparisonの評価がNegativeになる確率。
そもそも、このモデルを使って名寄せ、つまり「一致するレコード」を見つけたいのだから、
モデルを作るために「実際に一致するレコード」を計算しなければならないのは矛盾では..となる。
無作為抽出結果から求められるu確率とは異なり、m確率を求めるのは難しい。

もしラベル付けされた「一致するレコード」、つまり教師データセットがあるのであれば、
そのデータセットを使ってm確率を求められる。
例えば、日本人全員にマイナンバーが振られて、全てのレコードにマイナンバーが振られている、
というアナザーワールドがあるのであれば、マイナンバーを使ってm確率を推定する。(どういう状況??)

ラベル付けされたデータがないのであれば、EMアルゴリズムでm確率を求めることになっている。
EMアルゴリズムは反復的な手法で、メモリや収束速度の点でペア数を減らす必要があり、
例ではブロッキングルールを設定している。
以下のケースでは、first_nameとsurnameをブロッキングルールとしている。
つまり、first_name, surnameが完全に一致するレコードについてペア比較を行う。
この仮定を設定したため、first_name, surname (first_name_surname) のパラメタを推定できない。


training_blocking_rule = block_on("first_name", "surname")
training_session_names = (
    linker.training.estimate_parameters_using_expectation_maximisation(
        training_blocking_rule, estimate_without_term_frequencies=True
    )
)

> ----- Starting EM training session -----
> 
> Estimating the m probabilities of the model by blocking on:
> (l."first_name" = r."first_name") AND (l."surname" = r."surname")
> 
> Parameter estimates will be made for the following comparison(s):
>     - dob
>     - postcode_fake
>     - birth_place
>     - occupation
> 
> Parameter estimates cannot be made for the following comparison(s) since they are used in the blocking rules: 
>     - first_name_surname
> 
> Iteration 1: Largest change in params was 0.248 in probability_two_random_records_match
> Iteration 2: Largest change in params was 0.0929 in probability_two_random_records_match
> Iteration 3: Largest change in params was -0.0237 in the m_probability of birth_place, level `Exact match on > birth_place`
> Iteration 4: Largest change in params was 0.00961 in the m_probability of birth_place, level `All other >comparisons`
> Iteration 5: Largest change in params was -0.00457 in the m_probability of birth_place, level `Exact match on birth_place`
> Iteration 6: Largest change in params was -0.00256 in the m_probability of birth_place, level `Exact match on birth_place`
> Iteration 7: Largest change in params was 0.00171 in the m_probability of dob, level `Abs date difference <= 10 year`
> Iteration 8: Largest change in params was 0.00115 in the m_probability of dob, level `Abs date difference <= 10 year`
> Iteration 9: Largest change in params was 0.000759 in the m_probability of dob, level `Abs date difference <= 10 year`
> Iteration 10: Largest change in params was 0.000498 in the m_probability of dob, level `Abs date difference <= 10 year`
> Iteration 11: Largest change in params was 0.000326 in the m_probability of dob, level `Abs date difference <= 10 year`
> Iteration 12: Largest change in params was 0.000213 in the m_probability of dob, level `Abs date difference <= 10 year`
> Iteration 13: Largest change in params was 0.000139 in the m_probability of dob, level `Abs date difference <= 10 year`
> Iteration 14: Largest change in params was 9.04e-05 in the m_probability of dob, level `Abs date difference <= 10 year`

同様にdobをブロッキングルールに設定して実行すると、dob以外の列についてパラメタを推定できる。


training_blocking_rule = block_on("dob")
training_session_dob = (
    linker.training.estimate_parameters_using_expectation_maximisation(
        training_blocking_rule, estimate_without_term_frequencies=True
    )
)

> ----- Starting EM training session -----
> 
> Estimating the m probabilities of the model by blocking on:
> l."dob" = r."dob"
> 
> Parameter estimates will be made for the following comparison(s):
>     - first_name_surname
>     - postcode_fake
>     - birth_place
>     - occupation
> 
> Parameter estimates cannot be made for the following comparison(s) since they are used in the blocking rules: 
>     - dob
> 
> Iteration 1: Largest change in params was -0.474 in the m_probability of first_name_surname, level `Exact match on first_name_surname_concat`
> Iteration 2: Largest change in params was 0.052 in the m_probability of first_name_surname, level `All other comparisons`
> Iteration 3: Largest change in params was 0.0174 in the m_probability of first_name_surname, level `All other comparisons`
> Iteration 4: Largest change in params was 0.00532 in the m_probability of first_name_surname, level `All other comparisons`
> Iteration 5: Largest change in params was 0.00165 in the m_probability of first_name_surname, level `All other comparisons`
> Iteration 6: Largest change in params was 0.00052 in the m_probability of first_name_surname, level `All other comparisons`
> Iteration 7: Largest change in params was 0.000165 in the m_probability of first_name_surname, level `All other comparisons`
> Iteration 8: Largest change in params was 5.29e-05 in the m_probability of first_name_surname, level `All other comparisons`
> 
> EM converged after 8 iterations
> 
> Your model is not yet fully trained. Missing estimates for:
>     - first_name_surname (some u values are not trained).

モデルパラメタの可視化

m確率、u確率の可視化。

マッチウェイトの可視化。マッチウェイトは \(\log_2 (m / u)\)で計算される。


linker.visualisations.match_weights_chart()

モデルの保存と読み込み

以下でモデルを保存できる。


settings = linker.misc.save_model_to_json(
    "./saved_model_from_demo.json", overwrite=True
)

以下で保存したモデルを読み込める。


import json
settings = json.load(
    open('./saved_model_from_demo.json', 'r')
)

リンクするのに十分な情報が含まれていないレコード

「John Smith」のみを含み、他のすべてのフィールドがnullであるレコードは、
他のレコードにリンクされている可能性もあるが、潜在的なリンクを明確にするには十分な情報がない。

以下により可視化できる。


linker.evaluation.unlinkables_chart()

横軸は「マッチウェイトの閾値」。縦軸は「リンクするのに十分な情報が含まれないレコード」の割合。
マッチウェイト閾値=6.11ぐらいのところを見ると、入力データセットのレコードの約1.3%が
リンクできないことが示唆される。

訓練済みモデルを使って未知データのマッチウェイトを予測

上で構築した推定モデルを使用し、どのペア比較が一致するかを予測する。
内部的には以下を行うとのこと。

blocking_rules_to_generate_predictionsの少なくとも1つと一致するペア比較を生成
Comparisonで指定されたルールを使用して、入力データの類似性を評価
推定された一致重みを使用し、要求に応じて用語頻度調整を適用して、最終的な一致重みと一致確率スコアを生成


df_predictions = linker.inference.predict(threshold_match_probability=0.2)
df_predictions.as_pandas_dataframe(limit=1)

> Blocking time: 0.88 seconds
> Predict time: 1.91 seconds
> 
>  -- WARNING --
> You have called predict(), but there are some parameter estimates which have neither been estimated or > specified in your settings dictionary.  To produce predictions the following untrained trained parameters will > use default values.
> Comparison: 'first_name_surname':
>     u values not fully trained

records_to_plot = df_e.to_dict(orient="records")
linker.visualisations.waterfall_chart(records_to_plot, filter_nulls=False)

predictしたマッチウェイトの可視化、数式との照合

predictしたマッチウェイトは、ウォーターフォール図で可視化できる。

マッチウェイトは、モデル内の各特徴量によって一致の証拠がどの程度提供されるかを示す中心的な指標。
\(\lambda\)は無作為抽出した2つのレコードが一致する確率。\(K=m/u\)はベイズ因子。

\begin{align}
M &= log_2 ( \frac{\lambda}{1-\lambda} ) + log_2 K \\
&= log_2 ( \frac{\lambda}{1-\lambda} ) + log_2 m - log_2 u
\end{align}

異なる列の比較が互いに独立しているという仮定を置いていて、
2つのレコードのベイズ係数が各列比較のベイズ係数の積として扱う。
\begin{eqnarray}
K_{feature} = K_{first\_name\_surname} + K_{dob} + K_{postcode\_fake} + K_{birth\_place} + K_{occupation} + \cdots
\end{eqnarray}

マッチウェイトは以下の和。
\begin{eqnarray}
M_{observe} = M_{prior} + M_{feature}
\end{eqnarray}

ここで
\begin{align}
M_{prior} &= log_2 (\frac{\lambda}{1-\lambda}) \\
M_{feature} &= M_{first\_name\_surname} + M_{dob} + M_{postcode\_fake} + M_{birth\_place} + M_{occupation} + \cdots
\end{align}

以下のように書き換える。
\begin{align}
M_{observe} &= log_2 (\frac{\lambda}{1-\lambda}) + \sum_i^{feature} log_2 (\frac{m_i}{u_i}) \\
&= log_2 (\frac{\lambda}{1-\lambda}) + log_2 (\prod_i^{feature} (\frac{m_i}{u_i}) )
\end{align}

ウォーターフォール図の一番左、赤いバーは\(M_{prior} = log_2 (\frac{\lambda}{1-\lambda})\)。
特徴に関する追加の知識が考慮されていない場合のマッチウェイト。

横に並んでいる薄い緑のバーは \(M_{first\_name\_surname} + M_{dob} + M_{postcode\_fake} + M_{birth\_place} + M_{occupation} + \cdots\)。
各特徴量のマッチウェイト。

一番右の濃い緑のバーは2つのレコードの合計マッチウェイト。
\begin{align}
M_{feature} &= M_{first\_name\_surname} + M_{dob} + M_{postcode\_fake} + M_{birth\_place} + M_{occupation} + \cdots \\
&= 8.50w
\end{align}

まとめ

長くなったのでいったん終了。この記事では教師なし確率的名寄せパッケージSplinkを使用してモデルを作ってみた。
次の記事では、作ったモデルを使用して実際に名寄せをしてみる。
途中、DuckDBが楽しいことに気づいたので、DuckDBだけで何個か記事にしてみようと思う。

dbt Analytics Engineering 認定試験の学習要領を読んでみる

Moden Data Stackの重要な技術として有名なdbtを理解したい。と言いつつも使う機会がなかなか無いな、という点と、認定試験があるようなので、まずは認定試験に合格することを目的に、知識を獲得していきたい。 SnowPro Certificationsと同様に参考書も問題集も無いが、公式に学習要領のようなものが無茶苦茶丁寧に書かれている。もちろん試験に向けた資料なので偏りだったり不足はあるのだろうけれど、何も知らない素人がステップバイステップで物事を理解していくには大分心強い。 dbt Analytics Engineering Certification Exam Study Guide この記事では、この学習要領を上から順に読んでいく。後続の記事で(ブログドリブンで)頭に入れた知識をアウトプットしていく。 [arst_toc tag=\"h4\"] トピック一覧何を理解したら「dbtのことを理解した」と言えるのか。 dbtが備えている機能とその詳細が試験要項に一覧化されている。初心者には本当に助かる。これらが頭の中で整理されて当たり前になったときが次のステップ。何も知らない状況では分からない言葉や概念が多い。振り返らず5分程度で訳を付けて終了。何となく全体像が見えてくる。 Topic 1: Developing dbt models Identifying and verifying any raw object dependencies Understanding core dbt materializations Conceptualizing modularity and how to incorporate DRY principles Converting business logic into performant SQL queries Using commands such as run, test, docs and seed Creating a logical flow of models and building clean DAGs Defining configurations in dbt_project.yml Configuring sources in dbt Using dbt Packages dbtモデルの実装方法と理論について。 dbtは物理的に存在するDBオブジェクトを抽象化するフレームワークであって論理と物理のマップがある。抽象的な構造から見た具体化方式について理解する。 dbtを構成する概念の理解とDRY(Don\'t Repeat Yourself)法則をどう実現するか。ビジネスロジックを高性能なクエリに変換する仕組みを理解する。 run,test,docs,seedなどのコマンドの使い方を理解する。モデルのフローとDAGs、dbt_project.ymlの定義方法、sourceの構成方法を理解する。 Topic 2: Debugging data modeling errors Understanding logged error messages Troubleshooting using compiled code Troubleshooting .yml compilation errors Distinguishing between a pure SQL and a dbt issue that presents itself as a SQL issue Developing and implementing a fix and testing it prior to merging dbtモデルのデバッグ方法について。ログとして記録されたエラーメッセージの解釈方法を理解する。 dbtによりコンパイル/生成されたコードを使ったトラブルシュート方法を理解する。 .ymlコンパイルエラーに対するトラブルシュート方法を理解する。 SQL自身の問題なのかdbtに纏わる問題なのかを区別する方法を理解する。 (git branchに?)mergeする前に修正/テストする方法を理解する。 Topic 3: Monitoring data pipelines Understanding and testing the warehouse-level implications of a model run failing at different points in the DAG Understanding the general landscape of tooling 作ったパイプラインの監視。 DAG のさまざまなポイントでモデル実行が失敗した場合のウェアハウスレベルの影響の理解+テスト方法。 (ウェアハウスレベルってどこのレベル??) Topic 4: Implementing dbt tests Using generic, singular and custom tests on a wide variety of models and sources Understanding assumptions specific to the datasets being generated in models and to the raw data in the warehouse Implementing various testing steps in the workflow Ensuring data is being piped into the warehouse and validating accuracy against baselines dbtテストの実装。様々な種類のモデル・ソースに対する generic, singular, customテストの使用方法。モデルで生成されるデータセットとウェアハウス内の生データに特有の仮定を理解する。(意味不..) ワークフロー内にテストステップを実装する方法。データがウェアハウスにパイプされていることを確認し、ベースラインに対する精度を検証する。 Topic 5: Deploying dbt jobs Understanding the differences between deployment and development environments Configuring development and deployment environments Configuring the appropriate tasks, settings and triggers for the job Understanding how a dbt job utilizes an environment in order to build database objects and artifacts Using dbt commands to execute specific models デプロイ環境と開発環境の違いを理解する。コンフィグによってデプロイ環境と開発環境を作る。ジョブの適切なタスク、設定、トリガーの構成。 dbtジョブがDBオブジェクト・生成物をビルドするために環境をどのように使うかを理解する。特定のdbtモデルを実行するためのdbtコマンドの使用方法。 Topic 6: Creating and Maintaining dbt documentation Updating dbt docs Implementing source, table, and column descriptions in .yml files Using dbt commands to generate a documentation site Using macros to show model and data lineage on the DAG dbt documentationの作成・維持。 dbt docsの更新、.ymlファイル内に source,table,列定義を書く方法。 documentationサイトを生成するためのdbtコマンドの使用方法。 DAGにおけるモデルとリネージを表示するマクロの使用方法。 Topic 7: Promoting code through version control Understanding concepts and working with Git branches and functionalities Creating clean commits and pull requests Merging code to the main branch gitとのコラボw。版管理。版管理の概念。Git branchとの連携とその機能。 cleanコミットとプルリク。mainブランチへのマージ。 Topic 8: Establishing environments in data warehouse for dbt Understanding environment’s connections Understanding the differences between production data, development data, and raw data データウェアハウスの各環境とdbtの接続を確立する。環境との接続確立方法を理解する。本番環境データ、開発環境データ、生データの違いを理解する。学び方素人が脱初心者するためのステップ。なんだかやたら丁寧。各ステップで参照すべきリソースがまとまっている。順番を無視する理由は特にないので最初から見ていく。 Checkpoint 0 - 前提条件 SQLの理解が必要。結合、集計、CTEsの書き方、ウィンドウ関数に詳しくないといけない。 Gitの理解が必要。ブランチ戦略や基本的なgitコマンド、プルリクの方法など。 Checkpoint 1 - Build a Foundation やたら丁寧だな... オンライン動画。 dbt Fundamentals 読み物 dbt viewpoint ドキュメント Source properties Node selection syntax dbt_project.yml General resource properties やってみる Creating a dbt project from scratch to deployment Debugging errors コマンド達 dbt compile dbt run dbt source freshness dbt test dbt docs generate dbt build dbt run-operation Checkpoint 2 - Modularity and Refactoring オンライン動画 Refactoring SQL for Modularity Readings How we structure our dbt projects Your Essential dbt Project Checklist ドキュメント Refactoring legacy SQL to dbt やってみる - Refactoring SQL for performance and clarity Checkpoint 3 - Doing More with dbt オンライン動画 Jinja, Macros, and Packages Advanced Materializations Analyses and Seeds ドキュメント Exposures Env_var Target Schema Database やってみる - Utilizing packages and macros in a dbt project - Implementing all core materializations into a dbt project - Implementing seeds コマンド達 - dbt snapshot - dbt seed Checkpoint 4 - Deployment and Testing オンライン動画 Advanced Testing Advanced Deployment 読み物 The exact grant statements we use in a dbt project The exact GitHub pull request template we use at dbt Labs How to review an analytics pull request How we configure Snowflake ドキュメント Tags Hooks & Operations Custom Schema Threads やってみる - Defining environments in your data platform - Defining environments in dbt - Promoting code through git including use of multiple branches, pull requests - Troubleshooting errors in production runs - Defining dbt jobs for optimal performance まとめ本来探し回らないと見つからないドキュメントが集まっていて良さそう。このレベルでまとめるだけで何となく全体像が見えてきたような。後続の記事で(ブログドリブンで)インプットした内容をアウトプットしていく。

sklearnに頼らずRidge回帰を自力で書いてみて正則化項の影響を考えてみるテスト

[mathjax] タイトルの通り。Losso回帰と違って損失関数を偏微分するだけで出来そうなのでやってみる。 Ridge回帰は線形回帰の1種だけれども、損失関数として最小二乗法をそのまま使わず、 (L_2)ノルムの制約を付けたものを使う((L_2)正則化)。データとモデル教師データ(boldsymbol{y})、訓練データ(boldsymbol{x})があるとする。 (または目的変数(boldsymbol{y})、説明変数(boldsymbol{x})があるとする。) 例えば(p)次の属性データが(n)個あり、それらと結果の対応が分かっている状況。 begin{eqnarray} boldsymbol{y} &=& begin{pmatrix} y_1 \\ y_2 \\ vdots \\ y_p end{pmatrix} , boldsymbol{x} &=& begin{pmatrix} x_{11} & x_{21} & cdots & x_{n1} \\ x_{12} & x_{22} & cdots & x_{n2} \\ vdots & vdots & ddots & vdots \\ x_{1p} & x_{2p} & cdots & x_{np} end{pmatrix} end{eqnarray} モデルは以下。特徴ベクトル(boldsymbol{w})は訓練データの重み。特徴空間において損失を最小化する特徴ベクトルを求める問題。 begin{eqnarray} boldsymbol{y} &=& boldsymbol{w} boldsymbol{x} + k \\ boldsymbol{w} &=& begin{pmatrix} w_1 & w_2& cdots &w_p end{pmatrix} end{eqnarray} 損失関数普通の2乗損失に正則化項((L_2)ノルムを定数倍した値)を付けたものを損失関数として利用する。正則化項の係数はハイパーパラメータとして調整する値。逆数なのはsklearnに従う。 begin{eqnarray} L(boldsymbol{w}) = |boldsymbol{y} - boldsymbol{w} boldsymbol{x}|^2 +C |boldsymbol{w}|^2 end{eqnarray} 特徴ベクトルは以下。(mathjaxでargminが出せない...) begin{eqnarray} newcommand{argmin}[1]{underset{#1}{operatorname{arg},operatorname{min}};} boldsymbol{w} = argmin w L(boldsymbol{w}) = argmin w |boldsymbol{y} - boldsymbol{w} boldsymbol{x}|^2 + C |boldsymbol{w}|^2 end{eqnarray} 特徴ベクトルを求める勾配=0と置けば上の式の解を得られる。損失関数が微分可能だからできる技。 begin{eqnarray} frac{partial L(boldsymbol{w})}{partial boldsymbol{w}} &=& 2 boldsymbol{w}^T (boldsymbol{y} - boldsymbol{w} boldsymbol{x}) + C boldsymbol{w} \\ &=& 0 end{eqnarray} 変形する。 begin{eqnarray} 2 boldsymbol{x}^T (boldsymbol{x}boldsymbol{w}-boldsymbol{y}) + C boldsymbol{w} &=& 0 \\ boldsymbol{x}^T (boldsymbol{x}boldsymbol{w}-boldsymbol{y}) + C boldsymbol{w} &=& 0 \\ boldsymbol{x}^T boldsymbol{x} boldsymbol{w} -boldsymbol{x}^T boldsymbol{y} + Cboldsymbol{w} &=& 0 \\ (boldsymbol{x}^T boldsymbol{x} +C E) boldsymbol{w} &=& boldsymbol{x}^T boldsymbol{y} \\ boldsymbol{w} &=& (boldsymbol{x}^T boldsymbol{x} + C E)^{-1} boldsymbol{x}^T boldsymbol{y} end{eqnarray} テストデータを作る練習用にsklearnのbostonデータを使ってみる。ボストンの住宅価格が目的変数、属性データが説明変数として入ってる。 import pandas as pd import numpy as np from pandas import Series,DataFrame import matplotlib.pyplot as plt from sklearn.datasets import load_boston boston = load_boston() boston_df = DataFrame(boston.data) boston_df.columns = boston.feature_names print(boston_df.head()) boston_df[\"PRICE\"] = DataFrame(boston.target) # CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO B LSTAT PRICE # 0 0.00632 18.0 2.31 0.0 0.538 6.575 65.2 4.0900 1.0 296.0 15.3 396.90 4.98 24.0 # 1 0.02731 0.0 7.07 0.0 0.469 6.421 78.9 4.9671 2.0 242.0 17.8 396.90 9.14 21.6 # 2 0.02729 0.0 7.07 0.0 0.469 7.185 61.1 4.9671 2.0 242.0 17.8 392.83 4.03 34.7 # 3 0.03237 0.0 2.18 0.0 0.458 6.998 45.8 6.0622 3.0 222.0 18.7 394.63 2.94 33.4 # 4 0.06905 0.0 2.18 0.0 0.458 7.147 54.2 6.0622 3.0 222.0 18.7 396.90 5.33 36.2 散布図行列を表示してみる。 PRICEと関係がありそうなZN,RM,AGE,DIS,LSTATの5個を使ってみる。 pg = sns.pairplot(boston_df) plt.show() pg.savefig(\'boston_fig.png\') 特徴ベクトルを自力で計算するこれを自力で計算してみる。(C=0.01)、(C=0)、(C=100)としてみた。 begin{eqnarray} boldsymbol{w} &=& (boldsymbol{x}^T boldsymbol{x} + C E)^{-1} boldsymbol{x}^T boldsymbol{y} end{eqnarray} X_df = boston_df.drop(columns=[\'CRIM\',\'INDUS\',\'CHAS\',\'NOX\',\'RAD\',\'TAX\',\'PTRATIO\',\'B\',\'PRICE\']) X = X_df.values y = boston.target.T C1 = 0.01 C2 = 0 C3 = 100 e = np.identity(5) w1 = np.dot( np.linalg.inv(np.dot(X.T , X) + C1 * e), np.dot(X.T,y)) w2 = np.dot( np.linalg.inv(np.dot(X.T , X) + C2 * e), np.dot(X.T,y)) w3 = np.dot( np.linalg.inv(np.dot(X.T , X) + C3 * e), np.dot(X.T,y)) print(w1) # [ 0.05338557 5.40396159 -0.01209002 -0.83723303 -0.63725397] print(w2) # [ 0.05338539 5.40403743 -0.01209427 -0.83728837 -0.63725093] print(w3) # [ 0.05612977 4.76664789 0.02374402 -0.38576708 -0.66137596] (C=0)のとき、つまり最小二乗法のとき。 sklearnを使う sklearnのridge回帰モデルを使うと以下みたいになる。 from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split Xf_train,Xf_test,yf_train,yf_test = train_test_split(X,y,random_state=0) ridge = Ridge().fit(Xf_train,yf_train) print(f\"accuracy for training data:{ridge.score(Xf_train,yf_train):.2}\") print(f\"accuracy for test data:{ridge.score(Xf_test,yf_test):.2f}\") # accuracy for training data:0.68 # accuracy for test data:0.58 print(ridge.coef_) # [ 0.06350701 4.3073956 -0.02283312 -1.06820241 -0.73188192] 出てきた特徴ベクトルを並べてみる自力で計算したものとsklearnに計算してもらったものを並べてみる。似てるのか似ていないのかよくわからない .. けど、RMの寄与度が高いというのは似ている。 # 自力で計算 (C=100) # [ 0.05612977 4.76664789 0.02374402 -0.38576708 -0.66137596] # sklearnで計算 # [ 0.06350701 4.3073956 -0.02283312 -1.06820241 -0.73188192] 自力で計算したモデルの正答率を求めてみないとなんとも... そして、正規化項の係数の大小がどう影響するのか、あまり良くわからなかった..。 (L_2)ノルムの制約を付けると、パラメタの大小が滑らかになると言いたかったのだけども。あと、訓練データに対して68%、テストデータに対して58%という感じで、大して成績が良くない...。　

条件付き確率、乗法定理とベイズの定理

[mathjax] ようやくたどり着いたベイズの定理の入り口。ここから入らないと何も理解できないと思う。条件付き確率と事象の独立性事象(B)が起こることがわかってる場合に事象(A)が起こる確率を (B)を条件とする(A)の条件付き確率という。読み方は、Probability of A given B. (P_B (A))とも書く。当たり前のように以下の定義がある。そもそもここから引っかかる。 begin{eqnarray} P(A|B) = frac{P(Acap B)} {P(B)} end{eqnarray} 見方はこちら。 begin{eqnarray} P(Acap B) = P(B) cdot P(A|B) end{eqnarray} 最初に(B)か(B)でないかで分岐する際に(B)を選んだ確率が(P(B))。次に(A)か(A)でないかで分岐する際に(A)を選んだ確率が(P(A|B))。俯瞰して(A)と(B)を両方一気に選ぶ確率は(P(Acap B))。そう、何が気持ち悪いかというと(P(Acap B))と(P(A|B))が同じでないところ。ではどう違うのか。 (A)を選ぶ確率が(B)に依存していないならば、(P(A|B))は(P(A))と等しい。つまり、(P(Acap B) = P(B) cdot P(A))。こちらは直感的。依存しているならば、(P(B))と(P(A))を分離できなくなり、Aを選ぶ確率にBの影響が出る。 Aを選ぶのにBの影響が出る一般の条件がコレで、 begin{eqnarray} P(Acap B) = P(B) cdot P(A|B) end{eqnarray} そのうち、影響が全くでない特殊な条件がコレ。 begin{eqnarray} P(Acap B) = P(B) cdot P(A) end{eqnarray} すっきり。ベイズの定理 (H_1,H_2,cdots,H_n)という原因の結果(A)が得られた、という条件。普通は原因(H)が発生した上で結果(A)が得られる確率(P(A|H))を直接計算することができるが、結果が得られた上で原因が得られる確率(P(H|A))は直接計算できない。直接計算できる(P(A|H))を直接計算できない(P(H|A))に変換するのがベイズの定理。 begin{eqnarray} P(H_i|A) = frac{P(H_i)cdot P(A|H_i)}{sum P(H_j) cdot P(A|H_j)} end{eqnarray} 一番有名なたとえ。「無料」という単語を含むメールが迷惑メールである確率を知りたいけど直接計算では求められない。大量に迷惑メールを集めて「無料」という単語が含まれる確率は計算で得られる。後者を前者に変換することで、直接得られない確率を推定する話。条件付き確率の定義を変形するとベイズの定理になる。 begin{eqnarray} A &=& A cap Omega \\ &=& A cap (H_1 cup H_2 cup cdots cup H_n) \\ &=& (A cap H_1) cup (A cap H_2) cup cdots (A cap H_n) end{eqnarray} ((A cap H_1))、((A cap H_2))、(cdots)、((A cap H_n))は排反だから begin{eqnarray} P(A) &=& sum P(A cup H_j) \\ &=& sum P(H_j) cdot P(A|H_j) end{eqnarray} 条件付き確率の定義に放り込む。 begin{eqnarray} P(H_i|A) &=& frac{P(H_icup A)}{P(A)} \\ &=& frac{P(A|H_i)cdot P(H_i)}{P(A)} \\ &=& frac{P(A|H_i)cdot P(H_i)}{sum P(H_j) cdot P(A|H_j)} end{eqnarray}

Fellegi-Sunterモデルに基づく確率的名寄せパッケージ Splinkを試してみる

[mathjax] Record Linkage、Entity Recognitionなど、いわゆる「名寄せ」問題には、割とさまざまな解決策が提案されている。その1つに確率論的な数学的背景を持つFellegi-Sunterモデルを実装したSplinkがある。数学的背景について咀嚼して説明してくれているサイトはあまりなく、Splinkの公式ドキュメントが唯一に近いソースだろうと思う。今回は5万人の人物データを使って重複を除去するSplinkの主要な機能のサンプルを追ってみた。数式を読んだところで実りは薄い、ということもあり、なるべく数式を読まずに読み進めたが、モデルのパラメタ、予測結果を解釈する際にどうしても数式を読まないとわからない箇所があった。特にベイズ統計について理解がかなり浅くて、正直なところ理解しきれてはいない。 Splinkの公式ドキュメントを読み進めていった際に気付いたメモを書いてみることにした。 [arst_toc tag=\"h4\"] 環境構築・準備環境構築の実装部分は主な学習要素ではないのでClaude Codeでサクッと作ってみた。まずはPlan modeで計画を立ててもらう。これぐらいだとほぼ言い値で使える。 DuckDB、Splinkを使う最小構成の環境を作ります。環境はDocker composeで構築します。計画を立ててください。 ⏺ DuckDB、Splinkを使うDocker Compose環境の計画を完了しました。計画概要 1. 設計文書: .tmp/design.mdで要件、アーキテクチャ、技術仕様を定義 2. タスク管理: .tmp/task.mdで詳細な実装手順を3フェーズに分けて整理主要コンポーネント - Jupyter Lab環境: DuckDB、Splink、必要なライブラリがプリインストール - データボリューム: サンプルデータ、notebook、出力用のディレクトリ - 最小構成: 開発・学習用途に特化した軽量環境次のステップ実装を開始する場合は、Phase 1から順番に進めます： 1. Docker設定ファイル作成 2. ディレクトリ構造構築 3. サンプル実装 4. テストと検証計画の詳細は.tmp/design.mdと.tmp/task.mdをご確認ください。実装を開始しますか？実際にファイルを作ってもらうと以下のような構成となる。得られる中間成果物である docker-compose.yml、Dockerfile は本記事では省略する。 . ├── data ├── docker-compose.yml ├── Dockerfile ├── notebooks ├── output └── requirements.txt 普通に http://localhost:8888 で JupyterLab が開く。使用するサンプルデータ 5万人の人物データを使って名寄せを行うサンプル。おそらくSplinkの用途として最初に思いつくやつ。 Splinkにデータをロードする前に必要なデータクリーニング手順について説明がある。公式によると、まずは行に一意のIDを割り当てる必要がある。データセット内で一意となるIDであって、重複除去した後のエンティティを識別するIDのことではない。 [clink implicit=\"false\" url=\"https://moj-analytical-services.github.io/splink/demos/tutorials/01_Prerequisites.html\" imgurl=\"https://user-images.githubusercontent.com/7570107/85285114-3969ac00-b488-11ea-88ff-5fca1b34af1f.png\" title=\"Data Prerequisites\" excerpt=\"Splink では、リンクする前にデータをクリーンアップし、行に一意の ID を割り当てる必要があります。このセクションでは、Splink にデータをロードする前に必要な追加のデータクリーニング手順について説明します。\"] 使用するサンプルデータは以下の通り。 from splink import splink_datasets df = splink_datasets.historical_50k df.head() データの分布を可視化 splink.exploratoryのprofile_columnsを使って分布を可視化してみる。 from splink import DuckDBAPI from splink.exploratory import profile_columns db_api = DuckDBAPI() profile_columns(df, db_api, column_expressions=[\"first_name\", \"substr(surname,1,2)\"]) 同じ姓・名の人が大量にいることがわかる。ブロッキングとブロッキングルールの評価テーブル内のレコードが他のレコードと「同一かどうか」を調べるためには、基本的には、他のすべてのレコードとの何らかの比較操作を行うこととなる。全てのレコードについて全てのカラム同士を比較したいのなら、対象のテーブルをCROSS JOINした結果、各カラム同士を比較することとなる。 SELECT ... FROM input_tables as l CROSS JOIN input_tables as r あるカラムが条件に合わなければ、もうその先は見ても意味がない、というケースは多い。例えば、まず first_name 、surname が同じでなければ、その先の比較を行わない、というのはあり得る。 SELECT ... FROM input_tables as l INNER JOIN input_tables as r ON l.first_name = r.first_name AND l.surname = r.surname このような考え方をブロッキング、ON句の条件をブロッキングルールと言う。ただ、これだと性と名が完全一致していないレコードが残らない。そこで、ブロッキングルールを複数定義し、いずれかが真であれば残すことができる。ここでポイントなのが、ブロッキングルールを複数定義したとき、それぞれのブロッキングルールで重複して選ばれるレコードが発生した場合、 Splinkが自動的に排除してくれる。このため、ブロッキングルールを重ねがけすると、最終的に残るレコード数は一致する。ただ、順番により、同じルールで残るレコード数は変化する。逆に言うと、ブロッキングルールを足すことで、重複除去後のOR条件が増えていく。積算グラフにして、ブロッキングルールとその順番の効果を見ることができる。 from splink import DuckDBAPI, block_on from splink.blocking_analysis import ( cumulative_comparisons_to_be_scored_from_blocking_rules_chart, ) blocking_rules = [ block_on(\"substr(first_name,1,3)\", \"substr(surname,1,4)\"), block_on(\"surname\", \"dob\"), block_on(\"first_name\", \"dob\"), block_on(\"postcode_fake\", \"first_name\"), block_on(\"postcode_fake\", \"surname\"), block_on(\"dob\", \"birth_place\"), block_on(\"substr(postcode_fake,1,3)\", \"dob\"), block_on(\"substr(postcode_fake,1,3)\", \"first_name\"), block_on(\"substr(postcode_fake,1,3)\", \"surname\"), block_on(\"substr(first_name,1,2)\", \"substr(surname,1,2)\", \"substr(dob,1,4)\"), ] db_api = DuckDBAPI() cumulative_comparisons_to_be_scored_from_blocking_rules_chart( table_or_tables=df, blocking_rules=blocking_rules, db_api=db_api, link_type=\"dedupe_only\", ) 積算グラフは以下の通り。積み上がっている数値は「比較の数」。要は、論理和で条件を足していって、次第に緩和されている様子がわかる。 DuckDBでは比較の数を2,000万件以内、Athena,Sparkでは1億件以内を目安にせよとのこと。比較の定義 Splinkは Fellegi-Sunter model モデル (というかフレームワーク) に基づいている。 https://moj-analytical-services.github.io/splink/topic_guides/theory/fellegi_sunter.html 各カラムの同士をカラムの特性に応じた距離を使って比較し、重みを計算していく。各カラムの比較に使うためのメソッドが予め用意されているので、特性に応じて選んでいく。以下では、first_name, sur_name に ForenameSurnameComparison が使われている。 dobにDateOfBirthComparison、birth_place、ocupationにExactMatchが使われている。 import splink.comparison_library as cl from splink import Linker, SettingsCreator settings = SettingsCreator( link_type=\"dedupe_only\", blocking_rules_to_generate_predictions=blocking_rules, comparisons=[ cl.ForenameSurnameComparison( \"first_name\", \"surname\", forename_surname_concat_col_name=\"first_name_surname_concat\", ), cl.DateOfBirthComparison( \"dob\", input_is_string=True ), cl.PostcodeComparison(\"postcode_fake\"), cl.ExactMatch(\"birth_place\").configure(term_frequency_adjustments=True), cl.ExactMatch(\"occupation\").configure(term_frequency_adjustments=True), ], retain_intermediate_calculation_columns=True, ) # Needed to apply term frequencies to first+surname comparison df[\"first_name_surname_concat\"] = df[\"first_name\"] + \" \" + df[\"surname\"] linker = Linker(df, settings, db_api=db_api) ComparisonとComparison Level ここでSplinkツール内の比較の概念の説明。以下の通り概念に名前がついている。 Data Linking Model ├─-- Comparison: Date of birth │ ├─-- ComparisonLevel: Exact match │ ├─-- ComparisonLevel: One character difference │ ├─-- ComparisonLevel: All other ├─-- Comparison: First name │ ├─-- ComparisonLevel: Exact match on first_name │ ├─-- ComparisonLevel: first_names have JaroWinklerSimilarity > 0.95 │ ├─-- ComparisonLevel: first_names have JaroWinklerSimilarity > 0.8 │ ├─-- ComparisonLevel: All other モデルのパラメタ推定モデルの実行に必要なパラメタは以下の3つ。Splinkを用いてパラメタを得る。ちなみに u は \"\'U\'nmatch\"、m は \"\'M\'atch\"。背後の数式の説明で現れる。 No パラメタ説明 1 無作為に選んだレコードが一致する確率入力データからランダムに取得した2つのレコードが一致する確率 (通常は非常に小さい数値) 2 u値(u確率) 実際には一致しないレコードの中で各 ComparisonLevel に該当するレコードの割合。具体的には、レコード同士が同じエンティティを表すにも関わらず値が異なる確率。例えば、同じ人なのにレコードによって生年月日が違う確率。これは端的には「データ品質」を表す。名前であればタイプミス、別名、ニックネーム、ミドルネーム、結婚後の姓など。 3 m値(m確率) 実際に一致するレコードの中で各 ComparisonLevel に該当するレコードの割合。具体的には、レコード同士が異なるエンティティを表すにも関わらず値が同じである確率。例えば別人なのにレコードによって性・名が同じ確率 (同姓同名)。性別は男か女かしかないので別人でも50%の確率で一致してしまう。無作為に選んだレコードが一致する確率入力データからランダムに抽出した2つのレコードが一致する確率を求める。値は0.000136。すべての可能なレコードのペア比較のうち7,362.31組に1組が一致すると予想される。合計1,279,041,753組の比較が可能なため、一致するペアは合計で約173,728.33組になると予想される、とのこと。 linker.training.estimate_probability_two_random_records_match( [ block_on(\"first_name\", \"surname\", \"dob\"), block_on(\"substr(first_name,1,2)\", \"surname\", \"substr(postcode_fake,1,2)\"), block_on(\"dob\", \"postcode_fake\"), ], recall=0.6, ) > Probability two random records match is estimated to be 0.000136. > This means that amongst all possible pairwise record comparisons, > one in 7,362.31 are expected to match. > With 1,279,041,753 total possible comparisons, > we expect a total of around 173,728.33 matching pairs u確率の推定実際には一致しないレコードの中でComparisonの評価結果がPositiveである確率。基本、無作為に抽出したレコードは一致しないため、「無作為に抽出したレコード」を「実際には一致しないレコード」として扱える、という点がミソ。 probability_two_random_records_match によって得られた値を使ってu確率を求める。 estimate_u_using_random_sampling によって、ラベルなし、つまり教師なしでu確率を得られる。レコードのペアをランダムでサンプルして上で定義したComparisonを評価する。ランダムサンプルなので大量の不一致が発生するが、各Comparisonにおける不一致の分布を得ている。これは、例えば性別について、50%が一致、50%が不一致である、という分布を得ている。一方、例えば生年月日について、一致する確率は 1%、1 文字の違いがある確率は 3%、その他はすべて 96% の確率で発生する、という分布を得ている。 linker.training.estimate_u_using_random_sampling(max_pairs=5e6) > ----- Estimating u probabilities using random sampling ----- > > Estimated u probabilities using random sampling > > Your model is not yet fully trained. Missing estimates for: > - first_name_surname (no m values are trained). > - dob (no m values are trained). > - postcode_fake (no m values are trained). > - birth_place (no m values are trained). > - occupation (no m values are trained). m確率の推定「実際に一致するレコード」の中で、Comparisonの評価がNegativeになる確率。そもそも、このモデルを使って名寄せ、つまり「一致するレコード」を見つけたいのだから、モデルを作るために「実際に一致するレコード」を計算しなければならないのは矛盾では..となる。無作為抽出結果から求められるu確率とは異なり、m確率を求めるのは難しい。もしラベル付けされた「一致するレコード」、つまり教師データセットがあるのであれば、そのデータセットを使ってm確率を求められる。例えば、日本人全員にマイナンバーが振られて、全てのレコードにマイナンバーが振られている、というアナザーワールドがあるのであれば、マイナンバーを使ってm確率を推定する。(どういう状況??) ラベル付けされたデータがないのであれば、EMアルゴリズムでm確率を求めることになっている。 EMアルゴリズムは反復的な手法で、メモリや収束速度の点でペア数を減らす必要があり、例ではブロッキングルールを設定している。以下のケースでは、first_nameとsurnameをブロッキングルールとしている。つまり、first_name, surnameが完全に一致するレコードについてペア比較を行う。この仮定を設定したため、first_name, surname (first_name_surname) のパラメタを推定できない。 training_blocking_rule = block_on(\"first_name\", \"surname\") training_session_names = ( linker.training.estimate_parameters_using_expectation_maximisation( training_blocking_rule, estimate_without_term_frequencies=True ) ) > ----- Starting EM training session ----- > > Estimating the m probabilities of the model by blocking on: > (l.\"first_name\" = r.\"first_name\") AND (l.\"surname\" = r.\"surname\") > > Parameter estimates will be made for the following comparison(s): > - dob > - postcode_fake > - birth_place > - occupation > > Parameter estimates cannot be made for the following comparison(s) since they are used in the blocking rules: > - first_name_surname > > Iteration 1: Largest change in params was 0.248 in probability_two_random_records_match > Iteration 2: Largest change in params was 0.0929 in probability_two_random_records_match > Iteration 3: Largest change in params was -0.0237 in the m_probability of birth_place, level `Exact match on > birth_place` > Iteration 4: Largest change in params was 0.00961 in the m_probability of birth_place, level `All other >comparisons` > Iteration 5: Largest change in params was -0.00457 in the m_probability of birth_place, level `Exact match on birth_place` > Iteration 6: Largest change in params was -0.00256 in the m_probability of birth_place, level `Exact match on birth_place` > Iteration 7: Largest change in params was 0.00171 in the m_probability of dob, level `Abs date difference Iteration 8: Largest change in params was 0.00115 in the m_probability of dob, level `Abs date difference Iteration 9: Largest change in params was 0.000759 in the m_probability of dob, level `Abs date difference Iteration 10: Largest change in params was 0.000498 in the m_probability of dob, level `Abs date difference Iteration 11: Largest change in params was 0.000326 in the m_probability of dob, level `Abs date difference Iteration 12: Largest change in params was 0.000213 in the m_probability of dob, level `Abs date difference Iteration 13: Largest change in params was 0.000139 in the m_probability of dob, level `Abs date difference Iteration 14: Largest change in params was 9.04e-05 in the m_probability of dob, level `Abs date difference <= 10 year` 同様にdobをブロッキングルールに設定して実行すると、dob以外の列についてパラメタを推定できる。 training_blocking_rule = block_on(\"dob\") training_session_dob = ( linker.training.estimate_parameters_using_expectation_maximisation( training_blocking_rule, estimate_without_term_frequencies=True ) ) > ----- Starting EM training session ----- > > Estimating the m probabilities of the model by blocking on: > l.\"dob\" = r.\"dob\" > > Parameter estimates will be made for the following comparison(s): > - first_name_surname > - postcode_fake > - birth_place > - occupation > > Parameter estimates cannot be made for the following comparison(s) since they are used in the blocking rules: > - dob > > Iteration 1: Largest change in params was -0.474 in the m_probability of first_name_surname, level `Exact match on first_name_surname_concat` > Iteration 2: Largest change in params was 0.052 in the m_probability of first_name_surname, level `All other comparisons` > Iteration 3: Largest change in params was 0.0174 in the m_probability of first_name_surname, level `All other comparisons` > Iteration 4: Largest change in params was 0.00532 in the m_probability of first_name_surname, level `All other comparisons` > Iteration 5: Largest change in params was 0.00165 in the m_probability of first_name_surname, level `All other comparisons` > Iteration 6: Largest change in params was 0.00052 in the m_probability of first_name_surname, level `All other comparisons` > Iteration 7: Largest change in params was 0.000165 in the m_probability of first_name_surname, level `All other comparisons` > Iteration 8: Largest change in params was 5.29e-05 in the m_probability of first_name_surname, level `All other comparisons` > > EM converged after 8 iterations > > Your model is not yet fully trained. Missing estimates for: > - first_name_surname (some u values are not trained). モデルパラメタの可視化 m確率、u確率の可視化。マッチウェイトの可視化。マッチウェイトは (log_2 (m / u))で計算される。 linker.visualisations.match_weights_chart() モデルの保存と読み込み以下でモデルを保存できる。 settings = linker.misc.save_model_to_json( \"./saved_model_from_demo.json\", overwrite=True ) 以下で保存したモデルを読み込める。 import json settings = json.load( open(\'./saved_model_from_demo.json\', \'r\') ) リンクするのに十分な情報が含まれていないレコード「John Smith」のみを含み、他のすべてのフィールドがnullであるレコードは、他のレコードにリンクされている可能性もあるが、潜在的なリンクを明確にするには十分な情報がない。以下により可視化できる。 linker.evaluation.unlinkables_chart() 横軸は「マッチウェイトの閾値」。縦軸は「リンクするのに十分な情報が含まれないレコード」の割合。マッチウェイト閾値=6.11ぐらいのところを見ると、入力データセットのレコードの約1.3%がリンクできないことが示唆される。訓練済みモデルを使って未知データのマッチウェイトを予測上で構築した推定モデルを使用し、どのペア比較が一致するかを予測する。内部的には以下を行うとのこと。 blocking_rules_to_generate_predictionsの少なくとも1つと一致するペア比較を生成 Comparisonで指定されたルールを使用して、入力データの類似性を評価推定された一致重みを使用し、要求に応じて用語頻度調整を適用して、最終的な一致重みと一致確率スコアを生成 df_predictions = linker.inference.predict(threshold_match_probability=0.2) df_predictions.as_pandas_dataframe(limit=1) > Blocking time: 0.88 seconds > Predict time: 1.91 seconds > > -- WARNING -- > You have called predict(), but there are some parameter estimates which have neither been estimated or > specified in your settings dictionary. To produce predictions the following untrained trained parameters will > use default values. > Comparison: \'first_name_surname\': > u values not fully trained records_to_plot = df_e.to_dict(orient=\"records\") linker.visualisations.waterfall_chart(records_to_plot, filter_nulls=False) predictしたマッチウェイトの可視化、数式との照合 predictしたマッチウェイトは、ウォーターフォール図で可視化できる。マッチウェイトは、モデル内の各特徴量によって一致の証拠がどの程度提供されるかを示す中心的な指標。 (lambda)は無作為抽出した2つのレコードが一致する確率。(K=m/u)はベイズ因子。 begin{align} M &= log_2 ( frac{lambda}{1-lambda} ) + log_2 K \\ &= log_2 ( frac{lambda}{1-lambda} ) + log_2 m - log_2 u end{align} 異なる列の比較が互いに独立しているという仮定を置いていて、 2つのレコードのベイズ係数が各列比較のベイズ係数の積として扱う。 begin{eqnarray} K_{feature} = K_{first_name_surname} + K_{dob} + K_{postcode_fake} + K_{birth_place} + K_{occupation} + cdots end{eqnarray} マッチウェイトは以下の和。 begin{eqnarray} M_{observe} = M_{prior} + M_{feature} end{eqnarray} ここで begin{align} M_{prior} &= log_2 (frac{lambda}{1-lambda}) \\ M_{feature} &= M_{first_name_surname} + M_{dob} + M_{postcode_fake} + M_{birth_place} + M_{occupation} + cdots end{align} 以下のように書き換える。 begin{align} M_{observe} &= log_2 (frac{lambda}{1-lambda}) + sum_i^{feature} log_2 (frac{m_i}{u_i}) \\ &= log_2 (frac{lambda}{1-lambda}) + log_2 (prod_i^{feature} (frac{m_i}{u_i}) ) end{align} ウォーターフォール図の一番左、赤いバーは(M_{prior} = log_2 (frac{lambda}{1-lambda}))。特徴に関する追加の知識が考慮されていない場合のマッチウェイト。横に並んでいる薄い緑のバーは (M_{first_name_surname} + M_{dob} + M_{postcode_fake} + M_{birth_place} + M_{occupation} + cdots)。各特徴量のマッチウェイト。一番右の濃い緑のバーは2つのレコードの合計マッチウェイト。 begin{align} M_{feature} &= M_{first_name_surname} + M_{dob} + M_{postcode_fake} + M_{birth_place} + M_{occupation} + cdots \\ &= 8.50w end{align} まとめ長くなったのでいったん終了。この記事では教師なし確率的名寄せパッケージSplinkを使用してモデルを作ってみた。次の記事では、作ったモデルを使用して実際に名寄せをしてみる。途中、DuckDBが楽しいことに気づいたので、DuckDBだけで何個か記事にしてみようと思う。

Fellegi-Sunterモデルに基づく確率的名寄せパッケージ Splinkを試してみる

環境構築・準備

使用するサンプルデータ

データの分布を可視化

ブロッキングとブロッキングルールの評価

比較の定義

ComparisonとComparison Level

モデルのパラメタ推定

無作為に選んだレコードが一致する確率

u確率の推定

m確率の推定

モデルパラメタの可視化

モデルの保存と読み込み

リンクするのに十分な情報が含まれていないレコード

訓練済みモデルを使って未知データのマッチウェイトを予測

predictしたマッチウェイトの可視化、数式との照合

まとめ

React+Next.jsでDummy JSONのCRUDをCSR/SSRの両方で作成して違いを調べてみた話

go-txdbを使ってgolang, gin, gorm(gen)+sqlite構成のAPI をテストケース毎に管理する

gorm互換の型安全なORMであるgenでCRUD APIを試作

Golang + Gin カスタムバリデーション

Golang + Gin Framework で Hello World してみた話〜基本的なルーティング、バスパラメタ・クエリパラメタ・JSON Req/Res、フォームデータ

Snowflake MCPサーバを試してみた

Fellegi-Sunterモデルに基づく確率的名寄せパッケージ Splinkを試してみる

AirflowでEnd-To-End Pipeline Testsを行うためにAirflow APIを調べてみた話

CustomOperatorのUnitTestを理解するためGCSToBigQueryOperatorのUnitTestを読んでみた話

GoogleによるAirflow DAG実装のベスプラ集を読んでみた – その1

環境構築・準備

使用するサンプルデータ

データの分布を可視化

ブロッキングとブロッキングルールの評価

比較の定義

ComparisonとComparison Level

モデルのパラメタ推定

無作為に選んだレコードが一致する確率

u確率の推定

m確率の推定

モデルパラメタの可視化

モデルの保存と読み込み

リンクするのに十分な情報が含まれていないレコード

訓練済みモデルを使って未知データのマッチウェイトを予測

predictしたマッチウェイトの可視化、数式との照合

まとめ

関連記事