十三回目の月曜日だった。
僕は田中誠、三十二歳。担当するECサイトの受注処理を一人で面倒を見ているバックエンドエンジニアだ。今朝もまた、注文テーブルにレコードがあるのに在庫テーブルが動いていない。支払いテーブルも空白のまま。エラーログは出ていない。アプリケーションは正常に動いている。なのに帳簿が合わない。
十三回目ともなると、手動修正の手順は体が覚えている。注文IDを控え、在庫テーブルを手で減算し、支払いレコードを手で追加する。だいたい二十分。だいたい毎週。だいたい月曜。
最初の月は「たまたまだ」と思っていた。二ヶ月目は「環境起因かもしれない」と調べた。三ヶ月目の今、僕は原因を突き止めることを半ば諦めて、代わりに手順書の精度を上げることに注力していた。
先週、社内のエンジニア向けSlackチャンネルに「原因不明のDB不整合について」と投稿した。いくつかのリアクションと、一件のDM。知らないアカウントからだった。
コードを見せていただければ、原因は分かると思います。——Locke
プロフィールには「レガシー・コード・インベスティゲーション(LCI)」とだけ書いてあった。検索しても公式サイトすら出てこない。怪しかった。しかし十三回目の月曜を過ごした人間に、怪しさを気にする余裕はなかった。
翌日の夕方、指定された住所に向かった。ビルの入口にある案内板に「LCI」の文字はなく、代わりに手書きのインデックスカードがテープで貼ってある。階段を上がると、半開きのドアの向こうに男が一人いた。
デスクの上にはO’Reillyのラクダ本が三冊——版違いで並べてある。男はそのうちの一冊を開いたまま、虫眼鏡でページの活字を覗き込んでいた。
「ああ。Slackの件だね」
こちらを見ずに言った。虫眼鏡はまだ本の上にある。
「田中です。DBの不整合について相談したくて——」
「座りたまえ、ワトソン君」
何のことか分からなかったが、とにかく椅子を引いた。
現場検証:バラバラに提出される三通の証拠書類
ノートPCを開いてリポジトリを見せた。男——ロックさんは虫眼鏡を置き、画面に顔を近づけた。
| |
しばらく無言だった。ロックさんはラクダ本を閉じ、その上に両手を重ねた。
「三通の書類を、三人の別々の窓口に提出している」
「書類?」
「_order_repo->save、_inventory_repo->decrease、_payment_repo->save——それぞれが独立した書き込み操作だ。一番目の窓口で受理された時点で、注文レコードはDBに確定する。二番目の窓口が閉まっていたら?」
僕はモニターに目を戻した。コードの行をもう一度追う。save, decrease, save。三つの操作が順番に並んでいる。
「二番目が失敗しても、一番目はもう書き込まれている——ということですか」
「そこまでは分かっているようだね」
「いえ、分かっていたら三ヶ月も手動修正してません」
ロックさんは初めてこちらを見た。
「知っていることと、見えていることは違う。君はコードの行を読んでいた。だが書き込みの境界を見ていなかった」
在庫サービスで稀に発生するタイムアウト。同時アクセスによるロック競合。理由は何であれ、二番目の操作が失敗した瞬間、一番目の注文レコードだけが宙に浮く。エラーは呼び出し元に伝播するが、注文はすでに保存済み。ログにはエラーが記録されても、保存済みの注文レコードは戻らない。
Scattered Writes(散弾銃的DB更新)。複数の書き込み操作を「まとめて成功するか、まとめて失敗するか」という単位で管理しないまま、個別に実行してしまう構造的欠陥だ。
「でも、この三つの操作は業務上ひとまとまりのはずです。注文と在庫と支払いは——」
「その通り。業務上ひとまとまりの操作が、コード上ではばらばらになっている。だから帳簿が壊れる」
推理披露:証拠品を一括封印する金庫
「解決の方針は、すべての書類を一つの金庫に入れて、まとめて提出するか、まとめて破棄するかのどちらかにすることだ」
「金庫?」
「Unit of Work。作業単位という意味だ。複数の変更操作を一つのオブジェクトに登録しておいて、最後にまとめてコミットする。途中で何かが失敗したら、金庫ごと破棄して全変更を取り消す」
ロックさんはラクダ本を脇に寄せてキーボードに向かった。
まず、変更を「いつ書くか」から分離する。ドメインオブジェクトにinsertとupdateメソッドを持たせて、呼ばれるまで実際のDBには触れないようにする。
| |
| |
「OrderRecordは注文データを保持するだけだ。insertが呼ばれて初めてDBに書く。InventoryRecordも同じ。計算は先に済ませ、書き込みは後回しにする」
「後回しにしたら、誰がいつ書くんですか」
「それがUnit of Workの仕事だ」
| |
「register_newで新しく作る書類を登録。register_dirtyで変更済みの書類を登録。そしてcommit——金庫の扉を閉じて、すべてを一括で提出する。途中でエラーが起きれば、スナップショットで元に戻す」
僕はcommitの中身をもう一度読んだ。evalの中でinsertとupdateを回して、失敗したら$snapshotで復元する。理屈は分かる。だが引っかかることがあった。
「スナップショットのコピーを毎回取るのは、パフォーマンス的に問題ないですか」
「実運用ではDBのトランザクション——begin_workとcommit、rollback——を使う。インメモリのスナップショットは原理を見せるための模型だよ。本物のDBなら、スナップショットのコストはDBエンジンが引き受ける」
なるほど。模型として理解すれば、原子性の仕組みが見える。
「では、OrderServiceはこう書き直せる」
| |
「_order_repo->saveが消えた」と僕は呟いた。
「気づいたね。OrderServiceはもうDBに直接書かない。UnitOfWorkに変更を登録して、最後のcommitだけが実際の書き込みを行う」
Beforeでは三つの独立したsaveが、それぞれの時点でDBを更新していた。Afterでは、三つの変更がUnitOfWorkに預けられ、commitの一瞬だけDBに触れる。
classDiagram
class UnitOfWork {
+register_new(obj)
+register_dirty(obj)
+commit()
}
class OrderRecord {
+insert(db)
}
class InventoryRecord {
+update(db)
}
class PaymentRecord {
+insert(db)
}
class OrderService {
+create_order(params)
}
OrderService --> UnitOfWork : 変更を登録
UnitOfWork --> OrderRecord : commit時にinsert
UnitOfWork --> InventoryRecord : commit時にupdate
UnitOfWork --> PaymentRecord : commit時にinsert
「でも」と僕は食い下がった。「在庫の更新が失敗した場合、注文のinsertはもう実行されているんじゃないですか。commitの中で順番に呼んでいるなら——」
ロックさんはcommitのコードを指差した。evalブロックの直後、if (my $err = $@)の行を。
「失敗したらここに来る。$snapshotで三つのテーブルすべてを巻き戻す。注文も、在庫も、支払いも。evalの中で最初のinsertが成功していても、スナップショットが上書きするから結果としてなかったことになる」
ようやく腑に落ちた。saveを個別に呼んでいたから壊れていたのではなく、「壊れたときに戻す仕組み」がなかったから壊れていたのだ。
事件解決:整合性が戻った帳簿
テストを走らせた。
| |
全テスト、警告ゼロ。
在庫更新が失敗しても注文レコードは残らない。正常系では三つのデータがすべて揃って保存される。どちらか一方しかない。
「……田中です。さっきからワトソン君って呼ばれてますけど」
「ああ。助手にはそう呼ぶことにしている」
訂正する気力もなかった。ロックさんはすでにラクダ本を開き直して、虫眼鏡を構えている。話は終わったらしい。
僕は礼を言って立ち上がった。報酬の話は出なかった。出口でふと振り返ると、ロックさんは活字を追いながら小さく手を振った。
次の月曜の朝、帳簿は合っていた。
探偵の調査報告書
| 容疑(アンチパターン) | 真実(パターン) | 証拠(効果) |
|---|---|---|
| Scattered Writes — 注文・在庫・支払いへの書き込みが個別に実行され、途中失敗で整合性のないデータが残る | Unit of Work — すべての変更を一つのオブジェクトに登録し、commitで一括適用。失敗時はロールバックで全変更を取り消す | 在庫更新が失敗しても注文レコードは残らない。三つのデータが常に揃って保存されるか、揃って保存されないかのどちらかになる |
| 原子性の欠如 — 複数の書き込み操作を「全成功か全失敗か」という単位で管理していない | トランザクション的な一貫性 — register_new・register_dirtyで変更を追跡し、commit時にまとめてDBへ反映する | OrderServiceは直接DBに書かなくなる。書き込みの責任がUnitOfWorkに集約され、整合性の保証が一箇所にまとまる |
推理のステップ
- Scattered Writesを識別する — 同一ユースケースの中に複数の独立した
save・update呼び出しがある箇所を探す。これが整合性バグの温床になっている - ドメインオブジェクトに
insert/updateを持たせる — 書き込みのタイミングをオブジェクト自身から切り離す。オブジェクトは変更を保持し、実際の書き込みはUnitOfWorkに委ねる - UnitOfWorkを実装する —
register_new(新規作成)・register_dirty(更新)で変更を登録する。commitでスナップショットを保存してから全操作を実行し、失敗時はスナップショットで復元する - Serviceのsaveを置き換える — OrderServiceなどから直接リポジトリへの書き込みを除き、代わりにUnitOfWorkへの登録に変える。最後の
commit一行で全変更が確定される - 失敗シナリオをテストする — 中間操作が失敗した場合に、すでに実行された操作も巻き戻されることをテストで確認する。これがUnit of Workの核心的な保証だ
ロックより
三つの窓口に三枚の書類を出して、二枚目で窓口が閉まったとき、一枚目はもう受理されている。取り下げに行く仕組みがなければ、帳簿は静かに壊れていく。そして壊れた帳簿は、エラーログよりもたちが悪い。「正常に完了した」という記録が残っているからだ。
Unit of Workは、その取り下げの仕組みを一箇所に集約する。実運用では、インメモリのスナップショットではなくDBのトランザクション(begin_work/commit/rollback)と組み合わせることで、より堅牢な原子性が得られる。金庫の鍵は一つでいい。
