手部X線写真を用いた骨粗鬆症および骨減少症スクリーニングへの機械学習の応用

目的 骨粗鬆症および骨減少症に関連する脆弱性骨折は、罹患率と死亡率の一般的な原因です。現在の低骨密度診断方法には、専門的な二重エネルギーX線吸収測定法(DXA)スキャンが必要です。手部の単純X線写真は代替スクリーニングツールとして有用である可能性がありますが、最適な診断用X線パラメータは不明で、測定には人為的誤差が生じやすい状況です。本研究の目的は、標準的な手部X線写真を使用して骨粗鬆症および骨減少症をスクリーニングする人工知能アルゴリズムを開発・検証することでした。
方法 機関審査委員会の承認を得ました。1998年から2019年の間に、DXAスキャンと手部X線写真の両方を12ヶ月以内に受けたすべての患者を特定するために、機関データベースを検索しました。X線写真から12ヶ月以内のDXAスキャンの報告書を取得し、Tスコアを抽出しました。対応する後前位像の手部X線写真の高解像度画像を、当機関の画像アーカイブ・通信システム(PACS)からエクスポートしました。手部X線写真は、DXA Tスコアとカテゴリー(骨粗鬆症、骨減少症、または正常)でラベル付けされました。カテゴリーの定義は、WHOの標準定義に従い、Tスコア21を使用して以下のように分類しました:正常、T >= -1.0;骨減少症、-2.5 < T < -1.0;骨粗鬆症、T <= -2.5。
結果 正常カテゴリーに687枚、骨減少症カテゴリーに607枚、骨粗鬆症カテゴリーに130枚の画像があり、合計1,424枚の画像がありました。低骨密度(骨減少症または骨粗鬆症)と正常骨密度を予測する際、標準閾値0.5での感度は88.5%、特異度は65.4%、全体の精度は80.8%、曲線下面積は0.891でした。感度と特異度の両方を最適化する場合、閾値0.655で、モデルは感度84.6%、特異度84.6%を達成しました。
結論 この知見は、よりアクセスしやすく、費用対効果の高い自動化された診断、ひいては骨粗鬆症/骨減少症の早期治療に向けた一歩となる可能性があります。(J Hand Surg Am. 2024;-(-):-e-. Copyright Ó2024 by the American Society for Surgery of the Hand. All rights are reserved, including those for text and data mining, AI training, and similar technologies.)
研究タイプ/エビデンスレベル 診断II キーワード:人工知能、骨密度、機械学習、骨減少症、骨粗鬆症

*スタンフォード大学医学部外科形成再建外科部門、スタンフォード、CA;†国防医学院三軍総病院整形外科部門、台北、台湾;‡スタンフォード大学医学部整形外科部門、スタンフォード、CA;§スタンフォード大学医療センター整形外科部門ロバート・A・チェース手・上肢センター、レッドウッドシティ、CA

2024年2月6日受付、2024年9月10日改訂版受理

責任著者 : Jeffrey Yao, MD, スタンフォード大学医療センター整形外科部門ロバート・A・チェース手・上肢センター、450 Broadway Street, MC 6342, レッドウッドシティ、CA 94063;電子メール:jyao@stanford.edu

0363-5023/24/---0001$36.00/0 https://doi.org/10.1016 j.jhsa.2024.09.008

背景

骨粗鬆症と骨減少症は、かなりの罹患率を伴う一般的な疾患です。骨粗鬆症による脆弱性骨折の生涯発生率は、女性で40〜50%、男性で13〜22%と推定されています。1 世界では年間約900万件の骨粗鬆症による骨折が発生しています。2,3 脆弱性骨折は機能を低下させ、年間約600万の障害調整生命年(DALY)の損失に寄与しています。2 さらに、股関節骨折患者は骨折後の全死因死亡率が5〜8倍増加します。4 スクリーニングと治療が将来の脆弱性骨折のリスクを低下させるというエビデンスがあるにもかかわらず、骨粗鬆症の介入率は低いままです。骨の健康状態が不良な個人を特定し、適切に治療するためのスクリーニングの改善は、脆弱性骨折に関連する罹患率と死亡率の低下に役立つ可能性があります。
方法

データ収集

機関審査委員会の承認を得ました。1998年から2019年の間に、DXAスキャンと手部X線写真の両方を12ヶ月以内に受けたすべての患者を特定するために、機関データベースを検索しました。X線写真から12ヶ月以内のDXAスキャンの報告書を取得し、Tスコアを抽出しました。対応する後前位像の手部X線写真の高解像度画像を、当機関の画像アーカイブ・通信システム(PACS)からエクスポートしました。手部X線写真は、DXA Tスコアとカテゴリー(骨粗鬆症、骨減少症、または正常)でラベル付けされました。カテゴリーの定義は、WHOの標準定義に従い、Tスコア21を使用して以下のように分類しました:正常、T >= -1.0;骨減少症、-2.5 < T < -1.0;骨粗鬆症、T <= -2.5。
Diagram of model architecture

図1: モデルアーキテクチャの図

ニューラルネットワークアルゴリズムの開発

すべての画像前処理、モデル実行、および性能評価はPythonを使用して行われました。ResNet-50アルゴリズムを使用してモデルを設計し、49の畳み込み層と1つの全結合層で構成され、16の残差ブロックに構築されました。ResNetアーキテクチャは、勾配消失の問題を回避するために残差接続を採用しており、勾配が多すぎる層を通過した後に減少することを防ぎます。ベースモデルは、数百万の画像を含む大規模なデータセットであるImageNetデータセットで事前学習されました。ニューラルネットワークはPyTorch 2.0フレームワークでプログラムされ、35エポックの学習を行いました。
結果

正常カテゴリーに687枚、骨減少症カテゴリーに607枚、骨粗鬆症カテゴリーに130枚の画像があり、合計1,424枚の画像がありました。低骨密度(骨減少症または骨粗鬆症)と正常骨密度を予測する際、標準閾値0.5での感度は88.5%、特異度は65.4%、全体の精度は80.8%、曲線下面積は0.891でした。感度と特異度の両方を最適化する場合、閾値0.655で、モデルは感度84.6%、特異度84.6%を達成しました。

考察

本研究では、通常の手部X線写真で骨粗鬆症と骨減少症をスクリーニングするためのニューラルネットワークを開発・検証しました。具体的には、CNNを訓練して手部X線写真上の低骨密度を、DXA股関節Tスコアを基準とした基準値と相関させて特定し、感度88.5%、特異度65.4%、診断精度80.8%を達成しました。高い感度、つまり低い偽陰性率は、低骨密度の患者を特定するためのスクリーニングツールとしてのアルゴリズムの潜在的な有用性を示しています。
Research results visualization
骨粗鬆症カテゴリーに130枚の画像があり、合計1,424枚の画像がありました(表1)。12枚の画像は、副子/ギプス材の重なりや後前位像の欠如により除外されました。2人の患者は不完全なDXA報告書により除外されました。8人の小児患者が除外されました。左股関節DXAがない患者が68人おり、このうち右股関節が47人、脊椎が6人、前腕が15人に使用されました。女性は画像の86.8%を占め、患者の53.3%が白人、20.9%がアジア人、14.3%がヒスパニック、3.4%が黒人、8.1%がその他の民族または不明でした。全体の平均Tスコアは-1.02±1.13(平均±標準偏差)で、正常群の平均Tスコアは-0.11±0.78、骨減少症群は-1.66±0.38、骨粗鬆症群は-2.89±0.51でした。
このうち、26枚の正常X線写真、26枚の骨減少症X線写真、26枚の骨粗鬆症X線写真がバランスの取れた検証セットとして使用され、合計78枚の画像でした。残りの660枚の正常X線写真、582枚の骨減少症X線写真、104枚の骨粗鬆症X線写真がトレーニングセットとして使用され、合計1,346枚の画像でした。

低骨密度(骨減少症または骨粗鬆症)と正常骨密度を予測する際、標準分類閾値0.5での感度は88.5%、特異度は65.4%、精度は83.6%でした(図2A)。全体の精度は80.8%でした。F1スコアは0.86、AUCは0.891でした(図2B)。感度と特異度の両方を最適化する場合、閾値0.655で、モデルは感度84.6%、特異度84.6%を達成しました。
Research results visualization
図3: 非骨粗鬆症(正常または骨減少症)からの骨粗鬆症予測におけるモデルの性能。A 標準分類閾値0.5での2方向混同行列。BMD、骨密度。NPV、陰性予測値。PPV、陽性予測値(精度とも呼ばれる)。B モデルのROC曲線。
低骨密度(骨減少症または骨粗鬆症)と正常骨密度を予測する際、標準分類閾値0.5での感度は88.5%、特異度は65.4%、精度は83.6%でした(図2A)。全体の精度は80.8%でした。F1スコアは0.86、AUCは0.891でした(図2B)。感度と特異度の両方を最適化する場合、閾値0.655で、モデルは感度84.6%、特異度84.6%を達成しました。
Research results visualization
図4:正常、骨減少症、または骨粗鬆症の予測におけるモデルの3方向混同行列。X線写真を用いた骨密度スクリーニングAI 5
骨の質に関して、我々は以前、手のX線画像における第2中手骨皮質率(2MCP)と、DXAスキャンによる股関節骨密度(BMD)との相関についての研究を発表した。我々のモデルでは、低骨密度を検出する感度が88.5%、特異度が65.4%であったのに対し、2MCPを用いた熟練者による手動測定では、正常と骨減少症(osteopenia)の識別において感度88%、特異度60%、さらに正常と骨粗鬆症(osteoporosis)の識別においては感度100%、特異度**91%**であった。しかしながら、この測定法は訓練を受けた専門家に依存しており、人為的な誤差やバイアスが生じる可能性がある。Tecleらによる後続の研究では、CNN(畳み込みニューラルネットワーク)を用いて、2MCPを骨粗鬆症の代替指標としてX線画像から判別する能力が示された。彼らのモデルは、感度82.4%、特異度**94.3%**を達成したが、これはDXAではなく2MCPを基準として使用していた。我々のモデルはDXA Tスコアを基準とするため、直接の比較は困難であるが、データセットの規模や対象の違いも結果に影響している可能性がある。特定の骨密度指標に依存せず、画像セグメンテーションなしでAIを用いて手のX線画像とDXAスコアを関連付けたことに本研究の特徴がある。
本研究で提示されたモデルは、手のX線画像における低骨密度(BMD)の検出において高い感度を示した。臨床的観点からは、骨粗鬆症(osteoporosis)のみならず、骨減少症(osteopenia)を含めてスクリーニングを行うことには複数の理由がある。まず、骨減少症の患者も脆弱性骨折のリスクが高い。Sirisらの研究では、女性における脆弱性骨折のうち、世界保健機関(WHO)の骨粗鬆症基準を満たす者はわずか6.4%であったと報告されている。別の65歳以上の女性を対象とした研究では、股関節骨折を起こした患者の54%が非骨粗鬆症であった。さらに、55歳以上の男女を対象とした前向きコホート研究では、骨折を起こした女性の44%、男性の**21%**が骨粗鬆症と診断されていた。これらのデータは、骨折リスクのある患者を特定するために、より高感度なスクリーニングが必要であることを示唆している。骨粗鬆症のみならず、骨減少症も対象とすることで、骨の脆弱性に寄与する追加因子を持つ、より広範なリスク集団を把握することが可能となる。スクリーニングによって特定された患者は、さらなるリスク評価および適切な治療のために臨床医に紹介されることができる。全体として、手のX線画像は費用対効果が高く、低リスクのスクリーニング手段であるため、高感度が重視される。前臨床段階での疾患を検出できれば、早期治療や予後改善にもつながる。一方、低BMDの層別化をさらに進めようとした場合、正常BMD、骨減少症、骨粗鬆症の3分類での識別では、モデルの精度が低下する傾向にあった。また、骨粗鬆症と非骨粗鬆症(骨減少症または正常)との判別でも、やや性能が劣る結果となった。この結果にはいくつかの要因が考えられる。第一に、骨密度はDXA画像上であっても連続的な分布を示すものであり、Tスコアによる明確な区分は存在していても、X線画像上の特徴もまた連続的である可能性が高い。臨床的な骨折データが示す通り、骨減少症と分類された多くの患者が、骨の健康状態に問題を抱えている可能性がある。第二に、より大規模なトレーニングおよび検証用画像セットを用いることで、これらのカテゴリー間の差異をより的確に検出できる可能性がある。さまざまな高度な画像診断技術がDXAの代替として提案されてきたが、X線画像は依然として最も一般的かつアクセスしやすい画像診断手段の一つである。特に四肢のX線画像の中でも、手のX線は多くの医療現場で日常的に撮影され、多様な診療目的で使用されている。また、通常のX線画像は被ばく量が少ないという利点もある。最後に、手のX線画像は非常に入手しやすく、即時的な利用が可能である。
手のX線撮影は費用が安価であり、DXAと同程度のコストであるが、よりアクセスしやすく、現在の他の選択肢である磁気共鳴画像法(MRI)や定量的コンピュータ断層撮影(QCT)よりも低コストである。本研究には、後ろ向きコホート研究に固有の限界や、AIアルゴリズムを使用することによる限界が含まれている。本研究のモデル構造は手のX線画像のみを対象として学習されており、他の部位のX線画像には適用できない。研究対象のコホート全体としては、一般集団と比較して女性の割合が多かった。これはDXA検査を受ける傾向がある患者層に一致しており、骨の健康スクリーニングの臨床対象集団をよく反映している。一方で、男性の割合が少ないことが、性別を変数として取り入れた際の過学習の一因となった可能性がある。骨質の治療歴、服薬状況、家族歴、薬物使用歴などの詳細な情報は不明である。また、がんや腎疾患など、骨疾患のリスクが高くなる併存疾患を持つ個人は除外されていなかった。これらの因子はDXAおよび手のX線画像で観察されるBMDに影響を与える可能性がある。同様に、骨折、外傷後の局所的な骨粗鬆症、関節症などの骨病変の存在も除外基準に含まれておらず、これらも結果に影響を与えた可能性がある。こうした特徴は、過学習を避けるためアルゴリズムの入力データとしては直接使用しなかったが、それらを含めることで結果の汎化性が高まり、実臨床におけるスクリーニング性能をより正確に反映することができた。利き手は四肢の骨密度の左右差に関連している可能性があり、それがX線所見やDXA結果に影響する場合もある。ただし、この差は1〜2%程度と推定されている。最後に、ランダムに選択された不均衡な検証セットを使用すれば、全体の研究集団をより正確に反映できた可能性がある。しかし、感度や特異度といった主要な評価指標に大きな影響を与えることは考えにくい。測定された適合率(precision)に関しては影響が出る可能性があるが、バランスの取れた検証セットを使用することで、精度(accuracy)のような指標の解釈がしやすくなった。総じて言えば、より大規模なデータセットを用いることでモデルの性能が向上する可能性がある。本ツールの臨床的有用性を検証するには、さらなる研究が必要である。要約すると、本研究はディープラーニングアルゴリズムが標準的な手のX線画像から低骨密度を正確に検出できる能力を有することを示している。
本手法は高い感度および特異度を示しており、現行の基準であるDXAスキャンと比較しても、通常の手のX線撮影を用いることで、より簡便かつ安価に実施できるという利点がある。このことから、骨粗鬆症および骨減少症のスクリーニングにおいて、迅速でコスト効率が高く、容易に利用可能なツールとなる可能性がある。すでに他の疾患に対して広く使用されている一般的な画像診断法を活用することにより、スクリーニングの適応拡大が期待され、結果として早期診断や治療の改善につながると考えられる。

利益相反の開示

本論文に直接関連するいかなる形態の利益も、受け取っておらず、今後受け取る予定もありません。

謝辞(しゃじ)

本研究は、J2022 米国手外科協会 年次研究助成金の支援を受けて実施されました。著者らは、本研究における支援に対してAkousistに感謝の意を表します。 

参考文献