目次

新型コロナウイルスの公開データセットは、こちらをご覧ください: 新型コロナウイルスとAI・機械学習の最新記事、公開データまとめ

当ブログは機械学習に使えるオープンデータセットの記事を連載しております。以前の記事を読み逃している方は是非、機械学習自然言語処理向けのデータセットもご覧ください。

医療ビッグデータとは

「医療ビッグデータ(医療データ)」と聞いて、皆様はどのようなデータを思い浮かべるでしょうか。医療データにも様々な種類がございますが、医療ビッグデータとは投信情報、検査結果、画像記録、処方記録、種ずつ記録など、一人ひとりの患者の幅広いデータをいいます。本稿では生命科学と医療AIに関するデータセットをまとめました。これらのデータセットは診断を手助けすることにより、ヘルスケアや医療診断のソフトウェアシステムに経済的なソリューションを提供しています。

生命科学、医療データセット

医療の画像データセット

  • Oasis: 脳の神経画像データセットを科学界が自由に利用できるようにすることを目標にしたプロジェクトです。基礎神経科学や臨床神経科学における発見の支援となることを期待して、神経画像の医療データセットを編集し、無料で配布している。
  • OpenfMRI: 研究者が利用可能なMRIのオープンデータセット。
  • ADNI: アルツハイマー病神経画像イニシアチブの研究者たちが、研究に参加したボランティアから収集した数種類のデータ。こちらのデータは認可された研究者に無料で提供されるが、事前に申し込み、承認を得ることが必要となります。

ゲノムデータセット

  • GEOデータセット: 遺伝子発現情報データベースレポジトリには、精選された遺伝子発現データセットだけでなくオリジナルデータやプラットフォームの記録が保存されている。
  • 1000ゲノムプロジェクト: 人の遺伝的多様性を最も詳細にカタログ化した国際研究協力。プロジェクトの最終フェーズでは、世界中の26の異なる母集団から2,500人以上のゲノム配列を決定。
  • Genome in a Bottle: ヒト全ゲノムのシーケンス解析を臨床応用するため、いくつかのレファレンスゲノムを含むデータセット。

病院のデータセット

癌に関するデータセット

早期の癌は医師でも見逃してしまう恐れがあります。畳み込みニューラルネットワークを活用し、内視鏡画像から癌を検出する技術など、機械学習が持つ特徴抽出能力を適用し、医師への負担緩和、見落としリスク低減する研究開発がすすでいます。

医療データの分析

医療データを分析し、活用することにより、我々が将来受ける医療の向上に繋がると期待されています。最先端の画像解析により病気の早期診断・早期治療をサポートできる診療支援ソフトウェア製品が開発されたり、同じ病気の治療でも、医療データの分析により、各患者の年齢や症状、持病などに合わせた最適な治療法を実行することが可能になります。

医療データの応用事例

機械学習は診断から治療、さらには集団を対象とする疫学など、医療の様々な側面で急速に中心的な役割を担うようになっています。医療分野の機械学習は最近まで、自己学習と経験に基づくものがほとんどでしたが、医療データベースの規模が拡大し、より堅牢にAIを実装できるようになるにつれ、医療やヘルスケアに機械学習を利用することのメリットが広く知られるようになりました。機械学習プラットフォームの台頭は、ヘルスケアパイプラインのほぼ全ての側面に影響を与えています。その中でも特に進化を遂げる三つの分野として、皮膚疾患の診断、感染拡大の予測、そして人種間格差の改善についてご紹介していきます。

医療分野における機械学習の最初の活用事例の一つは、皮膚病変を検出して皮膚癌を診断する画像分析でした。 2019年に発表された研究では、専門医師によって手動でアノテーションを施された1万件以上の画像セットを使用して機械学習が行われました。その結果、最も優れた学習済みアルゴリズムでは、現役の医師より高い精度で皮膚癌の病変を診断できたケースもありました。

この研究で実際にテストされたアルゴリズムの上位三機は、代表的な皮膚癌である基底細胞癌を含め、事前に定められた七つの疾患を区別することができました。とはいえ、分布外の画像に対しては分類器のパフォーマンスが落ちるので、依然として専門医師の経験が必要だったことに注意することが重要です。ただし、これらエッジケースにおける人間と機械の能力の差は、より広範囲の疾患でラベル付き医療データセットが利用できるようになるにつれて減少していくでしょう。

興味深いのは、機械学習の予測アルゴリズムを積極的に診断に活用している診療所は多くないにもかかわらず、機械学習の原理が医学部のカリキュラムに組み込まれていることです。日光角化症と呼ばれる皮膚疾患は、鱗状斑を特徴とし、訓練を受けた医師よりアルゴリズムの方が診断精度が高い疾患の一つです。アルゴリズムは、シミそのものよりシミの周囲の皮膚に通常以上の注意を払っていることが判明しています。これを受け、アルゴリズムと同様の領域に注目して診断するように指示されると、生徒たちの精度が三分の一以上向上しました。これは、医師と機械学習プラットフォームが協働して診断を最適化できることを示す良い例です。

パンデミック予測

機械学習の活用が広がる医療業界のもう一つの分野は、感染の拡大や流行の追跡と予測など、集団を対象とする健康のモニタリングです。最近では、新型コロナウイルス感染症に関する多数の予測モデルが世界中の公衆衛生部門で利用されています。

これらのモデルは過去検証と将来の予測の両方に役立てられています。過去の医療データを利用すれば、研究者が感染症の発生地(しばしばゼロ号患者と呼ばれます)を特定したり、ヒトの間でどのように感染が広がるかを理解したりすることができます。さらに、感染の拡大が今後どのように続くのか、そしてこの感染症に対して最も脆弱なのはどの集団かを予測することもできます。これらのタスクは、問題の複雑さや関連する変数の多さから、機械学習の力を借りずに解くのは非常に困難です。

しかし、集団を対象とする健康のモニタリングは、新型コロナウイルス感染症が発生するずっと前から行われてきました。ジカ熱の拡大予測に用いられたニューラルネットワークは、政府が監視リソースを効果的に配分するために役立ちました。このモデルは、12週間という比較的長い予測期間を設定しているのにもかかわらず、85%以上の精度で感染症の地理的な拡大を予測しました。

2016年まで遡ると、機械学習はインドでマラリアの感染拡大を予測するために利用されています。サポートベクターマシンとニューラルネットワークのおかげで、研究者たちは天候や関連症例、社会経済的データなど幅広いパラメータを組み合わせて、最大20日前に感染拡大を予測することができました。

人種間格差の改善

全ての人が医療リソースを利用できるよう配慮することは近年、公衆衛生においてますます重要になっています。ワシントンD.C.のジョージワシントン大学ミルケン研究所公衆衛生学校は、医療において根強く残る人種間格差を理解し、予測するため、最近、機械学習パイプラインの開発を始めました。

残念なことに、医療格差が存在するということは、特定の人種や社会経済的背景を持つ人が他の人と同じ水準のケアを受けられなかったり、全くケアを受けられなかったりすることを意味します。例えば、臨床試験では特定の人種や性別、社会経済グループがいつも決まって除外されているため、期待したほど広範に結果を適用できません。そこで、この新しい研究では、健康の社会的決定要因を調査し、どのような環境要因が健康リスクや結果に影響を与えるのかを見極めることを目指しています。これは、アフリカ系アメリカ人がなぜ癌などの慢性疾患を発症しやすいのかなど、長年にわたる研究課題に対する答えを導く助けになるでしょう。

しかし、このプロジェクトの最大の障害になっているのは、適切にラベル付けして整理したデータが不足していることです。例えば、大規模な全国的データベースには、格差の重要な指標とみなされる、患者の人種に関する情報が欠如しています。

ともあれ、研究グループの最初の目標は、米国で行われている最も一般的な外科治療の一つである関節全置換術に関する死亡率を理解することです。この処置は骨粗しょう症に対する一般的な治療法であり、今後数年間にわたって需要が高まると予想されています。この研究が成功すれば、他の一般的な治療法にモデルを拡張し、結果に対する人種や社会経済的要素の影響を予測することができます。

医療AIチャットボット

チャットボットは医療現場でどのように役立つのでしょうか。また、その過程で機械学習はどのような役割を果たすのでしょうか。医療現場にAI駆動システムの導入を決断する際、これら二つの問いについて検討することが重要です。検討すべき事項はこれだけではありませんが、少なくともさらに調査を進めるための良い出発点になります。それでは、医療の改善に役立つチャットボットの活用事例を三つ見てみましょう。

管理業務を軽減するための医療AIチャットボット

現代の医療において、管理業務は多くの時間とエネルギーを必要とします。電子カルテはサービス間の情報を統合するために一役買っていますが、多くの場合、医師は患者の診察よりデータ入力に時間をかけています。さらに、多くの医療提供者は各種複雑な保険請求を処理しなければなりません。

このように医療提供者は仕事量や時間、ストレスの間でどうにかバランスを取っている状態なので、当然のことながら燃え尽き症候群の発生率が高くなります。医師やスタッフがパソコンに向かう時間も長くなり、患者の診察にかける時間が減少します。

医療AIは管理業務の負担を軽減するため、単純作業を自動化し、素早い分析を可能にします。また、テキスト分類とデータ収集を通じて、医師がカルテの中の特定の情報に簡単かつ迅速にアクセスできるようにします。特定の病気の症状を発見するよう学習させれば、医師による早期診断を助けることもできます。

医師向けの医療AIチャットボット

医療においてAIのメリットを享受できる分野は、迅速かつスムーズなワークフローだけではありません。医療用チャットボットによって、医師は広範な情報や分析にアクセスできるので、より適切な意思決定が可能になります。その一例がSafedrugBotです。この医療用チャットボットは授乳中の女性向けに設計されており、薬や推奨される服用量、可能な代替品に関する情報を医師に提供します。

さらに、医療用AIは自然言語処理の助けを借りて、ポイントオブケアで医師に患者の情報への素早いアクセスを提供します。つまり、医師が具体的な情報を得るためにパソコンで長時間作業する必要はないのです。特定の薬が最初に投薬された日付や予防接種記録などの関連情報をチャットボットに尋ねればよいだけです。

さらに、これらチャットボットを通じた医療におけるAIの影響は広範囲に及び、小さな病院や地方の病院が特定の情報やより包括的な研究にアクセスすることを可能にします。

患者向けの医療AIチャットボット

ウェアラブルAIやチャットボットアプリの出現により、統合型医療用チャットボットは、より正確な自己診断、最寄りの施設の検索、診察予約、服薬リマインダーなどで患者を助けています。Gyant社などでは、患者がチャットボットで通信して医師からリアルタイムに診断を受けることができます。

これらチャットボットの学習に使われる対話データは、過去のカルテや診断、よくある質問とそれに対する一般的な回答など広範にわたります。このようにして学習したチャットボットは、患者の入力に対して的を射た質問をしたり、適切な回答を提供したりすることができるようになります。病気の症状や薬、病院のスケジュールなど様々な会話に対応できます。

医療用チャットボットをカスタマイズすれば、より適切に患者を監視できるだけでなく、自身の健康に対する患者の意識向上につながる可能性があります。

医療AIを適用する際の危険性

医療で機械学習がますます重要な役割を果たすようになっていることは明らかです。とはいえ、このテクノロジーを導入する際は、その複雑性に注意を払う必要があります。まず考慮すべきは、当然のことながら、医療データのプライバシーです。「米国における医療保険の相互運用性と説明責任に関する法律(HIPAA)」の下では、共有できる医療データの種類とデータの匿名化について厳密なガイドラインが設定されています。そのため、これによって、研究の適用範囲が制限される可能性があります。

また、アルゴリズムの診断にはまだ誤りが多いということもあり、アルゴリズムに過度に依存することは慎まなけらばなりません。例えば、皮膚癌を予測するために開発された予備段階のアルゴリズムの一つでは、不正確な、あるいは悪意を持って操作した医療データセットで学習させると、完全な誤診が起こることがわかっています。残念なことに、このように不正に利用される可能性があるため、医療チームや患者は、機械学習に伴う危険性について注意しておく必要があります。

こうしたリスクに対処するため、人間の専門家に判断を委ねるチェックアンドバランスのシステムを内蔵したアルゴリズムも現れてきています。実際、人間とAIを融合した診療ツールは、どちらか片方を利用するよりパフォーマンスが向上する場合があります。おそらく医療の未来は、訓練と経験を積んだ人間の専門家と機械学習アルゴリズムの予測能力を統合したものになるでしょう。

生命科学、医療データセットをお探しですか

お探しの医療データセットが見つからない場合は、当社が作成やアノテーションサービスを提供いたします。顧客企業中心のアプローチを用い、学習データの作成や評価・検証サービスの提供を行っております。貴社の医療AIプロジェクトに最適な教師データセットを作成するために、まずは貴社のニーズと予算を十分理解させていただくよう、心がけます。サンプルデータやご相談は、お気軽にお問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中