ヘルスケアにおける固有表現抽出(Named Entity Recognition: NER)は、非構造化テキストから患者名や医療用語などの医療専用の用語(エンティティ)を検出し、分類する技術です。このような作業を実施することにより、非構造化テキストのデータ抽出の精度が向上し、情報検索が容易になるだけでなく、高度なAIシステムの強化につながります。医療機関の自然言語におけるAI開発には欠かせない技術が医療NERです。
トランシンクのNERデータセットは、医療機関が非構造化データから重要な情報を抽出しやすくするよう設計されているデータセットです。医療レポート、保険文書、患者レビュー、臨床ノートなどのデータ間の関係を明らかにし、医療データの可視性を高めることができます。私たちは、NLPの高度な専門知識を活かし、規模の大小を問わず、複雑なカスタムアノテーションプロジェクトにも対応します。
1. 医療用固有表現の識別
医療記録には膨大な量の医療情報が存在し、その多くは非構造化テキストであるため、専門性の高さもあり、識別が容易ではありません。この非構造化コンテンツを構造化形式に変換することを容易にするために必要となるのが、医療情報専用の固有表現アノーテーションです。
2.1 医薬品の属性
ほとんどの医療記録には、臨床診療において重要な薬剤とその属性に関する情報が含まれています。確立されたガイドラインに基づき、これらの医薬品のさまざまな属性が正確にアノテーションされています。
2.2 ラボデータの属性
医療記録に含まれるラボデータには、特有の属性が記載されることが多くあります。私たちは、確立されたガイドラインに従い、これらの属性を識別し、正確にアノテーションを行なったデータを提供しています。
2.3 身体測定値の属性
身体測定値には、バイタルサインを含むさまざまなデータがあり、医療記録にそれぞれの属性とともに記録されます。私たちは、これらの身体測定に関する属性を特定し、適切にアノテーションやタグを付けることが可能です。
3. オンコロジーに特化したNER
一般的な医療用固有表現抽出(NER)アノテーションに加え、オンコロジー(腫瘍学)や放射線学などの専門性の高い領域のNERにも対応しています。オンコロジーでは、次のようなNERアノテーションに対応したデータセットの提供が可能です。: Cancer Problem, Histology, Cancer Stage, TNM Stage, Cancer Grade, Dimension, Clinical Status, Tumor Marker Test, Cancer Medicine, Cancer Surgery, Radiation, Gene Studied, Variation Code, Body Site
4. 副作用NERと関連性
主要な医療表現とその関係性をピンポイントでアノテーションするだけでなく、左図のように投与した薬(Drug)や処置(Procedure)による副作用に対しても関連性のアノテーションに対しても対応しています。
- 化学療法[Procedure]後、患者は吐き気[Adverse Effect]・嘔吐[Adverse Effect]を催した。
- この患者はゼローダ[Drug]による肝炎[Adverse Effect]も患っている。
5. アサーション・ステータス
医療表現とその関係付の実施に留まらず、これらの医療表現に関連するStatus、Negation、Subjectの分類も行なっています。以下の例では病歴や家族歴をStatusに付与しています。