ログイン
Language:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 02 情報科学
  2. 02 国際会議論文

Generating Distributable Surrogate Corpus for Medical Multi-label Classification

http://hdl.handle.net/10061/0002000992
http://hdl.handle.net/10061/0002000992
acf2c3b6-59c1-4d7f-9c07-ee165fe4636f
アイテムタイプ 会議発表論文 / Conference Paper(1)
公開日 2025-06-11
タイトル
タイトル Generating Distributable Surrogate Corpus for Medical Multi-label Classification
言語
言語 eng
キーワード
主題Scheme Other
主題 Text Generation
キーワード
主題Scheme Other
主題 Language Model
キーワード
主題Scheme Other
主題 Privacy Protection
キーワード
主題Scheme Other
主題 Social Media
資源タイプ
資源タイプ conference paper
アクセス権
アクセス権 open access
著者 Shimizu, Seiji

× Shimizu, Seiji

en Shimizu, Seiji

Search repository
矢田, 竣太郎

× 矢田, 竣太郎

ja 矢田, 竣太郎

ja-Kana ヤダ, シュンタロウ

en Yada, Shuntaro

Search repository
若宮, 翔子

× 若宮, 翔子

ja 若宮, 翔子

ja-Kana ワカミヤ, ショウコ

en Wakamiya, Shoko

Search repository
荒牧, 英治

× 荒牧, 英治

ja 荒牧, 英治

ja-Kana アラマキ, エイジ

en Aramaki, Eiji

Search repository
抄録
内容記述タイプ Abstract
内容記述 In medical and social media domains, annotated corpora are often hard to distribute due to copyrights and privacy issues. To overcome this situation, we propose a new method to generate a surrogate corpus for a downstream task by using a text generation model. We chose a medical multi-label classification task, MedWeb, in which patient-generated short messages express multiple symptoms. We first fine-tuned text generation models with different prompting designs on the original corpus to obtain synthetic versions of that corpus. To assess the viability of the generated corpora for the downstream task, we compared the performance of multi-label classification models trained either on the original or the surrogate corpora. The results and the error analysis showed the difficulty of generating surrogate corpus in multi-label settings, suggesting text generation under complex conditions is not trivial. On the other hand, our experiment demonstrates that the generated corpus with a sentinel-based prompting is comparatively viable in a single-label (multiclass) classification setting.
書誌情報 en : Proceedings of the First Workshop on Patient-Oriented Language Processng (CL4Health) @ LREC-COLING 2024

p. 153-162, 発行日 2024-05-20
会議情報
会議名 LREC-COLING 2024
主催機関 ELRA Language Resources Association (ELRA), International Committee on Computational Linguistics (ICCL)
開始年 2024
開始月 05
開始日 20
終了年 2024
終了月 05
終了日 25
開催期間 2024-05-20 - 2024-05-25
開催会場 Lingotto Conference Centre
開催地 Torino, Italia
開催国 ITA
出版者
出版者 ELRA and ICCL
出版者版URI
関連タイプ isReplacedBy
識別子タイプ URI
関連識別子 https://aclanthology.org/2024.cl4health-1.19/
権利
権利情報Resource https://creativecommons.org/licenses/by-nc/4.0/
権利情報 Copyright ELRA Language Resources Association (ELRA), 2024 These proceedings are licensed under a Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
著者版フラグ
出版タイプ NA
戻る
0
views
See details
Views

Versions

Ver.1 2025-06-11 01:21:01.731013
Show All versions

Share

Share
tweet

Cite as

Other

print

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX
  • ZIP

コミュニティ

確認

確認

確認


Powered by WEKO3


Powered by WEKO3