自然言語処理の論文誌に永渕さんの論文が掲載されました
- 永渕 景祐, 木村 泰知, 門脇 一真, 荒木 健治,
- 国会および地方議会の会議録に基づく大規模なコーパスと事前学習済み言語モデルの構築, 自然言語処理,
- 2024, 31 巻, 2 号, p. 707-732, 公開日 2024/06/15, Online ISSN 2185-8314, Print ISSN 1340-7619,
- https://doi.org/10.5715/jnlp.31.707,
- https://www.jstage.jst.go.jp/article/jnlp/31/2/31_707/_article/-char/ja,
- 抄録:
本研究では,Web 上に公開されている国会および地方議会の会議録を収集し,大規模な会議録コーパスを構築した.また,会議録コーパスを用いて,いくつかの派生系を含む日本語の政治ドメインに適応した事前学習済み言語モデルを構築した.政治ドメインのタスクでは,提案モデルは従来のモデルよりも優れた性能を示し,汎用ドメインのタスクでも,提案モデルは従来のモデルに匹敵する性能を示した.また,追加の事前学習によるドメイン適応において,学習ステップ数の増加が性能の向上に影響を大きく与えていることや,最初の事前学習で用いたコーパスも併用することで,非適応ドメインの性能を維持しつつ適応ドメインにおける性能を向上させることが可能であることを示した.