Project Next NLP
「語義曖昧性解消」 タスク (注意: 以前は「語義曖昧性解消・新語義発見」でしたが、いつの間にか”新語義発見”は削除されました)
Project Next NLP は NLP の様々なタスクの横断的な誤り分析により、今後の NLP で必要となる技術を明らかにしようとするプロジェクトです。そのプロジェクトでは誤り分析の対象のタスクが十数個設定されました。「語義曖昧性解消」はその中の1つのタスクです。
本タスクでは語義曖昧性解消(WSD)の誤り分析を通して、WSD の本質的な問題は何か、今後 WSDに関して研究すべき重要事項は何かを議論します。WSD
は比較的単純なタスクであり、既存のデータも利用できるため、分析作業自体の負担は小さいと思います。本タスクを通して WSD の有益な議論や情報交換が行えたらと思っています。
メンバー
新納浩幸、佐々木稔、古宮嘉那子(茨城大学)、白井清昭(JAIST)、村田真樹(鳥取大学)、藤田早苗(NTT)、福本文代(山梨大学)、乾孝司(筑波大学) (参加順)
News
- 第5回班会議(all-words WSD の勉強会)の記録を書きました (11/16)
- 11月13日(金)に第5回班会議(all-words WSD の勉強会)を開催予定です (10/19)
- 投稿論文が採択されました (10/19)
- WS の原稿提出しました。原稿はプログラムのページから DL 可能 (2/27)
- 第4回班会議のまとめを書きました(12/19)
- 第4回班会議(+忘年会)は12月9日 13時から17時、JAIST 東京サテライトオフィスで開催予定(10/24)
- output-1 のエクセルファイル(メンバー限定, 3/2 更新、、、これが最終版!)の最新版を local に置くことにします (9/8)
- 9月2,3日の Project Next NLP の中間報告会での本チームの活動をまとめました(9/4)
- 第2回班会議の資料が集まってきたので、お盆前に集まった分だけ公開します(8/11)
- 第2回班会議を8月6日、JAIST 東京サテライトオフィスにて行いました。5時間の Hard な会議でした。資料と議事録は今月末に載せます(8/8)
- 第1回班会議の議事録を掲載(7/14)
- 第2回班会議は8月6日、JAIST 東京サテライトオフィスに決定(6/30)
- 8月3日の週で第2回班会議の開催を調整中・・・
- 6月10日に第1回班会議を開催。会議後、懇親会。
活動記録
- 11月13日(金)、JAIST 東京サテライトオフィスにて第5回班会議(all-words WSD の勉強会)を開催しました。参加者は福本さん、乾さんを除いた6名でした。13時から17時半までやりました。おそらくこのプロジェクトは自然消滅すると思われ、ちょっと寂しいので解散パーティも兼ねて、開催しました。新納、白井、古宮、佐々木が
all-words WSD について話しました。勉強会の形なので議事録はなしで、以下がスライドです。
|
スライド |
内容 |
新納 |
スライド |
オープニング。このプロジェクトを振り返って。 |
白井 |
スライド |
SemEval の all-words WSD の概要 |
古宮 |
スライド |
周辺語義モデルによる日本語の all-words WSD (PACLIC-29 での発表) |
新納 |
スライド |
all-words WSD のための概念辞書の自動構築(12月NL研、発表予定) |
佐々木 |
スライド |
論文紹介(Chen, Xinxiong, Zhiyuan Liu, and Maosong Sun. "A unified
model for word sense representation and disambiguation", EMNLP-2014,
pp.1025-1035 (2014).) |
終了後はここで解散パーティーやりました。結局、普通の飲み会になってしまいましたが、楽しかったです。皆さん、お疲れ様でした。
- 昨年度の活動を5月に論文にまとめ、言語処理学会の「エラー分析」特集号に投稿しました。結果、採録が決まりました。以下の論文です。
新納 浩幸,村田 真樹,白井 清昭,福本 文代,藤田 早苗,佐々木 稔,古宮 嘉那子,乾 孝司
クラスタリングを利用した語義曖昧性解消の誤り原因のタイプ分け
自然言語処理、Vo.22. No.5, to appear, (2015)
- 2月27日(金)、年次大会の WS の原稿を提出しました。プログラムのページはここ。そこから原稿は取れます。
- 12月9日(火)、JAIST 東京サテライトオフィスにて第4回の班会議開催。13時開始で、終わったのは 17時45分頃でした。
会議は2部に分かれています。まずオープニングのスライドです。
第1部は各自の Output2 の発表です。1人、30分制限で6人の発表です。各人の発表資料とまとめは以下の通りです(発表者順)。白井さん、藤田さんのは力作だと思います。村田さんのは面白いです。茨大組の3名はグループで取り組み、発表は新納がやりました。結局、第1部は3時間強かかりました。
第2部は、WS の原稿と投稿論文について話し合いました。とりあえず私がたたき台として、これを提案しました。ただ、議論の結果、方向はかなり変わって、村田さんが提案した形で進めることになりました。
この部分は議事録(佐々木さん作成)を参照してください。
会議終了後、ここで忘年会やりました。途中から関根さんも参加してくれました。最後の会合(?)にふさわしく楽しい会でした。
- 9月3日(水)、Project Next NLP の中間報告会にて本チームの中間発表をおこないました。利用スライド。
奥村先生から「アウトプット1についてもできるだけ体系化した方が良い、分析する単語を絞ってもよい」。
グラムさんから「人間がなぜ正解できるかの観点からの分析も考えたらどうか」
賀沢さんから「応用は考えないという立場もある」、、、などのコメントありました。
- 9月2日(火)、 首都大学東京 6-207 にて第3回の班会議開催。
今後やることに関して、新納からの提案をもとに議論。ほぼ方向は決まりました。
第3回班会議議事録 (by sasaki)
- 8月6日(水)、 JAIST 東京サテライトオフィスにて第2回の班会議開催。
会議は2部に分かれています。
第1部は今回対象とした50用例の誤りについて各人の分析結果の報告です。1人、20分制限で7人の発表、制限を超える場合もあり、結果3時間弱かかりました。各人の発表資料とそのまとめは以下の通り(発表者順)
第2部は第1部の結果を踏まえて、「今後の進め方」 がテーマの自由ディスカッション
第2回班会議の後半議論の議事録(by shinnou)
約2時間の議論でも、結論はでず、9月2日の Project Next NLP の各タスクの会議で、引き続き議論することになりました。
- 6月10日(火)、 JAIST 東京サテライトオフィスにて第1回の班会議開催。
第1回班会議議事録 (by 佐々木)
議論の結果、何をやるか、どうやるかは、まだ未定となっています。とりあえず SemEval-2 日本語タスクでの誤り 50 用例で、各自誤り分析をやってみて、それから議論することになりました。
新納スライド1、新納スライド2、白井スライド、古宮スライド
メンバー募集
本タスクに加入希望の方は新納にメール下さい。
あまり力入れずに、各自何か得る物があればよいという軽いスタンスでやりたいと思っています。また本タスクの場合、実作業はたいしたことないと予想していますので、その点もご心配なく。あまり大変になったら途中で抜けるのもOKです。
私自身このタスクにはコミットしていきますが、大きな成果を出すことは難しいかもしれません。ただ、このような活動を通じて、有益な情報交換ができるとは思っています。例えば
WSD なんて個人でできるタスクだから、他の人がどんなフォーマットでやっているか知らないと思います。シソーラスだってどの粒度のものをどう使っているかは、おおざっぱには同じでも知らないと思っています。そんな個人で閉じている情報を見せ合うだけでも有益だと思っています。
また、「WSD は単純な分類問題、誤りの原因は訓練事例にテスト事例と類似の用例が存在しなかったから」、「WSD は本当に NLP で必要なのか」、「WSD
は教師あり学習で解くのが最適なのか」などWSD について何か一言ある人もぜひ考えをお聞かせ下さい。
2015.11.16 新納浩幸