データ処理の課題
5月27日に吉田君完了しました! good!
6月11日に小野寺君完了しました! good!
問題100
コーパスから記事の内容部分だけを取り出せ。XML 形式になっている。<content> タグで囲まれた範囲を取り出す。
id 毎にファイルにしておく。ファイル名は半角にすること。
5月8日吉田完了、6月4日小野寺完了
問題101
問題100で取り出した記事を全て mecab で形態素解析せよ
5月8日吉田完了、6月4日小野寺完了
問題102
全ての記事から単語「声」を含む文だけ取り出せ。
形態素解析の形で取り出すこと。EOS から EOS の間が文、文は「。」で終わっているとする。
5月9日吉田完了、6月4日小野寺完了
問題103
問題102からランダムに「声」を含む文を50個とりだし、それを train0 というファイルに保存せよ。再度、ランダムに100個とりだした残りの「声」を含む文を
test0 というファイルに保存せよ。「声」を含む文は形態素解析した形、102 の形で良い。それぞれの文に ID を付与しておくとよい。
5月10日吉田完了、6月5日小野寺完了
問題104
train0 の50文の中の各「声」の単語に 1: 音としての声、2: 意見、のどちらの語義かの label を付与せよ。
5月13日吉田完了、6月5日小野寺完了
問題105
train0 の各「声」の素性リストを作成せよ。train1 とする。
e0: 直前の単語の表記
e1: 直後の単語の表記
e2: 直前の単語の品詞
e3: 直後の単語の品詞
e4: 前方3単語までの自立語の表記
e5: 後方3単語までの自立語の表記
5月13日吉田完了、6月6日小野寺完了
問題106
test0 の各「声」の素性リストを作成せよ。test1 とする。
5月13日吉田完了、6月6日小野寺完了
問題107
train1 から語義の分布を求めよ。P(c)
5月14日吉田完了、6月7日小野寺完了
問題108
train1 から P(f|c) を求めよ。
5月17日吉田完了、6月7日小野寺完了
問題109
問題107,108 の結果から Naive Bayes を使って、test1 の各「声」の語義を判定せよ。
5月17日吉田完了、6月7日小野寺完了
問題110
train1 と test1 を libsvm 形式にせよ。それを train2, test2 とする。
5月27日吉田完了、6月11日小野寺完了
問題111
libsvm を使って train2 からモデル(-t 0)を作って、そのモデルにより test2 の各「声」の語義を判定せよ。
5月27日吉田完了、6月11日小野寺完了
問題112
問題109 と 問題111 の結果が違う文を集めよ。
5月27日吉田完了、6月11日小野寺完了
問題113
問題112 の結果から 20個取り出し、どちらの判定結果が正しいのかを調べよ。
5月27日吉田完了、6月11日小野寺完了