データ処理の課題

5月27日に吉田君完了しました！ good!
6月11日に小野寺君完了しました！ good!

問題100

コーパスから記事の内容部分だけを取り出せ。XML 形式になっている。<content> タグで囲まれた範囲を取り出す。
id 毎にファイルにしておく。ファイル名は半角にすること。
5月8日吉田完了、6月4日小野寺完了

問題101

問題100で取り出した記事を全て mecab で形態素解析せよ
5月8日吉田完了、6月4日小野寺完了

問題102

全ての記事から単語「声」を含む文だけ取り出せ。
形態素解析の形で取り出すこと。EOS から EOS の間が文、文は「。」で終わっているとする。
5月9日吉田完了、6月4日小野寺完了

問題103

問題102からランダムに「声」を含む文を50個とりだし、それを train0 というファイルに保存せよ。再度、ランダムに100個とりだした残りの「声」を含む文を test0 というファイルに保存せよ。「声」を含む文は形態素解析した形、102 の形で良い。それぞれの文に ID を付与しておくとよい。
5月10日吉田完了、6月5日小野寺完了

問題104

train0 の50文の中の各「声」の単語に 1: 音としての声、2: 意見、のどちらの語義かの label を付与せよ。
5月13日吉田完了、6月5日小野寺完了

問題105

train0 の各「声」の素性リストを作成せよ。train1 とする。

e0: 直前の単語の表記
e1: 直後の単語の表記
e2: 直前の単語の品詞
e3: 直後の単語の品詞
e4: 前方３単語までの自立語の表記
e5: 後方３単語までの自立語の表記
5月13日吉田完了、6月6日小野寺完了

問題106

test0 の各「声」の素性リストを作成せよ。test1 とする。
5月13日吉田完了、6月6日小野寺完了

問題107

train1 から語義の分布を求めよ。P(c)
5月14日吉田完了、6月7日小野寺完了

問題108

train1 から P(f|c) を求めよ。
5月17日吉田完了、6月7日小野寺完了

問題109

問題107,108 の結果から Naive Bayes を使って、test1 の各「声」の語義を判定せよ。
5月17日吉田完了、6月7日小野寺完了

問題110

train1 と test1 を libsvm 形式にせよ。それを train2, test2 とする。
5月27日吉田完了、6月11日小野寺完了

問題111

libsvm を使って train2 からモデル（-t 0）を作って、そのモデルにより test2 の各「声」の語義を判定せよ。
5月27日吉田完了、6月11日小野寺完了

問題112

問題109 と問題111 の結果が違う文を集めよ。
5月27日吉田完了、6月11日小野寺完了

問題113

問題112 の結果から 20個取り出し、どちらの判定結果が正しいのかを調べよ。
5月27日吉田完了、6月11日小野寺完了