新納研学生の課題提出状況
TeX
| 西野 | 金田 | 全 | 真下 | |
| 火曜 | 6月21日 完了 | 7月11日 完了 | 7月5日 完了 | 6月8日 完了 |
| 水曜 | 6月21日 完了 | 7月11日 完了 | 7月6日 完了 | 7月13日 完了 |
| 木曜 | 6月21日 完了 | 7月11日 完了 | 7月12日 完了 | 7月13日 完了 |
| 金曜 | 6月21日 完了 | 7月11日 完了 | 7月14日 完了 | 7月13日 完了 |
| 土曜 | 6月21日 完了 | 7月11日 完了 | 7月14日 完了 | 7月13日 完了 |
ベクトル化
(1) Cygwin をインストールできたら、私にその旨をメールする。(完了者: 西野、真下、全、金田)
(2) http://nlp.dse.ibaraki.ac.jp/~shinnou/newnews.zip をダウンロードして、
どこかの ディレクトリの下に展開する。
1.txt 〜 395.txt の 395個のテキストファイルができる。
(3) Cygwin の環境の中で
3-1) nkf をインストールする
3-2) Cygwin の中で mecab を使えるように PATH を設定する、
あるいはリンクを張る
(4) (2)と(3) が完了したらその旨を私にメールする。(完了者: 西野、真下、全、金田)
(5) 1.txt 〜 395.txt のテキストファイルはコードが EUC である。
これを nkf を利用して、SJIS に変換せよ。
N.txt ---> N.sjis
1.sjis 〜 395.sjis を作る。
(6) 1.sjis 〜 395.sjis の各テキストファイルを mecab で形態素解析する。
N.txt ---> N.mcb
1.mcb 〜 395.mcb を作る。
(7) (5)と(6) が完了したらその旨を私にメールする。(完了者: 西野、全、真下、金田)
(8) N.mcb ファイルから名詞の単語を取り出す
C のプログラムを作成し、それを私にメールする。
このプログラムを利用して、
1.noun 〜 395.noun を作る。
(9) UNIX のコマンド群とパイプ処理を利用して、
1.noun 〜 395.noun 内の全種類の名詞を取り出せ。
(10) (8)と(9) が完了したらその旨を私にメールする。(完了者: 西野、全、真下)
(11) (9) の処理で M 種類の名詞があったとすれば、
1.txt 〜 395.txt の各文書は M次元のベクトルで表現できる。
ベクトルの値はその名詞の頻度として、
N.txt のファイルを M次元のベクトルで表現せよ。
スパースベクトルになるので、次元数とその値のペアを列挙した形式で
表現すること。Matrix Market 形式。
1,mm 〜 395.mm
(12) (11) が完了したらその旨を私にメールする。(完了者: 西野)
とりあえず、ここまで、ここから索引語文書行列を作れば、
R を使って、クラスタリングなどの処理ができる。