BERT の課題です


日本語文を juman++ で形態素解析し、単語列 w1 w2 ・・・ wn を得る。
その単語列を BERT に与えて、以下のようなファイルを作成する。

[cls] 768次元の分散表現
w1 768次元の分散表現
w2 768次元の分散表現
・・・
wn 768次元の分散表現
[sep] 768次元の分散表現

上記が1文に対する出力であり。以下の10文に対して、上記の出力を
10個並べた出力ファイルを作成せよ


当面、行政改革、とりわけ規制緩和、特殊法人の見直し、地方分権など大きな課題がある。
今秋には議長国としてアジア・太平洋経済協力会議(APEC)に臨まなければならない。
国内外の、緊迫した重大な課題を抱えている時に政治の空白は許されない。
ようやく経済も明るさを取り戻しつつある微妙な段階なので、今は解散の時期ではないと考えている。
党内の議論や党関係者の意見は「保守二党論はよろしくない。
市民の側に立った平和と民主主義を担う政党が必要」というものだ。
社会党の新党衣替えにはほとんどの方が一致している。
そういう方向を目指して努力しなければならない。
(新党結成の)段取りについては若干意見の違いがある。
社会党は連立政権の首班を担っており、責任がある。


[cls] 768次元の分散表現
w1 768次元の分散表現
・・・
wn 768次元の分散表現
[sep] 768次元の分散表現
<-- 1行空ける
[cls] 768次元の分散表現
w1 768次元の分散表現
・・・
wn 768次元の分散表現
[sep] 768次元の分散表現

・・

[sep] 768次元の分散表現
[cls] 768次元の分散表現
w1 768次元の分散表現
・・・
wn 768次元の分散表現
[sep] 768次元の分散表現

5月末までに終わらせて下さい。

 氏名 完了日 
 曹  4月11日、完了!
 白  4月19日、完了!
 馬  
 楊  
 紫名  
 藤井  5月14日、完了!
 荘司  6月3日、完了!
 芝山  4月12日、完了(MeCab 版、SentencePiece版も4月13日に完了)
 南濱  4月14日、完了
 一鳴  5月31日、完了!
 欧  5月15日、完了!
 章  5月9日、完了!
 田中  4月11日、完了!
 結城   6月4日、完了!
 趙  


上記の課題を MeCab 版の BERT でもやってみること
6月21日までに終わらせて下さい。

 氏名 完了日 
 曹 5月18日、完了!
 白 5月24日、完了!
 馬
 楊
 紫名
 藤井
 荘司
 芝山 済み
 南濱
 一鳴
 欧
 章 5月16日、済み
 田中 済み
 結城  
 趙