文字列の符号化方式を考案し、情報量の観点から評価を行う
注: 符号化して提出するのは下線の引かれた赤字部分だけでよい。使われる文字の頻度を求めやすくするために前後の文章も一緒に示してある。表示の都合上、何行かに分かれているが単語の間は全て空白1文字で区切られている。
GALLIA EST OMNIS DIVISA IN PARTES TRES, QUARUM UNAM INCOLUNT BELGAE, ALIAM AQUITANI, TERTIAM QUI IPSORUM LINGUA CELTAE, NOSTRA GALLI APPELLANTUR. HI OMNES LINGUA, INSTITUTIS, LEGIBUS INTER SE DIFFERUNT. GALLOS AB AQUITANIS GARUMNA FLUMEN, A BELGIS MATRONA ET SEQUANA DIVIDIT. HORUM OMNIUM FORTISSIMI SUNT BELGAE, PROPTEREA QUOD A CULTU ATQUE HUMANITATE PROVINCIAE LONGISSIME ABSUNT, MINIMEQUE AD EOS MERCATORES SAEPE COMMEANT ATQUE EA QUAE AD EFFEMINANDOS ANIMOS PERTINENT IMPORTANT, PROXIMIQUE SUNT GERMANIS, QUI TRANS RHENUM INCOLUNT, QUIBUSCUM CONTINENTER BELLUM GERUNT. QUA DE CAUSA HELVETII QUOQUE RELIQUOS GALLOS VIRTUTE PRAECEDUNT, QUOD FERE COTIDIANIS PROELIIS CUM GERMANIS CONTENDUNT, CUM AUT SUIS FINIBUS EOS PROHIBENT AUT IPSI IN EORUM FINIBUS BELLUM GERUNT.
提出物の体裁の例(完全に従う必要はない)
1. 考案した符号化方式
アルファベット・記号の各文字を次の表のように8個のビット列に対応させる。
文字 | ビット列 |
空白 | 0010 0000 |
A | 0100 0001 |
B | 0100 0010 |
C | 0100 0011 |
D | 0100 0100 |
(以降略) |
2. 例文の符号化
例文「GALLOS AB AQUITANIS GARUMNA FLUMEN, A BELGIS MATRONA ET SEQUANA DIVIDIT.」を符号化した結果は以下のようになる。 72文字の原文は576ビットに符号化された。
0100 0111 0100 0001 0100 1100 0100 1100 0100 1111 0101 0011 0010 0000 0100 0001 0100 0010 0010 0000 0100 0001 0101 0001 0101 0101 0100 1001 0101 0100 0100 0001 0100 1110 0100 1001 0101...
例文1を参考に、例文のような文章をなるべく短く符号化するような符号化方式を考え、その説明と例文1の下線部を符号化したビット列を提出せよ。
符号化方式を提出したグループには、例文2を渡す。それを、提出した方法に従って符号化したビット例を提出せよ。
他のグループが作った符号化方式と、それによって符号化された例文1,2のビット列を渡す。符号化方式を読み、例文2のビット列から元の文章を復元し、提出せよ。
自グループで考えた符号化方式と他の符号化方式を比較して、符号化の効率(1文字平均のビット長)を情報量の点から考察・検証したまとめレポートを作成し、提出せよ。