Encyclopaedia of Islamと正規表現的頭脳体操

起床術成功。でにーじんぐでE.I.を見ていて、E.I.のCD-ROMにはいっている.htmlのデータが実はzipであることに気づく。さらにE.I.のインチキ割り当てフォントを一覧してみてUnicode化できることまで気づく。ということは、というところで時間切れ。学校へ。

続き。ある要素(なぜかフォーム要素)でくくられた内部の文字列を一定の変換テーブルに掛け合わせてやれば、正当なUnicode文書とすることができ、とんでもない不出来なSearch’97プログラムに頼らずとも簡単に検索できるようになる。いや、まて。Macに入れればSpotlightでいけるじゃないか。すばらしい。というわけで、いかにして一括変換できるか考える。美しい正規表現なら一行でできるはずだとひたすら考えるが挫折。だらだら並べてバッチすることにする。そうすると3行目で変換した正当になっているものが、15行目でさらにひっかかるとかいろいろな不都合が出来。一度、すべての変換すべき文字を私用領域まで飛ばしてから、もう一度変換をかけるようにしてみた。あとはいろいろ工夫してブラウザ表示が容易な数値文字参照と合成を利用するバージョン、Unicode検索が簡単なフォントにグリフがあろうがなかろうが関係なくUnicodeで書いたもの、さらにAnsiだけですむように特殊な転写を全て廃した3バージョンを同時に作れるようにバッチを書く。延々やって18時にだいぶ解決。さらにえくせるしんぐでいいとこまでもってく。

21時地下。大連。冷やし中華。Mさんに正規表現を相談。やっぱ現行でいくしかないか。明日さらにすすめることにする。23時もどり、寝る。24時突如おなかに激痛が走る。灰色の一週間の始まりだった。

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください