XHTML形式での保存と
従来のオフィス文書との関係
CalcArkとPrezArkのXHTML形式での保存ダイアログ。外部からリンクしている画像については、埋め込み型で保存(画像ファイルを一緒に保存)するかしないかを選択できる。 |
XHTML(The eXtensible HyperText Markup Language)というのは、現在のHTML 4をベースに、XMLに適合させるための改訂を行った規格だ。大ざっぱに言ってしまえば、わりとアバウトだったHTMLのタグ規則が、ちょっと厳密で理屈っぽく変更されている。一太郎Ark発売の翌月、2000年1月にW3Cの「Recommendation」(勧告)となり、2001年10月に「第2版」のドラフトが出たばかりだ。
では、XHTMLを使うメリットは何か? というと、以下のような点が挙げられる。
- 文書を保存し直すことなく、そのままWebブラウザで見ることができる。
- 文書ファイルはテキストで記述されているので、文書をテキストエディタなどで直接修正できる。ブラウザに依存した見た目の不都合を直すのも簡単だ(ただし編集内容次第で以後、元のアプリで文書を読めなくなることもある)。
- スクリプトやXSL(XML文書のスタイルシート言語)と組み合わせて、CalcArkやPrezArkの文書ファイルを自動処理、生成できる。
PrezArkのXHTML形式のデータを一太郎Arkから「テキスト」として開いてみた。冒頭にXHTML 1.0の宣言がある。<style>タグでは見出し、箇条書き、本文といったレベル別に文字の位置や大きさ、フォントファミリーの指定が記述されている。 |
CalcArkとPrezArkのプラグイン設定。Webからダウンロードしたり、ユーザーが作成したプラグインを組み込めば、アプリそのものの機能を拡張できる。 |
共通 | XHTML 1.0ファイルの読み・書き テキストファイルの読み・書き |
---|---|
CalcArk |
Microsoft Excel 5.0/95/97/2000/2002ファイルの読み・書き CSVファイルの読み、書き (以下、後日公開予定) 三四郎8~9ファイルの読み込み Lotus1-2-3ファイルの読み込み |
PrezArk |
テキストファイルの構造化分析(後述)読み込み HTMLファイルの構造化分析読み込み HTML4.01ファイルの書き出し JAR形式(後述)の読み・書き Microsoft PowerPointファイルの読み込み |
一太郎Ark |
一太郎Ver.5~10ファイルのテキストと一部書式の抽出 Microsoft Word 6.0/95/97/98/2000およびRTFファイルのテキストと一部書式の抽出 HTML 4.0ファイルの読み・書き Zip圧縮されたテキスト、HTMLファイルの読み・書き ZipまたはGZip圧縮された一太郎8~10ファイルのテキストと一部書式の抽出 GZip圧縮されたテキストの読み・書き (以下、Webからダウンロード可能) 一太郎Ver.5~10ファイルのテキストと一部書式を抽出(標準添付のプラグインより精度が高い) 一太郎Ver.3、Ver.4ファイルのテキストと一部書式を抽出 HTML 3.2ファイルの読み・書き |
中には書式を完全には再現できないものや、テキストの抽出だけできる形式があるのは残念だ。特に多くの人が使っているMicrosoft Office系の文書については、できるだけ(本家Microsoftのコンバータ並みに)正確な読み込みを可能にしてほしい。なお、LANやインターネット上のURLを指定し、HTTPやFTPでファイルを直接各アプリに読み込むこともできる。