TEIの歴史的背景

P4(2002-03) 1.3節より

TEI(Text Encoding Initiative)が誕生したきっかけは、1987年11月にVassar Collegeで開催された、Association for Computers and the Humenities(ACH) がスポンサーで、U.S.National Endowment for the Humanities(NEH)から資金を受けた会議を計画したことから始まる。この会議では、テキストのアーカイブ関係、学術界、研究プロジェクトなどから約30の代表者が集い、標準符号化スキームの可能性を検討し、その対象領域、構造、内容、草案を提言としてまとめた。この会議の期間中に、Association for Computational Linguistics(ACL)と Association for Literary and Linguistic Computing(ALLC)は、ACHと共に、このガイドラインを作成するプロジェクトのスポンサーとなることになった。この会議の成果は、以下のようにまとめられる。これは、TEIの活動の道筋を決定づけたものになっている。

ガイドラインでは、人文科学研究で使用されるデータの交換を目的とした標準データ形式を示すものとする。
ガイドラインでは、同じデータ形式でテキストを符号化するための原則を提案するものとする。
ガイドラインは、以下の内容を示すべきである。
1. 推奨される、データ形式の統語規則の定義
2. テキストを符号化するスキームを記述するためのメタ言語の定義
3. 定義される新しいデータ形式と代表的なスキームについて、上記メタ言語も使って書かれた解説文
ガイドラインは、多様な応用に対応した、符号化の方法を示すべきである。
ガイドラインは、新しいテキストをこのデータ形式で符号化する際の、最小限の手法を示すべきである。
ガイドラインは、スポンサーである関連団体の代表から成る委員会の調整の下、以下の検討委員会から挙げられた草案を元に、作成される。

ドキュメンテーション(text documentation)
表示関連(text representation)
解釈・分析(text interpretation and analysis)
メタ言語とスキーム(metalanguage definition and description of existing and proposed schemes)

既存の規格とは、出来るだけ互換性をとるようにする。
大型のテキストコレクションを持つアーカイブの多くは、原則、このガイドラインを、データ交換形式として採用することに合意しており、実際、(P3の出版後)採用されている。TEIでは、データ交換を容易にするツールの開発をサポートする資金援助の働きかけを行っている。
既存の機械可読テキストを新しいデータ形式へと移行するには、構文の変換が必要になる。この際、当該変換のために、既存のデータに新たな情報を追加する必要ない。

これらの活動の中には、重要なもの、さほど重要ではなさそうなもの、達成が容易なもの、かなり困難であると分かったものなどが混ざっている。本ガイドライン(P4)は、テキスト形式の情報を交換するための、標準データ形式を規定するもので、新しく電子テキストを作成する際の指針の概要を示すものである。本ガイドラインで使用されているメタ言語は、XMLとSGMLとに共通するもので、他の符号化スキームについての定義は行っていない。本ガイドラインは、テキストを符号化する際の、最小限の手法(e.g. 推奨または必須の要素クラス)を定義しているものなので、ここで推奨または必須とされているものだけで満足する研究者はいないだろう。ここで決められているものは、かなり少ない。本ガイドラインでは、「多様な応用に対応した符号化手法」を(少なくとも、明示的には)規定しているのではない。なぜなら、そのような手法が合意に達することは難しいからである。これは、将来の課題である。

TEIの起源とその発展

TEIは、1988年6月に、正式に発足した。これは、NEHの資金によるものであるが、すぐに、Commision of the European Communitiesや、Andrew W.Mellon Foundation、Social Science and Humanities Research Council of Canadaからも資金援助を受けた。 4つの委員会が結成され、ヨーロッパと北米から、一流の研究者によって構成された。4つの委員会とは、それぞれ、ドキュメンテーション(text documentation)、表示関連(text representation)、分析・解釈(text analysis and interpretation)、メタ言語と統語規則(metalanguage and syntax issues)である。

ガイドラインの草案第1版(P1)は、``Guidelines for the Encoding and Interchange of Machine-Readable Texts''として、1990年7月に出版された。これは、「TEI P1」と呼ばれている。これに細かい改訂が行われた第1.1版が、1990年11月に出版された。

多くのコメントや、第1版では扱われなかった領域での検討結果が加えられ、ガイドラインの草案第2版は、1992年4月に出版された。この第2版には、1990年から1991年にかけて結成された、P1の見直しを検討する専門家によるワーキンググループの成果として、かなりの量の新しい内容が含まれている。この第2版と、ここで示されているスキームの全体構造は、第1版に寄せられたコメントを反映し、大幅に改訂されている。

1993年6月に、TEI諮問委員会(Advisory Board)が構成され、そこで第2版ガイドラインの検討と、これまでの成果を正式に出版することが提案された。これが第3版にあたるもので、第2版の全章にわたって改訂が行われ、幾つかの章が新たに追加された。この作業は、実際の記述や寄せられたコメントを元にした修正作業が主なものであったが、この第3版は、第2版までのような草案ではなく、正式なガイドラインとして、TEIの初期の活動の集大成として、1994年5月に出版された。

1998年2月、W3C(World Wide Web Consortium)は、XML(Extensible Markup Language)の最終勧告を発表した。 XMLは、かなり簡素なSGMLとして開発されたもので、その開発背景には、TEIが目指したデータ交換の為の最小限の手法と同じものがあり、大変に似たアプローチを採っている。実際、TEI参加者の何名かが、XML開発に重要な貢献をしている。その中でも、XMLの共同編集者であるC.M.Sperber-McQueen氏は、最近まで、 TEIガイドラインの北米地区共同編集者をしていた人物である。

各所でXMLの採用が急速に進むと、多くのプロジェクトで、XMLに対応した新しいガイドラインが必要であると感じるようになった。例えば、SGMLの要素名には、通常、大文字小文字の区別はないが、XMLにおいてはその区別があるため、TEIの要素名について、XMLにおける標準的な名前を決める必要があった。 TEIガイドラインの編集者は、他の関係者から多くのアドバイスをもらいながら、改訂計画を検討し、統語上の問題について、解決策の試案を作り上げた。 2001年にTEIコンソーシアム(TEI Consortium)が結成され、NEHからの寛大なる資金援助が始まると同時に、この改訂作業は公式に着手された。この改訂が目指したものは、SGMLとXMLとに選択的に対応すべく、スキームと解説文を改訂することにあった。第4版(P4)は、この改訂の最初の公式な草案に該当する。第4版は、第3版(P3)にある内容の質と有効性を維持し、コメントや提案、まだ書かれていない内容などについての反応を得ることを目的に編集されている。

今後の改訂作業

本ガイドライン(P4)の内容は、満足できる内容にはなっておらず、引き続き作業が必要なものであり、今度、追加勧告が補足出版されるかもしれない。少なくとも、以下の領域については、今後も検討される予定である。

言語学的記述と文法要素のアノテーション(linguistic description and grammatical annotation)
歴史的分析と解釈(historical analysis and interpretation)
追加文書タイプ向け基本タグ集合(base tag sets for further document types)
手書き文書分析とテキストの物理的要素の記述(manuscript analysis and physical description of text)

本ガイドラインで推奨されている符号化方法は、これから策定されるTEIスキーマとの互換性が、根本的には問題にならないものとして、使うことができると思われる。 TEIは、将来ガイドラインを改訂する際、本ガイドラインに従ってデータを作成している人々と関連する問題には、敏感でありつづける。長期目標が一貫してあるのであれば、本ガイドラインに従って書かれたものは、将来の版にわたっても維持されるものになる。