Известна ли схема URI или пространство имен URN для символов Unicode?

Мне нужно ссылаться на символ Unicode с URI. После ссылок IANA перечислены несколько схем и пространств имен, но ничего не упоминается об идентификаторах для символов Юникода. Кто-нибудь знает, существует ли что-то подобное?

Я надеялся найти что-то вроде

  • unicode://U+0394
  • urn:unicode://0394
  • http://unicode.org/unicode/0394

для греческой прописной буквы delta Δ.

Если кто-то задается вопросом, это для семантического веб-приложения, которое использует URI как идентификаторы для понятий, включая концепции символов Unicode.

+4
источник поделиться
2 ответа

Я боюсь, что URL или URN не ссылаются на достоверную информацию об символе Unicode в целом. В стандарте Unicode информация об отдельных символах частично находится в так называемой базе данных символов (в основном текстовых файлов в определенных форматах), частично в диаграммах кода (файлы PDF). Ни один из них не предлагает способ указать на отдельный персонаж. Более того, информация там не является исчерпывающей: есть важные замечания по информации отдельных персонажей, разбросанные по стандарту.

Decodeunicode сайт имеет индивидуально адресуемые элементы, такие как

http://www.decodeunicode.org/en/u+0394

но его информационный контент сильно варьируется и, как правило, очень ограничен. Он не является официальным, и в настоящее время он содержит только Unicode 5.0.

Сайт Fileformat.info является гораздо более систематическим, но он также является неофициальным. Он в основном ограничен формальными свойствами и данными, выводимыми из них, плюс комментарии, извлеченные из диаграмм кода, плюс инструкции по набору символов в Windows, а также информация о поддержке в шрифтах, но это довольно много! Пример:

http://www.fileformat.info/info/unicode/char/0394/

+3
источник

Ну, есть URL, ссылающийся на авторитетную информацию в базе данных Unicode, хотя он не описывает (как сказано в другом ответе) всю информацию об одном конкретном символе.

У вас есть следующий URL, указывающий на последнюю базу данных Unicode. Это простой список существующих допустимых символов Юникода. Некоторые предстоящие символы отсутствуют (㋿), и вы должны ожидать, что он будет изменчивым.

Содержимое выглядит следующим образом, которое не так удобно использовать как есть.

$ grep -ai kangaroo UnicodeData.txt -C 7
1F991;SQUID;So;0;ON;;;;;N;;;;;
1F992;GIRAFFE FACE;So;0;ON;;;;;N;;;;;
1F993;ZEBRA FACE;So;0;ON;;;;;N;;;;;
1F994;HEDGEHOG;So;0;ON;;;;;N;;;;;
1F995;SAUROPOD;So;0;ON;;;;;N;;;;;
1F996;T-REX;So;0;ON;;;;;N;;;;;
1F997;CRICKET;So;0;ON;;;;;N;;;;;
1F998;KANGAROO;So;0;ON;;;;;N;;;;;
1F999;LLAMA;So;0;ON;;;;;N;;;;;
1F99A;PEACOCK;So;0;ON;;;;;N;;;;;
1F99B;HIPPOPOTAMUS;So;0;ON;;;;;N;;;;;
1F99C;PARROT;So;0;ON;;;;;N;;;;;
1F99D;RACCOON;So;0;ON;;;;;N;;;;;
1F99E;LOBSTER;So;0;ON;;;;;N;;;;;
1F99F;MOSQUITO;So;0;ON;;;;;N;;;;;

Вы можете создать хакерское пространство имен "на основе хеша" с таким суффиксом, но это определенно нестандартно.

0
источник

Посмотрите другие вопросы по меткам или Задайте вопрос