Привет,
по принципу "release early" я выложил на CPAN новый модуль
http://www.perl.com/CPAN-local/modules/by-module/Lingua/Lingua-RU-Charset-0.01.tar.gz
хотя в нем отсутствуют пока еще много функций и надеюсь на вашу помощь.
Этот модуль не использует use locale; так как этот модуль предназначен
для использования на машинах с ненастроенной locale (например на
заграничных WWW-серверах) и написан на чистом Perl, чтобы его можно
было использовать на всех OS без особых усилий.
Я собираюсь дописать еще функции charset (определение кодировки, с помощью
частот пар букв - так как одиночные буквы слишком ненадежны: "привет", а
тройки букв слишком многочисленны), а также any2koi, any2win, any2rus,
any2mac, any2iso и any2alt. Остальные функции (русский Unicode и UTF-8)
мне пока не нужны и у меня нет времени на их написание. Было бы здорово,
если бы кто-нибудь еще занялся этим, так как я думаю что подобные
функции рано или поздно очень пригодятся тем, кому придется писать
Perl-скрипты взимодействующие с сервлетами.
Поэтому мой вопрос для начала: как сделать все русские буквы в Unicode
заглавными или прописными (uni2uc, uni2lc) ? Таблица Unicode лежит на
http://czyborra.com/charsets/cyrillic.html но простого
tr/\x51\x30-\x4F/\x01\x10\x2F/
конечно недостаточно до двум причинам: первый байт должен быть \x04 и
надо игнорировать последовательности типа \x01\x04, \x51\x01
^^^^^^^^^
/Алекс
-- Собираю статьи про JavaScript, Perl и др. на http://simplex.ru/news.html Собираю адреса газет и журналов на http://www.friends-partners.org/lit/ -- end of forwarded message --
-- С тем, что не помешает никогда, Kittle