(fwd) Новый модуль Lingua::RU::Charset и вопрос

Andrey Gerzhov (kittle@freeland.kiev.ua)
Sun, 24 Oct 1999 01:54:19 +0300 (EEST)

-- forwarded message --
Path: freeland.kiev.ua!routki.ki.yurteh.net!carrier.kiev.ua!srcc!news1.gamma.ru!newsfeed.gamma.ru!Gamma.RU!ddt.demos.su!not-for-mail
From: Alex Farber <alex@kawo2.rwth-aachen.de>
Newsgroups: fido7.ru.perl
Subject: Новый модуль Lingua::RU::Charset
и вопрос
Date: 22 Oct 1999 00:47:29 +0400
Organization: RWTH Aachen
Lines: 34
Sender: fido7@ddt.demos.su
Approved: <gateway@fido7.ru>
Message-ID: <380F7968.D1AB301D@kawo2.rwth-aachen.de>
NNTP-Posting-Host: ddt.demos.su
Mime-Version: 1.0
Content-Type: text/plain; charset=koi8-r
Content-Transfer-Encoding: 8bit
X-Trace: ddt.demos.su 940538852 21305 194.87.13.37 (21 Oct 1999 20:47:32 GMT)
X-Complaints-To: gatekeeper@fido7.ru
NNTP-Posting-Date: 21 Oct 1999 20:47:32 GMT
X-BeforeModerator-Path: not-for-mail
X-BeforeModerator-NNTP-Posting-Host: alex.kawo2.rwth-aachen.de
X-BeforeModerator-X-Trace: news.kiev.sovam.com 940538764 81089 137.226.251.26 (21 Oct 1999 20:46:04 GMT)
X-BeforeModerator-X-Complaints-To: newsmaster@news.kiev.sovam.com
X-BeforeModerator-NNTP-Posting-Date: 21 Oct 1999 20:46:04 GMT
X-Mailer: Mozilla 4.7 [en] (X11; I; Linux 2.2.12 i686)
X-Accept-Language: en
X-BeforeModerator-Sender: News Service <news@news.kiev.sovam.com>
Xref: freeland.kiev.ua fido7.ru.perl:3475

Привет,

по принципу "release early" я выложил на CPAN новый модуль
http://www.perl.com/CPAN-local/modules/by-module/Lingua/Lingua-RU-Charset-0.01.tar.gz
хотя в нем отсутствуют пока еще много функций и надеюсь на вашу помощь.

Этот модуль не использует use locale; так как этот модуль предназначен
для использования на машинах с ненастроенной locale (например на
заграничных WWW-серверах) и написан на чистом Perl, чтобы его можно
было использовать на всех OS без особых усилий.

Я собираюсь дописать еще функции charset (определение кодировки, с помощью
частот пар букв - так как одиночные буквы слишком ненадежны: "привет", а
тройки букв слишком многочисленны), а также any2koi, any2win, any2rus,
any2mac, any2iso и any2alt. Остальные функции (русский Unicode и UTF-8)
мне пока не нужны и у меня нет времени на их написание. Было бы здорово,
если бы кто-нибудь еще занялся этим, так как я думаю что подобные
функции рано или поздно очень пригодятся тем, кому придется писать
Perl-скрипты взимодействующие с сервлетами.

Поэтому мой вопрос для начала: как сделать все русские буквы в Unicode
заглавными или прописными (uni2uc, uni2lc) ? Таблица Unicode лежит на
http://czyborra.com/charsets/cyrillic.html но простого

tr/\x51\x30-\x4F/\x01\x10\x2F/

конечно недостаточно до двум причинам: первый байт должен быть \x04 и
надо игнорировать последовательности типа \x01\x04, \x51\x01
^^^^^^^^^
/Алекс

-- 
Собираю статьи про JavaScript, Perl и др. на http://simplex.ru/news.html
Собираю адреса газет и журналов на  http://www.friends-partners.org/lit/
-- end of forwarded message --

-- 
С тем, что не помешает никогда,
                                               Kittle