Total Commander

Alextp · Joined: 06 Feb 2005 Posts: 4957

Ищется код(лучше- DLL!) для определния кодировки файла, если нету BOM. По первым NN Кб. Для плагина Syn2.

если код на С, я его использовать не могу.
_________________
UniViewer - CudaText - LogViewer

Alextp · Joined: 06 Feb 2005 Posts: 4957

Посмотрел код akelpad- непонятно, какие-то watermarks-массивы, что они значат не понял (а тупо переводить код не хочется)
_________________
UniViewer - CudaText - LogViewer

Loopback · Joined: 07 Sep 2009 Posts: 1297

Насколько я понимаю, нужно определить UTF-8 или нет, т.к. BOM к другого рода кодировкам (типа 1251, KOI-8 ) не имеет отношения. Я пользуюсь такой функцией (где-то когда-то нашел):

Alextp · Joined: 06 Feb 2005 Posts: 4957

Не только UTF8: ANSI, OEM, KOI8, UTF8. Спасибо за ф-цию. осталось ANSI/OEM/KOI8
_________________
UniViewer - CudaText - LogViewer

Loopback · Joined: 07 Sep 2009 Posts: 1297

Определение этих кодировок - уже по-любому статистические алгоритмы. Их вроде найти не проблема. Например, вот. Сначала определяем, UTF-8 ли текст, и если нет - смотрим кодировку.

Alextp · Joined: 06 Feb 2005 Posts: 4957

тестирую код №2. Файл- atorg.net.ru/temp/beta/cp.rar
Показывает "Ansi" для OEM строки -плохо
_________________
UniViewer - CudaText - LogViewer

MVV · (Separately) Posted: Tue Aug 17, 2010 12:53 Post subject:

Определение этих кодировок уже зависит от кодовой страницы. Для русской будет один результат, для каких-нибудь еще - другой. Наверное можно попробовать составить список букв, действительных для каждой кодировки, и подсчитывать число букв текста, совпадающих с ними - где будет больше, та кодировка скорее используется. Но опять же, до какой-то степени множества символов кодировок пересекаются - на поле в 128 символов особо не разгуляешься.
_________________
TCFS2 + TCFS2Tools: Полноэкранный режим и многое другое (обсуждение)
WINCMD.RU: AskParam, CopyTree, NTLinks, Sudo, VirtualPanel…

Alextp · Joined: 06 Feb 2005 Posts: 4957

(Up)
Кто-нибудь может за небольшую плату сделать dll, для определения "'это - UTF8 без BOM", с настройкой "для русского/ немецкого/ ..... "? могу дать пример на C. из сорса Notepad++.

Добавлено спустя 40 секунд:

точнее Akelpad
_________________
UniViewer - CudaText - LogViewer

ApceH · (Separately) Posted: Sat Jan 21, 2012 23:19 Post subject:

Alextp
Вот мой код чуть более общий:

Alextp · Joined: 06 Feb 2005 Posts: 4957

Мне же детектить текст UTF8 без BOM. А у вас по сигнатуре. Не то. А на С# оно детектит UTF8?
_________________
UniViewer - CudaText - LogViewer

CaptainFlint · Joined: 14 Dec 2004 Posts: 6151 Location: Москва

Alextp
В общем случае задача неразрешима, потому что если текст целиком на английском, то в ANSI и UTF-8 он будет выглядеть идентично. Да и сам по себе UTF-8 принципиально от ANSI не отличается. Так что как минимум возникает вопрос о приоритетах списка кодировок.

Тому, кто захочет этим заниматься, могу подкинуть лишь идею для реализации, основанную на поведении Тотала (CompareUtf8Detect): пробежаться по файлу, оценивая его с точки зрения допустимости в UTF-8. Если встретилась хотя бы одна недопустимая последовательность байтов, значит, это ANSI. Если встретилась хотя бы одна допустимая мультибайтовая последовательность — с определённым риском можно считать, что это UTF-8 (хотя реально это может быть и ANSI, гарантий нет). Если нет ни того, ни другого, то выбор между ANSI и UTF-8 придётся делать волевым решением (или опцией). Дополнительно (опять-таки, по мотивам Тотала) можно для HTML/XML/CSS-файлов поискать сигнатуры кодировок и встроить их в описанный алгоритм предпочтений.

Следующий уровень для наворотов — учёт языковых особенностей (что если файл русскоязычный, то большинство символов там будет не просто UTF-8, а из конкретного диапазона), но это очень опасный шаг, если методика планируется для повсеместного применения: каждый язык придётся изучать на предмет алфавита и используемых символов, для каждого хардкодить списки последовательностей… Плюс есть вероятность, что из-за этих наворотов точность определения кодировки для неизвестных языков уменьшится, и придётся либо активно дорабатывать списки символов для большого количества языков (возможно, тем самым ещё сильнее ухудшая работу с оставшимися неподдерживающимися языками), либо предусматривать конфигурируемость алгоритма.
_________________
Почему же, ё-моё, ты нигде не пишешь "ё"?

Alextp · Joined: 06 Feb 2005 Posts: 4957

Нужно не "общий случай", а хотя бы как. Как сделано в Akelpad. хотя бы
А навороты не нужны пока

Добавлено спустя 3 минуты:

PS. спасибо, что расписал.
_________________
UniViewer - CudaText - LogViewer

Alextp · Joined: 06 Feb 2005 Posts: 4957

http://ghisler.ch/board/viewtopic.php?p=240222#240222
_________________
UniViewer - CudaText - LogViewer

Chusik · Joined: 26 May 2007 Posts: 11 Location: Волгоград

Вот неплохая библиотека (исходники на delphi), может быть использована как напрямую из кода, так и в виде dll.