Avada wrote: |
Справка и материалы форума доступны. (Слова "Как установить плагин?" и последующие пошаговые рекомендации здесь видны?)
|
little-brother wrote: |
https://github.com/little-brother/csvtab-wlx/blob/main/main.c#L1724
По сути в качестве образца достаточно одной строки, где все буквы можно забить одной. |
Code: |
Звонорв Д.А. |
Code: |
|
Quote: |
Но ведь редакторы-то отрывали этот файл и этот кусок БЕЗ проблем как верный UTF-8 без BOM |
little-brother wrote: |
Подозреваю, что определитель в каком то месте обнаруживает неверный с точки зрения utf8 последовательность бит, которая не может быть декодирована. |
Code: |
Звонорв Д.А. |
little-brother wrote: |
Так и плагин я думаю может открыть как UTF-8, если принудительно переключить. |
helb wrote: |
стандартный формат экспорта powershell предполагает опционально |
Quote: |
Автодетект чересчур умничает. В CSV с путями файлов и временами счёл двоеточие разделителями, хотя там табы. |
helb wrote: |
У CSV нет никаких стандартов, жалкое упоминание пунктиком в каком-то RFC, который вообще все игнорируют — это не стандарт
Вопрос в том, что при любом парсинге структуры комментарии должны игнорироваться везде — не важно где они расположены и сколько их. |
little-brother wrote: |
по поводу кривых utf8: подозреваю, что проблема для всех трех плагинов, работающих с текстом, т.е. xmltab, jsontab и csvtab,
кривой utf8 может приводить к падению плагина и самого TC. Надо разбираться можно ли обработать utf8-текст, чтобы выкинуть из него неверные символы. |
Quote: |
можно для начала проверять НАБОР символов, встреченных в файле и типа если есть те, что
принадлежат явно НЕ "человеческому цифро-символьно-буквенному диапазону - то писать уведомление, что в файле "что-то" не то... И даже не обязательно точно указывать в каком, мол, это месте "не то".... |
Quote: |
если такая последовательность символов найдена - то удалять такие символы |
Quote: |
Далее, как и подозревал, опции комментариев не работают для первой строки, когда там BOM. |
Quote: |
Помимо этого, вариант «не парсить» по-логике должен и на определение названий колонок распространяться.
Плюс названия второго и третьего малость неинтуитивны: по смыслу оба — это «игнорировать», с разницей лишь в том показывать как есть или скрывать. |
little-brother wrote: |
Там не какая то фиксированная последовательность. utf8 кодирует один символ в 1-4 байта. Английские - это всегда 1 байт и в принципе совпадает с ANSI, а вот русские буквы - это уже по два байта. |
Code: |
Reason: The character "0x001A" cannot occur in text. |
output generated using printer-friendly topic mod. All times are GMT + 4 Hours