Destiny
|
Posted: Thu Mar 21, 2024 11:50 Post subject: |
|
|
helb wrote: | У CSV нет никаких стандартов, жалкое упоминание пунктиком в каком-то RFC, который вообще все игнорируют — это не стандарт
Вопрос в том, что при любом парсинге структуры комментарии должны игнорироваться везде — не важно где они расположены и сколько их. |
Его может и не быть, но мы же понимаем, что даже просто тот формат CSV|TSV, который мы привыкли за годы использования "видеть" в файлах - уже
"тянет" на некое подобие оного, просто потому что, (хей, как там юристы пишут?) это уже Де-факто.
Ну дык, тогда вопрос - а что вы привыкли видеть КАК комментарий? Я вот точку с запятой. Решетку.... хм, ну да, бывает вижу. Но если ранжировать
по частоте попадания "на стол", то она явно на 4 месте. На втором //, на третьем многострочный /**/
Значит тогда кроме кнопки Comment Mode внизу еще для удобства вводим кнопку Comment sign?
Ну и для полного скрытия вроде как режим#3 вполне подходит же?
Но теперь вопросы - а для каких вариантов файла CSV, не имеющего стандарт, и как применять эти символы комментариев?
А если они внутри текста, который внутри как бы ячейки с данными. А если они вдруг разбивают один файл TSV на две таблицы?
Угу, есть такая прога - она ТОЛЬКО с таким своим, понятно дело, стандартом TSV так работает.
Собсно я к тому, что не фига не простое это дело парсить нестандартизированный типовой файл CSV|TSV.
Добавлено спустя 3 минуты:
little-brother wrote: | по поводу кривых utf8: подозреваю, что проблема для всех трех плагинов, работающих с текстом, т.е. xmltab, jsontab и csvtab,
кривой utf8 может приводить к падению плагина и самого TC. Надо разбираться можно ли обработать utf8-текст, чтобы выкинуть из него неверные символы. |
Хм, ну так-то да, если учесть, что многое одинаково в исходниках эти плагинов.
Учитывая, что я в xmltab теме написал:
Quote: | можно для начала проверять НАБОР символов, встреченных в файле и типа если есть те, что
принадлежат явно НЕ "человеческому цифро-символьно-буквенному диапазону - то писать уведомление,
что в файле "что-то" не то... И даже не обязательно точно указывать в каком, мол, это месте "не то".... |
может "подогнать" под реалии эту логику - если такая последовательность символов найдена - то удалять такие символы,
но все равно плюсом обязательно выводить инфу об этом действии пользователю. |
|