little-brother
|
Posted: Fri Mar 22, 2024 00:38 Post subject: |
|
|
Quote: | если такая последовательность символов найдена - то удалять такие символы |
Там не какая то фиксированная последовательность. utf8 кодирует один символ в 1-4 байта. Английские - это всегда 1 байт и в принципе совпадает с ANSI, а вот русские буквы - это уже по два байта. При этом содержимое первого байта содержит бит, прямо указывающий, что для декодирования символа надо читать дальше. Нарушить эти правила кодирования достаточно легко, в результате, даже подсчет длины кривой строки в символах, а не в байтах, может приводить к падению, если не зафиксировать, что один символ это не более 4-х байт.
Надо разбираться, но пока желания особо нет. Просто в ToDo добавил.
С приоритетом с TAB, пожалуй соглашусь. Надо будет допилить авто-обнаружение.
Quote: | Далее, как и подозревал, опции комментариев не работают для первой строки, когда там BOM. |
Видимо баг, надо править. Пример файла можете добавить?
Quote: | Помимо этого, вариант «не парсить» по-логике должен и на определение названий колонок распространяться.
Плюс названия второго и третьего малость неинтуитивны: по смыслу оба — это «игнорировать», с разницей лишь в том показывать как есть или скрывать. |
Можете предложить варианты лучше? |
|