@schors
schors
31 Dec 2018

О, жуйк? А никто RTF на чем-нибудь не парсил? Мне нужен парсер RTF. Я уже готов на любой язык. Нужно в том числе выдирать текст "из абзаца начинающегося на PATTERN", из таблицы, "правую ячейку в ряду, в которой левая PATTERN" Кстати, я спокойно переживу Perl в проекте. У него самые удобные regexp. Для regexp хер знает чего — самое то. Вот это бы https://github.com/joshy/striprtf с вот этим https://github.com/brendonh...gins/rtf15/reader.py поженить. Первый плох с кодировками и стрипом параграфов, второй — с таблицами. Короче, у них ещё бывает таблица где URL. А по персональным данным там вообще кошмар. Грубо говоря, я бы каждую таблицу пытался считать двуколоночной и брать k/v

31 Dec 2018

Паршу RTF при помощи tika.apache.org
Да, Java, но умеет работать из command line. Ты ей файл, она тебе текст.

31 Dec 2018

проблема в том, что потом текст парсить

#mirno/3 в ответ на /2
31 Dec 2018

забавная штука. но бьёт символы, что странно

#mirno/5 в ответ на /1

Добавить пост

Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
Для форматирования текста используется Markdown.