Реферат: Фильтрация строк с использованием автоматов

{

return ((Boolean) _enabledThreadLocal.get()).equals(Boolean.TRUE);

}

}

Есть возможность отключать некоторые правила непосредственно в процессе работы фильтра или между исполнениями метода process(). Можно также динамически изменять фильтр или настраивать его. При этом не требуется перекомпиляции кода или самого фильтра.

Также создан вспомогательный класс CustomFilterFromXML, который позволяет загрузить конфигурацию фильтра из XML-файла и автоматически ее обновляет при изменении XML-файла.

Применение

Метод фильтрации строк, представленный в данной статье, применим не только в узкоспециализированной области работы с интернет-текстами. Создавая разные правила, легко создавать строки, которые будут управлять, например поведением программы. Возможности неограниченны. Описанная здесь система называется JFilter и распространяется свободно, ее страничка в интернете: http://blog.existence.ru/exception/.products.JFilter. Там можно найти как библиотеку в формате jar, так и исходные тексты с документацией. В приложении приведен код интерфейсов фильтра и правила, которые являются основными интерфейсами системы. JFilter используется в системе блогов JDnevnik [6] и еще в нескольких проектах.

Правила, входящие в поставку

Все стандартные правила написаны в стиле, допускающем одновременную обработку фильтром нескольких строк, благодаря чему их можно использовать в многопоточной среде.

Стандартные правила (jfilter.rules.general) BreakWorksRule – разбивает длинные слова пробелом.
EkranRule – правило экранирования спецсимволов.
MaxLengthRule – правило, которое ограничивает длину строк.
HTML-правила (jfilter.rules.html) AnchoringRule – замена текста, начинающегося с http:// (или аналогов) и заканчивающегося пробелом, HTML-ссылкой.
MailRule – замена текста, заключенного в пробелы и содержащего символ «@», HTML-ссылкой.
Эмотиконы (jfilter.rules.smiles) PreSmiler – замена обозначений эмотиконов («:-)», «;)» и так далее) на их стандартные обозначения для обработки SmilesRule’ом.
SmilesRule – замена одиночных слов, заключенных в парные двоеточия «::», HTML-картинками.
Транслитерация (jfilter.rules.transliteration) Lat2RusTransliterationRuleGroup – транслитерация. Соответствует ISO и ГОСТ (то есть можно писать как по ГОСТу, так и обозначениями ISO; пока конфликтов такого варианта я не обнаружил).
Типографика (jfilter.rules.typografica) AbbreviationsRule – замена (c), (p), (r), (tm) соответствующими HTML-символы.
HellipRule – замена трех точек подряд символом «многоточие».
LongDashRule – Замена символа «минус», обрамленного пробелами символом «тире».
QuotesRule – замена «знака дюйма» корректными кавычками для русского языка.
Вики-форматирование (jfilter.rules.wacko) AnchorRule – создание ссылок в виде ((link)).
BlockquoteRule – цитата (>>текст>>).
BoldRule – выделение полужирным начертанием (**полужирный**).
HeaderRule – заголовок (==заголовок==).
ItalicRule – выделение курсивом (//курсив//).
MonospaceRule – выделение моноширинным шрифтом (##моноширинный##).
NoteRule – выделение замечания (span class=”note”).
ParagraphRule – Работа с переводами строки (одиночный перевод строки - <br/>, два подряд - <p>).
PreformattedRule – выделение предварительно отформатированного текста (%%уже форматрованный текст%%).
ReplaceAmpersandTagBracketRule – замена символа “&” соответствующим HTML-аналогом (&amp;).
ReplaceLeftTagBracketRule – замена символа “<” соответствующим HTML-аналогом (&lt;).
SmallRule – выделение мелким шрифтом (++мелкий++).
StrikeRule – выделение перечеркиванием (--перечеркнутый--).
SubscriptRule – выделение нижним индексом (vvнижний индексvv).
SuperscriptRule – выделение верхним индексом (^^верхний индекс^^).
UnderlineRule – выделение подчеркиванием (__подчеркивание__).

Таблица 1. Стандартные правила.

Сравнение работы разных типов обработки строк

Свойство Классический способ Регулярные выражения Фильтрация
Простота реализации Просто Очень сложно Сложно
Возможности изменения Для простых задач – очень большие, для сложных – очень сложные Только вместе с перекомпиляцией выражения Максимальные
Простота использования Очень просто Просто для тех, кто потратил много времени на обучение Очень просто
Скорость работы Быстро на простых вариантах, обычно медленно на сложных, сильно зависит от реализации Быстро, если правильно использовать Быстро

Таблица 2. Сравнение разных типов обработки строк.

Заключение

Хочется отметить, что библиотека JFilter продолжает развиваться, на настоящий момент реализовано очень много, но далеко не все из того, что хотелось бы реализовать. В ближайшем будущем предполагается написание дополнительных правил для классической, «бумажной» типографики, которые помогали бы редакторам и верстальщикам самых обычных, бумажных книг/журналов/газет.

Список литературы

ФридлДж., Mastering Regular Expressions. Питер, 2003 год.

http://is.ifmo.ru, Санкт-Петербургский Государственный университет информационных технологий, механики и оптики, кафедра «Технологии программирования».

Бабаев А., МИР ПК - ДИСК. 2003. №12, Транслитерация и как правильно ее надо программировать.

http://is.ifmo.ru/projects/bone/ – cоздание скелетной анимации на основе автоматного программирования.

http://wackowiki.com/projects/WackoFormatter –библиотека для форматирования текста WackoFormatter.

http://blog.existence.ru/exception/.products.JDnevnik – Система блогов JDnevnik.

К-во Просмотров: 425
Бесплатно скачать Реферат: Фильтрация строк с использованием автоматов