Unix Man (Справочное руководство)

         

LEX(1)


LEX(1)

НАЗВАНИЕ


lex - генератор программ простого лексического анализа

СИНТАКСИС

lex [-r] [-c] [-t] [-v] [-n] [файл ...]

ОПИСАНИЕ


Команда lex генерирует программы, которые можно использовать для простого лексического анализа текста.

Входные файлы (по умолчанию - стандартный ввод) содержат цепочки символов и выражения, подлежащие распознаванию, и операторы на языке C, которые выполняются в случае успеха распознавания.

Генерируется программа lex.yy.c. Будучи загруженной вместе с библиотекой, она для каждой распознанной цепочки выполняет соответствующие C-операторы, а остальные фрагменты входного файла копирует в выходной файл без изменений. Распознанная цепочка помещается во внешний символьный массив yytext. Сопоставление цепочек выполняется в том порядке, в котором они указаны в файле. Цепочки символов могут содержать квадратные скобки, которые указывают классы символов (например, [abx-z] означает a, b, x, y и z), и операторы *, + и ?, обозначающие повторение предыдущего символа или класса символов, соответственно, любое неотрицательное число раз, любое положительное число, 0 или один раз. Символ . - это класс всех символов ASCII, кроме перевода строки. В дополнение, поддерживаются скобки (группировка символов) и вертикальная черта (альтернация). Запись r{d,e} в правиле обозначает вхождения регулярного выражения r между d и e. Она имеет больший приоритет, чем |, но меньший, чем *, ?, + и конкатенация. Символ ^ в начале выражения означает, что сопоставление должно начинаться с начала строки, символ $ в конце выражения требует, чтобы следующим символом в сопоставляемой цепочке был символ перевода строки. Символ / в выражении обозначает, что только часть выражения вплоть до наклонной черты помещается в yytext, но оставшаяся часть должна успешно сопоставляться. Символ оператора может использоваться как обычный символ, если он взят в кавычки или если ему предшествует \. Пример: выражение [a-zA-Z]+ успешно сопоставляется с цепочкой букв.

Три подпрограммы определены как макросы: input( ) - прочитать символ; unput(c) - заменить прочитанный символ; output(c) - поместить выходной символ. Все они определены в терминах стандартных потоков, но их описание можно изменить. Генерируемая программа-анализатор называется yylex( ), библиотека содержит программу main( ), которая вызывает анализатор. Действие REJECT в правой части правила обозначает отказ от текущего сопоставления и переход к поиску следующего сопоставления; функция yymore( ) накапливает дополнительные символы в том же массиве yytext; функция yyless(p) выталкивает порцию сопоставленной цепочки символов, начиная с позиции p, которая должна быть между yytext и yytext+yyleng. Макросы input и output используют файлы yyin и yyout для чтения и записи (по умолчанию это файлы stdin и stdout соответственно).

Строки, начинающиеся с пробела, считаются текстом на языке C и копируются в файл lex.yy.c; если они предшествуют строке %%, копирование выполняется в область внешних определений файла lex.yy.c. Все правила, как и в YACC, должны стоять после %%. Строки, стоящие до %% и начинающиеся не с пробела, определяют стоящую слева цепочку символов как остаток строки; данное определение затем можно использовать, указав эту цепочку в фигурных скобках { }. Отметим, что после подстановки скобки исчезнут.

ПРИМЕР


D [0-9] %% if printf("IF statement\n"); [a-z]+ printf("tag, value %s\n",yytext); 0{D}+ printf("octal number %s\n",yytext); {D}+ printf("decimal number %s\n",yytext); "++" printf("unary op\n"); "+" printf("binary op\n"); "/*" skipcommnts(); %% skipcommnts() { for(;;) { while (input() != '*') ; if (input() != '/') unput(yytext[yyleng-1]); else return; } }

Внешние имена, сгенерированные программой lex, всегда начинаются с префикса yy или YY.

ОПЦИИ



-r -c -t -v -n
Выполняемые действия написаны на языке ratfor [см. ].
Выполняемые действия написаны на языке C (данная опция считается использованной по умолчанию).
Поместить результат на стандартный вывод вместо файла lex.yy.c.
Выдать статистическую сводку о построенном автомате.
Отменить выдачу статистики.
Если указано несколько файлов, они рассматриваются как один общий файл. Если файлы не указаны, обрабатывается стандартный ввод.

Размеры некоторых таблиц для генерируемого конечного автомата могут быть установлены в разделе определений:
%p n число позиций равно n (по умолчанию - 2500)
%n n число состояний (500)
%e n число узлов в дереве разбора (1000)
%a n число переходов (2000)
%k n число классов упакованных символов (1000)
%o n размер выходного массива (3000)
Использование одного или большего числа таких определений автоматически подразумевает задание опции -v, если не используется опция -n.

СМ. ТАКЖЕ



.

СЮРПРИЗЫ



Опция -r еще не полностью работоспособна.


Содержание раздела