universe@1: /*
universe@1:  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS HEADER.
universe@1:  *
universe@1:  * Copyright 2013 Mike Becker. All rights reserved.
universe@1:  *
universe@1:  * Redistribution and use in source and binary forms, with or without
universe@1:  * modification, are permitted provided that the following conditions are met:
universe@1:  *
universe@1:  *   1. Redistributions of source code must retain the above copyright
universe@1:  *      notice, this list of conditions and the following disclaimer.
universe@1:  *
universe@1:  *   2. Redistributions in binary form must reproduce the above copyright
universe@1:  *      notice, this list of conditions and the following disclaimer in the
universe@1:  *      documentation and/or other materials provided with the distribution.
universe@1:  *
universe@1:  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
universe@1:  * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
universe@1:  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
universe@1:  * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE
universe@1:  * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
universe@1:  * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
universe@1:  * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
universe@1:  * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
universe@1:  * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
universe@1:  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
universe@1:  * POSSIBILITY OF SUCH DAMAGE.
universe@1:  *
universe@1:  */
universe@1: 
universe@1: #include <stdio.h>
universe@1: #include <stdlib.h>
universe@1: #include <string.h>
universe@1: #include <fcntl.h>
universe@1: #include <unistd.h>
universe@4: #include <ctype.h>
universe@4: 
universe@4: #define INPUTBUF_SIZE 2048
universe@18: #define WORDBUF_SIZE 64
universe@5: 
universe@16: const char* ckeywords[] = {
universe@19:     "auto", "break", "case", "char", "const", "continue", "default", "do",
universe@19:     "double", "else", "enum", "extern", "float", "for", "goto", "if", "int",
universe@19:     "long", "register", "return", "short", "signed", "sizeof", "static",
universe@19:     "struct", "switch", "typedef", "union", "unsigned", "void", "volatile",
universe@19:     "while", NULL
universe@5: };
universe@4: 
universe@17: const char* jkeywords[] = {
universe@19:     "abstract", "continue", "for", "new", "switch", "assert", "default", "goto",
universe@19:     "package", "synchronized", "boolean", "do", "if", "private", "this",
universe@19:     "break", "double", "implements", "protected", "throw", "byte", "else",
universe@19:     "import", "public", "throws", "case", "enum", "instanceof", "return",
universe@19:     "transient", "catch", "extends", "int", "short", "try", "char", "final",
universe@19:     "interface", "static", "void", "class", "finally", "long", "strictfp",
universe@19:     "volatile", "const", "float", "native", "super", "while", NULL
universe@17: };
universe@17: 
universe@18: #define iswordcharacter(c) (isalnum(c) || c=='_' || c=='#' || c=='@')
universe@18: 
universe@17: int isctype(char *word, size_t len) {
universe@19:     return (word[len-2] == '_' && word[len-1] == 't');
universe@16: }
universe@16: 
universe@17: int iscdirective(char *word) {
universe@19:     return (word[0] == '#');
universe@16: }
universe@16: 
universe@17: int isjtype(char *word, size_t len) {
universe@19:     return isupper(word[0]);
universe@16: }
universe@16: 
universe@17: int isjdirective(char *word) {
universe@19:     return word[0] == '@';
universe@16: }
universe@16: 
universe@20: typedef struct _highlighter_t highlighter_t;
universe@20: 
universe@20: struct _highlighter_t {
universe@19:     const char** keywords;
universe@19:     int(*istype)(char*,size_t);
universe@19:     int(*isdirective)(char*);
universe@20:     void(*parser)(char*,char*,highlighter_t*);
universe@20:     int iscommentml;
universe@20:     char word[WORDBUF_SIZE];
universe@20:     char includefile[FILENAME_MAX];
universe@20: };
universe@16: 
universe@11: typedef struct {
universe@19:     char* outfilename;
universe@19:     char* infilename;
universe@19:     int highlight;
universe@11: } settings_t;
universe@4: 
universe@4: typedef struct {
universe@19:     size_t count;
universe@19:     size_t capacity;
universe@19:     size_t maxlinewidth;
universe@19:     char** lines;
universe@4: } inputfile_t;
universe@1: 
universe@1: inputfile_t *inputfilebuffer(size_t capacity) {
universe@19:     inputfile_t *inputfile = (inputfile_t*) malloc(sizeof(inputfile_t));
universe@19:     inputfile->lines = (char**) malloc(capacity * sizeof(char*));
universe@19:     inputfile->capacity = capacity;
universe@19:     inputfile->count = 0;
universe@19:     inputfile->maxlinewidth = 0;
universe@19: 
universe@19:     return inputfile;
universe@0: }
universe@0: 
universe@1: void addline(inputfile_t *inputfile, char* line, size_t width) {
universe@19:     char *l = (char*) malloc(width+1);
universe@19:     memcpy(l, line, width);
universe@19:     l[width] = 0;
universe@19:     if (inputfile->count >= inputfile->capacity) {
universe@19:         inputfile->capacity <<= 1;
universe@19:         inputfile->lines = realloc(inputfile->lines, inputfile->capacity);
universe@19:     }
universe@19:     inputfile->lines[inputfile->count] = l;
universe@19:     inputfile->maxlinewidth =
universe@19:         width > inputfile->maxlinewidth ? width : inputfile->maxlinewidth;
universe@19:     inputfile->count++;
universe@1: }
universe@1: 
universe@1: void freeinputfilebuffer(inputfile_t *inputfile) {
universe@19:     for (int i = 0 ; i < inputfile->count ; i++) {
universe@19:         free(inputfile->lines[i]);
universe@19:     }
universe@19:     free(inputfile->lines);
universe@19:     free(inputfile);
universe@1: }
universe@1: 
universe@1: inputfile_t *readinput(char *filename) {
universe@1: 
universe@19:     int fd = open(filename, O_RDONLY);
universe@19:     if (fd == -1) return NULL;
universe@1: 
universe@19:     inputfile_t *inputfile = inputfilebuffer(512);
universe@19: 
universe@19:     char buf[INPUTBUF_SIZE];
universe@19:     ssize_t r;
universe@19: 
universe@19:     size_t maxlinewidth = 256;
universe@19:     char *line = (char*) malloc(maxlinewidth);
universe@19:     size_t col = 0;
universe@19: 
universe@19:     while ((r = read(fd, buf, INPUTBUF_SIZE)) > 0) {
universe@19:         for (size_t i = 0 ; i < r ; i++) {
universe@19:             if (col >= maxlinewidth-4) {
universe@19:                 maxlinewidth <<= 1;
universe@19:                 line = realloc(line, maxlinewidth);
universe@19:             }
universe@19: 
universe@19:             if (buf[i] == '\n') {
universe@19:                 line[col++] = '\n';
universe@19:                 line[col] = 0;
universe@19:                 addline(inputfile, line, col);
universe@19:                 col = 0;
universe@19:             } else {
universe@19:                 line[col++] = buf[i];
universe@19:             }
universe@19:         }
universe@1:     }
universe@19: 
universe@19:     free(line);
universe@19: 
universe@19:     close(fd);
universe@19: 
universe@19:     return inputfile;
universe@1: }
universe@1: 
universe@5: size_t writeescapedchar(char *dest, size_t dp, char c) {
universe@19:     if (c == '>') {
universe@19:         dest[dp++] = '&'; dest[dp++] = 'g'; dest[dp++] = 't'; dest[dp++] = ';';
universe@19:     } else if (c == '<') {
universe@19:         dest[dp++] = '&'; dest[dp++] = 'l'; dest[dp++] = 't'; dest[dp++] = ';';
universe@19:     } else {
universe@19:         dest[dp++] = c;
universe@19:     }
universe@19: 
universe@19:     return dp;
universe@5: }
universe@5: 
universe@16: int iskeyword(char *word, const char** keywords) {
universe@19:     for (int i = 0 ; keywords[i] ; i++) {
universe@19:         if (strncmp(keywords[i], word, WORDBUF_SIZE) == 0) {
universe@19:             return 1;
universe@19:         }
universe@5:     }
universe@19:     return 0;
universe@5: }
universe@5: 
universe@9: int iscapsonly(char *word, size_t wp) {
universe@19:     for (size_t i = 0 ; i < wp ; i++) {
universe@19:         if (!isupper(word[i]) && word[i] != '_') {
universe@19:             return 0;
universe@19:         }
universe@9:     }
universe@19:     return 1;
universe@9: }
universe@9: 
universe@20: void parseline(char *src, char *dest, highlighter_t *hltr) {
universe@20:     hltr->parser(src, dest, hltr);
universe@20: }
universe@20: 
universe@20: void cjparseline(char *src, char *dest, highlighter_t *hltr) {
universe@19:     size_t sp = 0, dp = 0;
universe@19:     /* indent */
universe@19:     while (isspace(src[sp])) {
universe@19:         dest[dp++] = src[sp++];
universe@19:     }
universe@9: 
universe@20:     memset(hltr->word, 0, WORDBUF_SIZE);
universe@19:     size_t wp = 0, ifp = 0;
universe@19:     int isstring = 0, iscomment = 0, isinclude = 0, parseinclude = 0;
universe@19:     int isescaping = 0;
universe@19: 
universe@20:     if (hltr->iscommentml) {
universe@8:         iscomment = 1;
universe@8:         memcpy(&(dest[dp]), "<span class=\"c2html-comment\">", 29);
universe@8:         dp += 29;
universe@8:     }
universe@19: 
universe@19:     for (char c = src[sp] ; c ; c=src[++sp]) {
universe@19:         /* comments */
universe@19:         if (c == '/') {
universe@20:             if (hltr->iscommentml && sp > 0 && src[sp-1] == '*') {
universe@19:                 iscomment = 0;
universe@20:                 hltr->iscommentml = 0;
universe@19:                 memcpy(&(dest[dp]), "/</span>", 8);
universe@19:                 dp += 8;
universe@19:                 continue;
universe@19:             } else if (!iscomment && (src[sp+1] == '/' || src[sp+1] == '*')) {
universe@19:                 iscomment = 1;
universe@20:                 hltr->iscommentml = (src[sp+1] == '*');
universe@19:                 memcpy(&(dest[dp]), "<span class=\"c2html-comment\">", 29);
universe@19:                 dp += 29;
universe@19:             }
universe@19:         }
universe@19: 
universe@19:         if (iscomment) {
universe@19:             if (c == '\n') {
universe@19:                 memcpy(&(dest[dp]), "</span>", 7);
universe@19:                 dp += 7;
universe@19:             }
universe@19:             dp = writeescapedchar(dest, dp, c);
universe@19:         } else if (isinclude) {
universe@19:             if (c == '<') {
universe@19:                 memcpy(&(dest[dp]), "<span class=\"c2html-stdinclude\">", 32);
universe@19:                 dp += 32;
universe@19:                 dp = writeescapedchar(dest, dp, c);
universe@19:             } else if (c == '\"') {
universe@19:                 if (parseinclude) {
universe@19:                     dest[dp++] = '\"';
universe@19:                     dest[dp++] = '>';
universe@20:                     memcpy(&(dest[dp]), hltr->includefile, ifp);
universe@19:                     dp += ifp;
universe@19: 
universe@19:                     dp = writeescapedchar(dest, dp, c);
universe@19:                     memcpy(&(dest[dp]), "</a>", 4);
universe@19:                     dp += 4;
universe@19:                     parseinclude = 0;
universe@19:                 } else {
universe@19:                     memcpy(&(dest[dp]),
universe@19:                         "<a class=\"c2html-userinclude\" href=", 35);
universe@19:                     dp += 35;
universe@19:                     dp = writeescapedchar(dest, dp, c);
universe@19:                     ifp = 0;
universe@20:                     hltr->includefile[ifp++] = '\"';
universe@19:                     parseinclude = 1;
universe@19:                 }
universe@19:             } else if (c == '>') {
universe@19:                 dp = writeescapedchar(dest, dp, c);
universe@19:                 memcpy(&(dest[dp]), "</span>", 7);
universe@19:                 dp += 7;
universe@19:             } else {
universe@19:                 if (parseinclude) {
universe@20:                     hltr->includefile[ifp++] = c;
universe@19:                 }
universe@19:                 dp = writeescapedchar(dest, dp, c);
universe@19:             }
universe@10:         } else {
universe@19:             /* strings */
universe@19:             if (!isescaping && (c == '\'' || c == '\"')) {
universe@19:                 isstring ^= 1;
universe@19:                 if (isstring) {
universe@19:                     memcpy(&(dest[dp]), "<span class=\"c2html-string\">", 28);
universe@19:                     dp += 28;
universe@19:                     dp = writeescapedchar(dest, dp, c);
universe@19:                 } else {
universe@19:                     dp = writeescapedchar(dest, dp, c);
universe@19:                     memcpy(&(dest[dp]), "</span>", 7);
universe@19:                     dp += 7;
universe@19:                 }
universe@19:             } else {
universe@19:                 if (isstring) {
universe@19:                     dp = writeescapedchar(dest, dp, c);
universe@19:                 } else if (!iswordcharacter(c)) {
universe@19:                     /* interpret word int_t */
universe@19:                     if (wp > 0 && wp < WORDBUF_SIZE) {
universe@19:                         int closespan = 1;
universe@20:                         if (iskeyword(hltr->word, hltr->keywords)) {
universe@19:                             memcpy(&(dest[dp]),
universe@19:                                 "<span class=\"c2html-keyword\">", 29);
universe@19:                             dp += 29;
universe@20:                         } else if (hltr->istype(hltr->word, wp)) {
universe@19:                             memcpy(&(dest[dp]),
universe@19:                                 "<span class=\"c2html-type\">", 26);
universe@19:                             dp += 26;
universe@20:                         } else if (hltr->isdirective(hltr->word)) {
universe@19:                             isinclude = !strncmp(
universe@20:                                 "#include", hltr->word, WORDBUF_SIZE);
universe@19:                             memcpy(&(dest[dp]),
universe@19:                                 "<span class=\"c2html-directive\">", 31);
universe@19:                             dp += 31;
universe@20:                         } else if (iscapsonly(hltr->word, wp)) {
universe@19:                             memcpy(&(dest[dp]),
universe@19:                                 "<span class=\"c2html-macroconst\">", 32);
universe@19:                             dp += 32;
universe@19:                         } else {
universe@19:                             closespan = 0;
universe@19:                         }
universe@19:                         for (int i = 0 ; i < wp ; i++) {
universe@20:                             dp = writeescapedchar(dest, dp, hltr->word[i]);
universe@19:                         }
universe@19:                         if (closespan) {
universe@19:                             memcpy(&(dest[dp]), "</span>", 7);
universe@19:                             dp += 7;
universe@19:                         }
universe@19:                     }
universe@20:                     memset(hltr->word, 0, WORDBUF_SIZE);
universe@19:                     wp = 0;
universe@19:                     dp = writeescapedchar(dest, dp, c);
universe@19:                 } else {
universe@19:                     /* read word */
universe@19:                     if (wp < WORDBUF_SIZE) {
universe@20:                         hltr->word[wp++] = c;
universe@19:                     } else if (wp == WORDBUF_SIZE) {
universe@19:                         for (int i = 0 ; i < WORDBUF_SIZE ; i++) {
universe@20:                             dp = writeescapedchar(dest, dp, hltr->word[i]);
universe@19:                         }
universe@19:                         wp++;
universe@19:                         dp = writeescapedchar(dest, dp, c);
universe@19:                     } else {
universe@19:                         dp = writeescapedchar(dest, dp, c);
universe@19:                     }
universe@19:                 }
universe@19:             }
universe@19: 
universe@19:             isescaping = !isescaping & (c == '\\');
universe@10:         }
universe@4:     }
universe@19:     dest[dp] = 0;
universe@4: }
universe@4: 
universe@1: void printhelp() {
universe@19:     printf("Formats source code using HTML.\n\nUsage:\n"
universe@19:         "  c2html [Options] FILE\n\n"
universe@19:         " Options:\n"
universe@19:         "  -h                    Prints this help message\n"
universe@19:         "  -j                    Highlight Java instead of C source code\n"
universe@19:         "  -o <output>           Output file (stdout, if not specified)\n"
universe@19:         "  -p                    Disable highlighting (plain text)\n"
universe@19:         "\n");
universe@19: 
universe@19: 
universe@1: }
universe@1: 
universe@4: int lnint(size_t lnc) {
universe@19:     int w = 1, p = 1;
universe@19:     while ((p*=10) < lnc) w++;
universe@19:     return w;
universe@1: }
universe@1: 
universe@1: int main(int argc, char** argv) {
universe@19:     settings_t settings;
universe@19:     settings.outfilename = NULL;
universe@19:     settings.highlight = 1;
universe@19: 
universe@19:     highlighter_t highlighter;
universe@20:     memset(&highlighter, 0, sizeof(highlighter));
universe@19:     highlighter.isdirective = iscdirective;
universe@19:     highlighter.istype = isctype;
universe@19:     highlighter.keywords = ckeywords;
universe@20:     highlighter.parser = cjparseline;
universe@19: 
universe@19:     char optc;
universe@19:     while ((optc = getopt(argc, argv, "hjo:p")) != -1) {
universe@19:         switch (optc) {
universe@19:             case 'o':
universe@19:                 if (!(optarg[0] == '-' && optarg[1] == 0)) {
universe@19:                     settings.outfilename = optarg;
universe@19:                 }
universe@19:                 break;
universe@19:             case 'j':
universe@19:                 highlighter.isdirective = isjdirective;
universe@19:                 highlighter.istype = isjtype;
universe@19:                 highlighter.keywords = jkeywords;
universe@19:                 break;
universe@19:             case 'p':
universe@19:                 settings.highlight = 0;
universe@19:                 break;
universe@19:             case 'h':
universe@19:                 printhelp();
universe@19:                 return 0;
universe@19:             default:
universe@19:                 return 1;
universe@11:         }
universe@19:     }
universe@19: 
universe@19:     if (optind != argc-1) {
universe@11:         printhelp();
universe@19:         return 1;
universe@19:     } else {
universe@19:         settings.infilename = argv[optind];
universe@19: 
universe@19:         inputfile_t *inputfile = readinput(settings.infilename);
universe@19:         if (inputfile) {
universe@19:             FILE *fout;
universe@19:             char *line;
universe@19:             if (settings.highlight) {
universe@19:                 line = (char*) malloc(inputfile->maxlinewidth*64);
universe@19:             } else {
universe@19:                 line = NULL;
universe@19:             }
universe@19:             if (settings.outfilename) {
universe@19:                 fout = fopen(settings.outfilename, "w");
universe@19:             } else {
universe@19:                 fout = stdout;
universe@19:             }
universe@19:             fprintf(fout, "<pre>\n");
universe@19:             int lnw = lnint(inputfile->count);
universe@19:             for (int i = 0 ; i < inputfile->count ; i++) {
universe@19:                 if (settings.highlight) {
universe@19:                     parseline(inputfile->lines[i], line, &highlighter);
universe@19:                 } else {
universe@19:                     line = inputfile->lines[i];
universe@19:                 }
universe@19:                 fprintf(fout, "<span class=\"c2html-lineno\">%*d:</span> %s",
universe@19:                     lnw, i+1, line);
universe@19:             }
universe@19:             if (settings.highlight) {
universe@19:                 free(line);
universe@19:             }
universe@19:             fprintf(fout, "</pre>\n");
universe@19: 
universe@19:             if (fout != stdout) {
universe@19:                 fclose(fout);
universe@19:             }
universe@19: 
universe@19:             freeinputfilebuffer(inputfile);
universe@19:         }
universe@19: 
universe@11:         return 0;
universe@11:     }
universe@1: }
universe@1: