[escaping] process concat

artpaul · artpaul · commit c2e846431646 · 2017-09-12T16:01:35.000+05:00
diff --git a/driver/escaping/escape_sequences.cpp b/driver/escaping/escape_sequences.cpp
@@ -5,7 +5,9 @@ using namespace std;
 
 namespace {
 
-string convertFunctionByType(const std::string& typeName) {
+string processEscapeSequencesImpl(const StringView seq, Lexer& lex);
+
+string convertFunctionByType(const StringView& typeName) {
     if (typeName == "SQL_BIGINT") {
         return "toInt64";
     }
@@ -16,29 +18,53 @@ string convertFunctionByType(const std::string& typeName) {
 }
 
 string processFunction(const StringView seq, Lexer& lex) {
-    if (!lex.Match(Token::CONVERT)) {
-        return seq.to_string();
-    }
-    if (!lex.Match(Token::LPARENT)) {
-        return seq.to_string();
-    }
+    const Token fn(lex.Consume());
 
-    Token num = lex.Consume();
-    if (num.type != Token::NUMBER) {
-        return seq.to_string();
-    }
-    if (!lex.Match(Token::COMMA)) {
-        return seq.to_string();
-    }
-    Token type = lex.Consume();
-    if (type.type != Token::IDENT) {
-        return seq.to_string();
-    }
+    if (fn.type == Token::CONVERT) {
+        if (!lex.Match(Token::LPARENT)) {
+            return seq.to_string();
+        }
+
+        Token num = lex.Consume();
+        if (num.type != Token::NUMBER) {
+            return seq.to_string();
+        }
+        if (!lex.Match(Token::COMMA)) {
+            return seq.to_string();
+        }
+        Token type = lex.Consume();
+        if (type.type != Token::IDENT) {
+            return seq.to_string();
+        }
 
-    string func = convertFunctionByType(type.literal.to_string());
+        string func = convertFunctionByType(type.literal.to_string());
 
-    if (!func.empty()) {
-        return func + "(" + num.literal.to_string() + ")";
+        if (!func.empty()) {
+            if (!lex.Match(Token::RPARENT)) {
+                return seq.to_string();
+            }
+            return func + "(" + num.literal.to_string() + ")";
+        }
+
+    } else if (fn.type == Token::CONCAT) {
+        string result = "concat";
+
+        while (true) {
+            const Token tok(lex.Peek());
+
+            if (tok.type == Token::RCURLY) {
+                break;
+            } else if (tok.type == Token::LCURLY) {
+                result += processEscapeSequencesImpl(seq, lex);
+            } else if (tok.type == Token::EOS || tok.type == Token::INVALID) {
+                break;
+            } else {
+                result += tok.literal.to_string();
+                lex.Consume();
+            }
+        }
+
+        return result;
     }
 
     return seq.to_string();
@@ -49,7 +75,7 @@ string processDate(const StringView seq, Lexer& lex) {
     if (data.isInvalid()) {
         return seq.to_string();
     } else {
-        return string("toDate('") + data.literal.to_string() + "')";
+        return string("toDate(") + data.literal.to_string() + ")";
     }
 }
 
@@ -58,29 +84,47 @@ string processDateTime(const StringView seq, Lexer& lex) {
     if (data.isInvalid()) {
         return seq.to_string();
     } else {
-        return string("toDateTime('") + data.literal.to_string() + "')";
+        return string("toDateTime(") + data.literal.to_string() + ")";
     }
 }
 
-string processEscapeSequences(const StringView seq) {
-    Lexer lex(seq);
+string processEscapeSequencesImpl(const StringView seq, Lexer& lex) {
+    string result;
 
-    Token cmd = lex.Consume();
-    switch (cmd.type) {
-        case Token::FN:
-            return processFunction(seq, lex);
-        case Token::D:
-            return processDate(seq, lex);
-        case Token::TS:
-            return processDateTime(seq, lex);
-
-        // Unimplemented
-        case Token::T:
-        default:
-            break;
+    if (!lex.Match(Token::LCURLY)) {
+        return seq.to_string();
     }
 
-    return seq.to_string();
+    while (true) {
+        const Token tok(lex.Consume());
+
+        switch (tok.type) {
+            case Token::FN:
+                result += processFunction(seq, lex);
+                break;
+
+            case Token::D:
+                result += processDate(seq, lex);
+                break;
+            case Token::TS:
+                result += processDateTime(seq, lex);
+                break;
+
+            // End of escape sequence
+            case Token::RCURLY:
+                return result;
+
+            // Unimplemented
+            case Token::T:
+            default:
+                return seq.to_string();
+        }
+    };
+}
+
+string processEscapeSequences(const StringView seq) {
+    Lexer lex(seq);
+    return processEscapeSequencesImpl(seq, lex);
 }
 
 } // namespace
@@ -95,12 +139,12 @@ std::string replaceEscapeSequences(const std::string & query)
 
     while (p != end) {
         switch (*p) {
-            case '{': // TODO {fn
+            case '{':
                 if (level == 0) {
                     if (st < p) {
                         ret += std::string(st, p);
                     }
-                    st = p + 1;
+                    st = p;
                 }
                 level++;
                 break;
@@ -111,7 +155,7 @@ std::string replaceEscapeSequences(const std::string & query)
                     return query;
                 }
                 if (--level == 0) {
-                    ret += processEscapeSequences(StringView(st, p));
+                    ret += processEscapeSequences(StringView(st, p + 1));
                     st = p + 1;
                 }
                 break;
diff --git a/driver/escaping/lexer.cpp b/driver/escaping/lexer.cpp
@@ -10,6 +10,7 @@ static const std::unordered_map<std::string, Token::Type> KEYWORDS = {
     {"D",       Token::D},
     {"T",       Token::T},
     {"TS",      Token::TS},
+    {"CONCAT",  Token::CONCAT},
     {"CONVERT", Token::CONVERT}
 };
 
@@ -60,6 +61,14 @@ Token Lexer::Consume(Token::Type expected) {
     return Token{Token::INVALID, StringView()};
 }
 
+Token Lexer::LookAhead(size_t n) {
+    while (readed_.size() < n + 1) {
+        readed_.push_back(NextToken());
+    }
+
+    return readed_[n];
+}
+
 bool Lexer::Match(Token::Type expected) {
     if (readed_.empty()) {
         readed_.push_back(NextToken());
@@ -84,6 +93,10 @@ Token Lexer::MakeToken(const Token::Type type, size_t len) {
     return token;
 }
 
+Token Lexer::Peek() {
+    return LookAhead(0);
+}
+
 Token Lexer::NextToken() {
     for (; cur_ < end_; ++cur_) {
         switch (*cur_) {
@@ -111,18 +124,16 @@ Token Lexer::NextToken() {
                 return MakeToken(Token::COMMA, 1);
 
             case '\'': {
-                const char* st = ++cur_;
+                const char* st = cur_;
                 bool has_slash = false;
 
-                for (; cur_ < end_; ++cur_) {
+                for (++cur_; cur_ < end_; ++cur_) {
                     if (*cur_ == '\\' && !has_slash) {
                         has_slash = true;
                         continue;
                     }
                     if (*cur_ == '\'' && !has_slash) {
-                        return Token{
-                            Token::STRING,
-                            StringView(st, ++cur_ - st - 1)};
+                        return Token{Token::STRING, StringView(st, ++cur_)};
                     }
 
                     has_slash = false;
@@ -134,6 +145,20 @@ Token Lexer::NextToken() {
             default: {
                 const char* st = cur_;
 
+                if (*cur_ == '`') {
+                    for (++cur_; cur_ < end_; ++cur_) {
+                        if (*cur_  == '`') {
+                            return Token{Token::IDENT, StringView(st, ++cur_)};
+                        }
+                        if (!isalpha(*cur_) && !isdigit(*cur_) && *cur_ != '_')
+                        {
+                            return Token{Token::INVALID, StringView(st, cur_)};
+                        }
+                    }
+
+                    break;
+                }
+
                 if (isalpha(*cur_) || *cur_ == '_') {
                     for (++cur_; cur_ < end_; ++cur_) {
                         if (!isalpha(*cur_) && !isdigit(*cur_) && *cur_ != '_')
diff --git a/driver/escaping/lexer.h b/driver/escaping/lexer.h
@@ -20,6 +20,7 @@ struct Token {
         D,
         T,
         TS,
+        CONCAT,
         CONVERT,
 
         // Delimiters
@@ -57,10 +58,16 @@ class Lexer {
     /// Returns next token if its type is equal to expected or error otherwise.
     Token Consume(Token::Type expected);
 
+    /// Look at type of token at position n.
+    Token LookAhead(size_t n);
+
     /// Checks whether type of next token is equal to expected.
     /// Skips token if true.
     bool Match(Token::Type expected);
 
+    /// Peek next token.
+    Token Peek();
+
 private:
     /// Makes token of length len againts current position.
     Token MakeToken(const Token::Type type, size_t len);
diff --git a/driver/ut/escape_sequences_ut.cpp b/driver/ut/escape_sequences_ut.cpp
@@ -9,6 +9,23 @@ TEST(EscapeSequencesCase, ParseConvert) {
     );
 }
 
+TEST(EscapeSequencesCase, ParseConcat) {
+    ASSERT_EQ(
+        replaceEscapeSequences("SELECT {fn CONCAT('a', 'b')}"),
+        "SELECT concat('a','b')"
+    );
+
+    ASSERT_EQ(
+        replaceEscapeSequences("SELECT {fn CONCAT(`table`.`field1`, `table`.`field1`)}"),
+        "SELECT concat(`table`.`field1`,`table`.`field1`)"
+    );
+
+    ASSERT_EQ(
+        replaceEscapeSequences("SELECT {fn CONCAT({fn CONCAT(`table`.`field1`, '.')}, `table`.`field1`)}"),
+        "SELECT concat(concat(`table`.`field1`,'.'),`table`.`field1`)"
+    );
+}
+
 TEST(EscapeSequencesCase, DateTime) {
     ASSERT_EQ(
         replaceEscapeSequences("SELECT {d '2017-01-01'}"),
@@ -21,10 +38,9 @@ TEST(EscapeSequencesCase, DateTime) {
     );
 }
 
-
 TEST(LexerCase, ParseString) {
     Token tok = Lexer("'2017-01-01'").Consume();
 
     ASSERT_EQ(tok.type, Token::STRING);
-    ASSERT_EQ(tok.literal, "2017-01-01");
+    ASSERT_EQ(tok.literal, "'2017-01-01'");
 }