🌽正则表达式 - 🥭分割 - 《Python 教程》

使用 Python 对文本内容进行信息的提取，我第一个想到的方法便是使用正则表达式，借助于re模块强大的findall函数可以很轻松地拿到想要的结构化文本信息。

但在某些场景下，findall函数也无法帮助我们完美地提取到想要的信息，例如下面这段包含多个 SQL 的文本内容，我们很难编写一个匹配模式来获取到--[sql*]块内的内容。

--[sql1]
-- test1
SELECT * FROM test.t1
;
--test2
CREATE TABLE IF NOT EXSISTS test.t1
    STORED AS PARQUET
SELECT * FROM test.studuents
;
--[sql2]
--test3
SELECT * FROM test.t2

对于上面这段文本内容，我们期望提取的结果如下：

{
    "sql1": "SELECT * FROM test.t1\n;\nCREATE TABLE IF NOT EXSISTS test.t1\n    STORED AS PARQUET\nSELECT * FROM test.studuents\n;\n\n",
    "sql2": "SELECT * FROM test.t2\n"
}

怎么样，还是有点难度的吧？编写匹配模式的难点有 2 个，一是我们虽然知道想要提取的内容是在--[sql1]和--[sql2]标识下面，但是--[sql*]是变化的，二是无法找到匹配模式结束的标识。幸运的是，**re**模块还提供了一个**split**函数，可以帮助我们完成信息的提取。当然，有兴趣的同学可以想一下，是否可以编写复杂一点的匹配模式，借助于findall函数也能完成信息的提取。

本质上，re.split函数与内置split函数使用方法差不多，唯一区别在于split只能接收固定分隔符进行切割，而re.split可以接受一个匹配模式的分隔符来进行切割。

下面我们使用re.split函数提取想要的信息：

import re
with open("code.sql", "r") as f:
    content = f.read()
titles = re.findall("--\[(.*?)\]\n", content)
sqls = [re.sub('\n{2,}', '\n', re.sub('--.*?\n', '', s)) for s in re.split("--\[.*?\]\n", content) if s != ""]
info = dict(zip(titles, sqls))