使用 Python 对文本内容进行信息的提取,我第一个想到的方法便是使用正则表达式,借助于re模块强大的findall函数可以很轻松地拿到想要的结构化文本信息。
但在某些场景下,findall函数也无法帮助我们完美地提取到想要的信息,例如下面这段包含多个 SQL 的文本内容,我们很难编写一个匹配模式来获取到--[sql*]块内的内容。
--[sql1]-- test1SELECT * FROM test.t1;--test2CREATE TABLE IF NOT EXSISTS test.t1STORED AS PARQUETSELECT * FROM test.studuents;--[sql2]--test3SELECT * FROM test.t2
对于上面这段文本内容,我们期望提取的结果如下:
{"sql1": "SELECT * FROM test.t1\n;\nCREATE TABLE IF NOT EXSISTS test.t1\n STORED AS PARQUET\nSELECT * FROM test.studuents\n;\n\n","sql2": "SELECT * FROM test.t2\n"}
怎么样,还是有点难度的吧?编写匹配模式的难点有 2 个,一是我们虽然知道想要提取的内容是在--[sql1]和--[sql2]标识下面,但是--[sql*]是变化的,二是无法找到匹配模式结束的标识。幸运的是,**re**模块还提供了一个**split**函数,可以帮助我们完成信息的提取。当然,有兴趣的同学可以想一下,是否可以编写复杂一点的匹配模式,借助于findall函数也能完成信息的提取。
本质上,re.split函数与内置split函数使用方法差不多,唯一区别在于split只能接收固定分隔符进行切割,而re.split可以接受一个匹配模式的分隔符来进行切割。
下面我们使用re.split函数提取想要的信息:
import rewith open("code.sql", "r") as f:content = f.read()titles = re.findall("--\[(.*?)\]\n", content)sqls = [re.sub('\n{2,}', '\n', re.sub('--.*?\n', '', s)) for s in re.split("--\[.*?\]\n", content) if s != ""]info = dict(zip(titles, sqls))
