帮助：从文本中提取数据元组…正则表达式还是机器学习？

| 非常感谢您对解决以下问题的最佳方法的想法。我使用的是汽车分类清单示例，该示例本质上类似，可以给出一个想法。问题：从给定的文本中提取数据元组。这是数据的一些特征。文本中的词汇（单词）仅限于特定领域。最多假设100-200个字。需要解析的文本是一个标题，例如下面显示的汽车广告数据。因此，每个记录对应一个元组（行）。在某些情况下，某些属性可能会丢失。因此，例如，缺少年份下的原始数据第5行。有些词并列（字母组合）。就像“低英里”。现有历史数据= 10,000条记录每周收到的新数据量= 1000-1500条记录预期的输出应为（Year，Make，Model，feature）的形式。所以输出应该像 1->（2009年，福特，Fusion，SE） 2->（1997年，福特，金牛座，旅行车） 3->（2000，三菱，Mirage，DE） 4->（2007年，福特，Expedition，EL Limited） 5->（，本田，雅阁，EX） .... .... 原始标题数据： 1-> 2009年福特Fusion SE-7000美元 2-> 1997年福特金牛座旅行车-$ 800（东圣何塞） 3-> \ '00三菱幻影DE-$ 2499（saratoga）图片 4-> 2007 Ford Expedition EL Limited-$ 7800（x） 5->本田雅阁低里程-$ 2800（都柏林/普林斯顿/利莫莫）图片 6-> 2004本田ODASSEY LX 68K英里-$ 10800（丹维尔/圣拉蒙） 7-> 93 LINCOLN MARK-$ 2000（Oakland East）图片 8-> ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI #######-$ 19700（San Rafael）图片 9-> 2004 Audi A4 1.8T FWD-$ 8900（萨克拉门托）图片 10-> ####### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 #######-$ 10575（San Rafael）图片 11-> 1990年，丰田花冠取得了不错的成绩！节省气体！ 5速清洁！ REG 2011 O.B.O-$ 1600（Hayward / Castro Valley）图片img 12-> HONDA ACCORD EX 2000-$ 4900（都柏林/普莱森/利物浦）图片 13-> 2009 Chevy Silverado LT乘员舱-$ 23900（都柏林/普莱森顿/利莫莫）图片 14-> 2010年ura歌TSX-V6-科技-$ 29900（都柏林/普莱森顿/利物浦）图片 15-> 2003 Nissan Altima-$ 1830（SF）pic 可能的选择：机器学习文本分类器（朴素贝叶斯等）正则表达式我要弄清楚的是，RegEx对于这项工作而言是否过于复杂，而文本分类器却是一个过大的杀伤力？如果选择使用文本分类器，那么您认为最容易实现的分类是什么。在此先感谢您的帮助。