HTML 本身是一种 XML 格式的扩展,通常我们使用 parsel 等库进行解析, 使用 XPATH 或者 CSS Selector 提取数据。
from parsel import Selectorif res_hp_list.status ==200: s = Selector(text=res_hp_list.data.decode()) hp_list = s.xpath('//div[@class="shop_list shop_list_4"]/dl/dd/h4/a/span/text()')print([x.get().strip() for x in hp_list[:5]])