Hallo, ich bin wieder da.
Also ich habe das html Modul ausprobiert, bekomme aber das gleiche Problem. HTML Code:
Code: Alles auswählen
<a href="/unwantedtext/bar">
<tbody>
<tr class='whocares'
<td class="datatable-item-first" style="max-width: 120px; overflow: hidden;">
<a href="/foo/bar">
<b>foobar</b>
</a>
</td>
....
<td class="datatable-item-first" style="max-width: 120px; overflow: hidden;">
<a href="/something/bar">
<b>foobar</b>
</a>
</td>
<td class="datatable-item-first" style="max-width: 120px; overflow: hidden;">
<a href="/foo/bar">
<b>foobar</b>
</a>
</td>
....
</tr>
</tbody>
....
....
....
<a style="" href='/foo/bar' >Unnötige Info </a><br />
und ich habe erfolgreich die relevante Infos herausgezogen mit:
Code: Alles auswählen
list = tree.xpath('.//a[contains(@href,"/bar") and not(.//@style) and not (contains(@href, "unwantedtext"))]/@href')
aber wieder bekomme ich statt:
Code: Alles auswählen
print(list)
# ['/foo/bar', '/something/bar', '/foo/bar']
das: