Semalt: An Treoir Scraping HTML - Leideanna Barr

Tá an t-ábhar gréasáin den chuid is mó i bhformáidí struchtúrtha nó HTML. Eagraítear gach leathanach ar a bhealach uathúil ag brath ar an gcineál ábhair atá ann. Más mian le duine faisnéis gréasáin a bhaint, is é mian gach duine na sonraí a fháil ar bhealach struchtúrtha agus dea-eagraithe. Cuideoidh sé seo leis an am a theastaíonn chun an doiciméad a athbhreithniú, a anailísiú agus a eagrú sula ndéantar é a roinnt. Mar sin féin, níl sé éasca an fhormáid struchtúrtha a fháil ós rud é nach dtugann an chuid is mó de láithreáin ghréasáin an rogha sin chun cosc a chur ar dhaoine méideanna móra sonraí a bhaint. Soláthraíonn roinnt suíomhanna, áfach, na APIanna a sholáthraíonn rogha eastóscadh faisnéise do dhaoine i bpróiseas tapa éasca.

In imeachtaí den sórt sin, ní bheidh aon rogha agat ach cabhair ó ríomhchlárú bogearraí ar a dtugtar scrapáil a úsáid. Is cur chuige é a úsáideann clár ríomhaire a chuidíonn le húsáideoirí faisnéis a bhailiú i bhformáid úsáideach agus struchtúr na sonraí a chaomhnú.

Lxml agus Iarratas

Is leabharlann leathan scrapála í seo a chuidíonn le XML agus HTML a anailísiú agus a mheas go tapa agus a chabhraíonn le ham a shábháil. Tá sé ina chuidiú freisin chun déileáil le clibeanna praiseach sa phróiseas anailíse. Sa nós imeachta seo, úsáideann tú iarratais Lxml seachas an urllib2 ionsuite ós rud é go bhfuil sé níos tapa, láidir agus ar fáil go héasca. Is furasta é a shuiteáil trí iarratais ar shuiteáil píopaí Lxml agus pip a úsáid.

Le haghaidh scrapáil HTML lean na céimeanna seo

Tosaigh le hallmhairí - anseo iompórtálann tú HTML ó Lxml, ansin iarratas ar allmhairí. Úsáid iarratas agus ansin rianaigh an leathanach gréasáin ina bhfuil na sonraí a theastaíonn uait a bhaint, déan anailís orthu de réir modúil HTML agus ansin sábháil na sonraí parsáilte sa chrann.

Beidh ort ábhar an leathanaigh a úsáid seachas téacs ós rud é go bhfuil súil ag HTML go bhfaighidh sé an t-ionchur i mbearta. Sa chrann, inar stóráil tú do chuid sonraí anailíse tá an doiciméad HTML anois i struchtúr crainn. Is féidir leat dul thar struchtúr na gcrann i gcur chuige éagsúla, an XPath agus CSSelect.

Cuidíonn XPath leat faisnéis a aisghabháil nó í a fháil i bhformáid struchtúrtha mar HTML nó XML. Tá bealaí éagsúla ann inar féidir leat na heilimintí XPath a fháil. Ina measc seo tá Firebug do Firefox nó Cigire Chrome. Agus Chrome á úsáid agat, tá sé furasta faisnéis a iniúchadh ós rud é nach gá duit ach cliceáil ar dheis ar an eilimint a éilíonn iniúchadh, roghnaigh ‘Inspect element,’ aibhsigh an cód a chuirtear ar fáil agus ansin cliceáil ar dheis agus roghnaigh cóip XPath. Cuideoidh an próiseas seo leat a fháil amach cé na heilimintí atá ar do leathanach agus uaidh sin, is furasta an cheist cheart XPath a chruthú agus an Lxml XPath a chur i bhfeidhm i gceart.

Trí dul trí na céimeanna seo cinntítear go ndearna tú na sonraí go léir a theastaigh uait a bhaint as gréasáin áirithe a scriosadh trí Lxml agus Iarrataí a úsáid. Beidh an fhaisnéis stóráilte agat i gcuimhne dhá liosta, agus anois tá sí réidh le sórtáil. Is féidir leat anailís a dhéanamh air trí theanga cláir mar Python a úsáid nó é a shábháil agus a roinnt. Chomh maith leis sin, b’fhéidir gur mhaith leat roinnt codanna den fhaisnéis a athscríobh nó a chur in eagar sula roinntear í.