Completed

Extrair dados da Wikipédia

Published on the May 25, 2016 in IT & Programming

About this project

Open

Tenho algumas landingpages com informações de mercado, e como são várias cidades gostaria, de citando a fonte Wikipédia, extrair alguns dados selecionados da página deles, para servir como complemento de informações.

O padrão da url da wikpédia é:
https://pt.wikipedia.org/wiki/Cidade
Exemplo:
https://pt.wikipedia.org/wiki/Caxias_do_Sul
https://pt.wikipedia.org/wiki/Campinas
https://pt.wikipedia.org/wiki/Salvador

O nome da cidade deverá ser carregado na url, ou seja, completando a url https://pt.wikipedia.org/wiki/ com o nome da cidade.

Cada página já carrega a variável $city para poder servir de complemento da url.

Tenho um pré-script que captura a página toda:

"<?php
    // post_id_1982786
    $url = file_get_contents('https://pt.wikipedia.org/wiki/Caxias_do_Sul');
    echo $url;
?>"

Mas além de vir mais dados do que eu gostaria fica tudo desordeando.
O que eu preciso é extrair das páginas da tag:
<div id="bodyContent" class="mw-body-content">

Até a tag h2, exceto ela:
<h2 style="cursor: help;" title="Esta seção foi configurada para não ser editável diretamente. Edite a página toda ou a seção anterior em vez disso."><Span class="mw-headline" id="Refer.C3.AAncias">Referências</span></h2>

Deverá seguir também o padrão do site.

Fornecerei o CSS do meu site,

O script deverá ser fornecido em PHP5.

Category IT & Programming
Subcategory Web development
Is this a project or a position? Project
I currently have I have the design
Required availability As needed
Experience in this type of projects Yes (I have managed this kind of project before)
Roles needed Designer, Developer, Design a landing page

Delivery term: Not specified

Skills needed