Python Uygulamaları – 1 – BeatifulSoup ile Web Scraping

Bu yazıda Python BeatifulSoup modülü ile bir websitesinin html kodlarını kullanarak verileri kendi uygulamam üzerinde nasıl kullandığımı küçük bir uygulama ile göstermek istiyorum.

Bu programı yazabilmek için “requests” ve “BeatifulSoup” modüllerini kullanacağım.

Mynet.com sitesinin anasayfasında yer alan 20 adet haberin ismini, tarihini ve linkini bu program sayesinde alabilmiş olacağız.

##Bu kısımda kullanacağım modülleri import ettim.
import requests
from bs4 import BeautifulSoup
from datetime import datetime


##Kullanacağım url'yi bir değişkene tanımladım.
url = "https://www.mynet.com/"

##Bu kısımda url'nin içeriğini aldım ve BeatifulSoup modülünü kullanacağım biçime getirdim.
icerik = requests.get(url).content
soup = BeautifulSoup(icerik,"html.parser")

##Haberlerin içeriğinin olduğu kısmı bütün html kodu içerisinden bu kod ile ayıkladım.
list = soup.find("body").find("div",{"class":"my-wrap"}).find_all("ul",{"class":"box-news-item row"})[1].find_all("li")


##Bu kısımda ise ayıkladığım kod içerisinden haber tarihi, başlığını ve linkini çekip ekrana yazdırdım.
count = 1
for li in list:
    zaman = li.attrs["data-pli-created"]
    zaman = datetime.fromtimestamp(int(zaman))
    haber = li.find("a").attrs["title"]
    link = li.find("a").attrs["href"]
    print(str(count).ljust(2) , str(haber).ljust(100),"Haber Saati: ", zaman, "/ Haber linki: " , link )
    count +=1

Program Çıktısı:

BeatifulSoup modülü ile bu şekilde herhangi bir web sitesinin html kodu içerisinden istenilen bilgi ayıklanarak kullanılabilir hale getiriliyor.

Leave a comment

Design a site like this with WordPress.com
Get started