Veb Kağız Xüsusiyyətləri - Semalt Ekspert

Veb kazıyıcı, veb səhifələrdən məlumat çıxarmaq məqsədi daşıyan bir Chrome brauzer uzantısıdır. Bu uzantı ilə bir saytın gedişini və ondan məlumat çıxarmağın ən uyğun yolunu göstərən bir xəritə xəritəsi və ya plan yarada bilərsiniz.

Sayt xəritənizdən sonra Web Scraper, səhifədən sonra mənbə sayt səhifəsində gedəcək və lazımi məzmunu qıracaqdır. Çıxarılan məlumatlar CSV və ya digər format şəklində ixrac edilə bilər. Bundan əlavə, bu uzantı heç bir problem olmadan Chrome Mağazasından quraşdırıla bilər.

Web Scraper-in bəzi xüsusiyyətləri aşağıda verilmişdir

  • Çox səhifəni qırmaq bacarığı

Alət, sayt xəritəsində nəzərdə tutulmuşdursa, eyni zamanda bir neçə veb səhifədən məlumat çıxarmaq qabiliyyətinə malikdir. Bütün şəkilləri 100 səhifəlik veb saytdan çıxarmaq lazımdırsa, səhifələrin hər birini yoxlamaq və hansı şəkillərin ehtiva etdiyini və kiminin olmayanlarını bilmək üçün vaxt tələb edə bilər. Beləliklə, hər səhifəni şəkillər üçün yoxlamaq üçün vasitəyə göstəriş verə bilərsiniz.

  • Alət məlumatları CouchDB və ya brauzerin yerli yaddaşında saxlayır
  • Alət sayt xəritələrini və çıxarılan məlumatları ya brauzerin, həm də CouchDB-nin yerli yaddaşında saxlayır
  • Çox sayda məlumat çıxara bilər

Alət çox sayda məlumatla işləyə bildiyindən istifadəçilər eyni səhifədəki çıxarış üçün çox sayda məlumat seçə bilərlər. Məsələn, eyni zamanda veb səhifələrdən həm şəkilləri, həm də mətnləri qıra bilər

  • Dinamik səhifələrdən skrape məlumatları

Web Scraper o qədər güclüdür ki, hətta Ajax və JavaScript kimi dinamik səhifələrdən məlumatları silə bilər

  • Çıxarılan məlumatları görmək imkanı

Alət istifadəçilərə təyin olunmuş yerdə qeyd edilməmişdən əvvəl qırılmış məlumatları nəzərdən keçirməyə imkan verir

  • Çıxarılan məlumatları CSV olaraq ixrac edir

Web Scraper çıxarılan məlumatları standart olaraq CSV kimi ixrac edir, eyni zamanda digər formatlarda da ixrac edə bilər.

  • İxrac və idxal xəritələri

Alət tələb xəritələrə görə xəritələri idxal və ixrac edə bilməsi üçün sayt xəritələrini dəfələrlə istifadə etməlisiniz.

  • Yalnız Chrome brauzerindən asılıdır

Təəssüf ki, bu bir üstünlük olan bir çatışmazlıqdır. Yalnız Chrome brauzeri ilə işləyir.

Digər məlumatların qırılması vasitələri

Bəzi sadə məlumat kəsmə vasitələri var ki, bunlar sizin üçün də faydalı ola bilər. Onlardan bəziləri aşağıda verilmişdir.

1. Qırıntı

Bu çərçivə veb saytınızdakı bütün məzmunu qırmaq üçün istifadə edilə bilər. Məzmun qırıntısı onun yeganə funksiyası deyil. Bundan əlavə, avtomatlaşdırılmış sınaq, monitorinq, məlumatların çıxarılması, veb tarama, ekran qırılması və bir çox digər məqsədlər üçün də istifadə edilə bilər.

2. Wget

Ayrıca bir veb saytı asanlıqla qırmaq üçün Wget istifadə edə bilərsiniz. Ancaq bu vasitə ilə bir az çatışmazlıq var, CSS fayllarını təhlil edə bilmir.

3. Ayrıca veb saytınızdakı məzmunu ayrı yerə çəkmədən qırmaq üçün aşağıdakı əmrdən istifadə edə bilərsiniz:

file_put_contents ('/ some / directory / scrape_content.html', file_get_contents ('http://google.com'));