PHP Simple HTML DOM Parser से किसी भी एचटीएमएल दस्तावेज की करें चीर फाड़

Ankur Gupta
Ankur Guptahttps://antarjaal.in
पेशे से वेब डेवेलपर, पिछले १० से अधिक वर्षों का वेबसाइटें और वेब एप्लिकेशनों के निर्माण का अनुभव। वर्तमान में ईपेपर सीएमएस क्लाउड (सॉफ्टवेयर एज सर्विस आधारित उत्पाद) का विकास और संचालन कर रहे हैं। कम्प्यूटर और तकनीक के विषय में खास रुचि। लम्बे समय तक ब्लॉगर प्लेटफॉर्म पर लिखते रहे. फिर अपना खुद का पोर्टल आरम्भ किया जो की अन्तर्जाल डॉट इन के रूप में आपके सामने है.

यदि आप वेब स्क्रैपिंग का काम करते हैं तो पीएचपी की यह क्लास आपके काफी काम की हो सकती है। नाम है सिम्पल एचटीएमएल डॉम पार्सर। इसके जरिए आप किसी भी एचटीएमएल दस्तावेज के किसी भी टैग की सामग्री उसके एट्रीब्यूट आदि को छांट सकते हैं वो भी साधारण सीएसएस सेलेक्टरों जैसे #id, .class, tag आदि के जरिए।

उदाहरण के लिए यदि हम किसी पन्ने से सारी छवियों को निकालना चाहें तो कुछ इस प्रकार कोड लिखना होगा:

// Create DOM from URL or file
 $html = file_get_html('http://www.google.com/');

 // Find all images 
 foreach($html->find('img') as $element) 
        echo $element->src . '<br>';

डाउनलोड का पता है : http://simplehtmldom.sourceforge.net/

1 टिप्पणी

More Articles Like This

Exit mobile version