Semalt: មគ្គុទេសក៍ Scraping HTML - ការណែនាំកំពូល

មាតិកាគេហទំព័រភាគច្រើនមានទម្រង់ជារចនាសម្ព័ន្ធឬ HTML ។ ទំព័រនីមួយៗត្រូវបានរៀបចំតាមរបៀបប្លែករបស់វាអាស្រ័យលើប្រភេទមាតិកានៅក្នុងវា។ ប្រសិនបើនរណាម្នាក់ចង់ដកស្រង់ព័ត៌មានគេហទំព័រវាជាបំណងប្រាថ្នារបស់មនុស្សម្នាក់ៗដើម្បីទទួលបានទិន្នន័យតាមរបៀបដែលមានរចនាសម្ព័ន្ធនិងរៀបចំឱ្យបានល្អ។ នេះនឹងជួយក្នុងការសន្សំសំចៃពេលវេលាដែលត្រូវការសម្រាប់ការពិនិត្យវិភាគនិងរៀបចំឯកសារមុនពេលចែករំលែក។ ទោះយ៉ាងណាក៏ដោយការទទួលបានទ្រង់ទ្រាយដែលមានរចនាសម្ព័ន្ធមិនងាយស្រួលទេពីព្រោះគេហទំព័រភាគច្រើនមិនផ្តល់ជម្រើសនោះដើម្បីរារាំងមនុស្សពីការដកស្រង់ទិន្នន័យដ៏ច្រើន។ ទោះយ៉ាងណាគេហទំព័រខ្លះផ្តល់នូវ APIs ដែលផ្តល់ជម្រើសដល់ប្រជាជនក្នុងការទាញយកព័ត៌មាននៅក្នុងដំណើរការលឿននិងងាយស្រួល។

នៅក្នុងព្រឹត្តិការណ៍បែបនេះអ្នកនឹងមិនមានជំរើសក្រៅពីប្រើជំនួយពីកម្មវិធីសូហ្វវែរដែលត្រូវបានគេស្គាល់ថាជាការបោកប្រាស់។ វាជាវិធីសាស្រ្តមួយដែលប្រើកម្មវិធីកុំព្យូទ័រជួយអ្នកប្រើប្រាស់ក្នុងការប្រមូលព័ត៌មានតាមទំរង់ដែលមានប្រយោជន៍និងថែរក្សារចនាសម្ព័ន្ធទិន្នន័យ។

Lxml និងស្នើសុំ

នេះគឺជាបណ្ណាល័យដែលមានទំហំធំទូលាយដែលអាចជួយក្នុងការវិភាគនិងវាយតម្លៃ XML និង HTML យ៉ាងឆាប់រហ័សនិងជួយសន្សំសំចៃពេលវេលា។ វាក៏មានប្រយោជន៍ផងដែរក្នុងការទាក់ទងជាមួយស្លាកដែលរញ៉េរញ៉ៃនៅក្នុងដំណើរការវិភាគ។ នៅក្នុងនីតិវិធីនេះអ្នកប្រើសំណើ Lxml ជាជាង urlib2 ដែលបានបង្កើតព្រោះវាលឿនជាងមុនរឹងមាំនិងអាចរកបាន។ វាងាយស្រួលតំឡើងវាដោយប្រើ pip install Lxml និងស្នើសុំដំឡើង pip ។

សម្រាប់ការកោស HTML ធ្វើតាមជំហានទាំងនេះ

ចាប់ផ្តើមដោយការនាំចូល - នៅទីនេះអ្នកនាំចូល HTML ពី Lxml បន្ទាប់មកនាំចូលសំណើ។ ប្រើសំណើរហើយបន្ទាប់មកតាមដានទំព័រវែបដែលមានទិន្នន័យដែលអ្នកចង់ស្រង់ចេញវិភាគដោយម៉ូឌុល HTML ហើយបន្ទាប់មករក្សាទុកទិន្នន័យដែលបានញែកជាមែកធាង។

អ្នកត្រូវប្រើមាតិកាទំព័រជាជាងអត្ថបទព្រោះថា HTML រំពឹងថានឹងទទួលបានការបញ្ចូលជាបៃ។ មែកធាងដែលអ្នករក្សាទុកទិន្នន័យវិភាគរបស់អ្នកឥឡូវនេះមានឯកសារ HTML នៅក្នុងរចនាសម្ព័ន្ធមែកធាង។ អ្នកអាចមើលរចនាសម្ព័នមែកធាងតាមវិធីផ្សេងគ្នាគឺ XPath និង CSSelect ។

XPath ជួយអ្នកឱ្យយកព័ត៌មានឬទទួលបានវាតាមទំរង់ដែលមានរចនាសម្ព័ន្ធដូចជា HTML ឬ XML ។ មានវិធីជាច្រើនដែលអ្នកអាចទទួលបានធាតុ XPath ។ ទាំងនេះរួមបញ្ចូល Firebug សម្រាប់ Firefox ឬអធិការ Chrome ។ នៅពេលប្រើ Chrome ការត្រួតពិនិត្យព័ត៌មានគឺងាយស្រួលព្រោះអ្នកគ្រាន់តែចុច 'ស្តាំ' លើធាតុដែលទាមទារការត្រួតពិនិត្យជ្រើសរើស 'ធាតុត្រួតពិនិត្យ' បន្លិចលេខកូដដែលបានផ្តល់ហើយបន្ទាប់មកចុចកណ្តុរខាងស្តាំហើយជ្រើសរើសយកច្បាប់ចម្លង XPath ។ ដំណើរការនេះនឹងជួយអ្នកឱ្យដឹងថាតើធាតុអ្វីខ្លះដែលមាននៅក្នុងទំព័ររបស់អ្នកនិងពីទីនោះវាងាយស្រួលក្នុងការបង្កើតសំណួរ XPath ត្រឹមត្រូវហើយអនុវត្ត Lxml XPath ត្រឹមត្រូវ។

ឆ្លងកាត់ជំហានទាំងនេះធានាថាអ្នកបានលុបចោលទិន្នន័យទាំងអស់ដែលអ្នកចង់ស្រង់ចេញពីគេហទំព័រជាក់លាក់មួយដោយប្រើ Lxml និងសំណើ។ អ្នកនឹងមានព័ត៌មានដែលបានរក្សាទុកនៅក្នុងសតិបញ្ជីពីរហើយឥឡូវនេះវារួចរាល់សម្រាប់ការតម្រៀប។ អ្នកអាចវិភាគវាដោយប្រើភាសាសរសេរកម្មវិធីដូចជា Python ឬរក្សាទុកវាហើយចែករំលែកវា។ អ្នកក៏ប្រហែលជាចង់សរសេរឡើងវិញឬកែសម្រួលផ្នែកខ្លះនៃព័ត៌មានមុនពេលចែកចាយវា។

mass gmail