📋 ภาพรวม iBrowe บล็อกแบนเนอร์คุกกี้ตามค่าเริ่มต้นอยู่แล้ว เพื่อป้องกันป๊อปอัปที่น่ารำคาญและปกป้องความเป็นส่วนตัวของผู้ใช้ อย่างไรก็ตาม การแสดงผลแบนเนอร์คุกกี้มีความหลากหลายระหว่างเว็บไซต์ต่าง ๆ ซึ่งการจัดการด้วยตนเองอาจทำให้หน้าเว็บเสียรูปหรือมองข้ามแบนเนอร์ที่ไม่ใช่ภาษาอังกฤษได้
🍪 Cookiecrumbler เป็นเครื่องมืออัตโนมัติใหม่ของเรา ที่ใช้โมเดล LLM แบบโอเพนซอร์สในการตรวจจับแบนเนอร์คุกกี้ แนะนำกฎการบล็อกที่แม่นยำ และสามารถตรวจพบความแตกต่างตามภูมิภาคหรือภาษา เราได้เปิดโอเพนซอร์ส Cookiecrumbler แล้ว และเผยแพร่ผลการ crawl บน GitHub ในรูปของ issue เพื่อให้ชุมชนร่วมกันคัดกรอง ช่วยให้เราสามารถทำให้เว็บปลอดจากแบนเนอร์คุกกี้ในวงกว้าง โดยไม่ทำให้หน้าเว็บเสียหาย
⚠️ 1. ความท้าทายในการบล็อกแบนเนอร์คุกกี้ 1.1 ความน่ารำคาญและความเสี่ยงด้านความเป็นส่วนตัว
-
ผู้ใช้หงุดหงิด: เกือบทุกเว็บสมัยใหม่แสดงแบนเนอร์คุกกี้ในการเข้าใช้ครั้งแรก ซึ่งมักบังเนื้อหาหรือขัดจังหวะการอ่าน
-
การควบคุมการติดตามที่ไม่ได้ผล: แม้คุณจะคลิก “ปฏิเสธทั้งหมด” เฟรมเวิร์คบางตัวก็ยังโหลด tracking script อยู่เบื้องหลัง
1.2 เหตุใดกฎทั่วไปจึงไม่พอ
-
ความหลากหลายในการเขียนโค้ด: แบนเนอร์คุกกี้อาจแสดงเป็นป๊อปอัป, modal, footer คงที่ หรือ overlay โดยใช้ JavaScript, HTML หรือ CSS
-
ความแตกต่างด้านภาษาและภูมิภาค: เว็บไซต์เดียวกันอาจแสดงแบนเนอร์ต่างกันตามประเทศ เช่น ฝรั่งเศส = ภาษาฝรั่งเศส / ญี่ปุ่น = ภาษาญี่ปุ่น
-
ความเสี่ยงที่เว็บจะเสียหาย: ฟิลเตอร์ที่กว้างเกินไปอาจบล็อก <div> สำคัญหรือเนื้อหาไดนามิก
⚙️ 2. แนะนำ Cookiecrumbler 2.1 Cookiecrumbler คืออะไร 🍪 Cookiecrumbler เป็นเฟรมเวิร์คโอเพนซอร์สที่:
-
รวบรวมเว็บไซต์ยอดนิยม โดยใช้รายการ Tranco เฉพาะภูมิภาค
-
โหลดเพจด้วยเบราว์เซอร์แบบ headless จำลองการเข้าชมจากแต่ละภูมิภาค
-
ตรวจจับองค์ประกอบที่เป็นไปได้ เช่น DOM ของป๊อปอัป แถบล่าง หรือ modal
-
ใช้ LLM จำแนกและแนะนำกฎ CSS/JS
-
เผยแพร่ผลลัพธ์บน GitHub เป็น issue รายเว็บไซต์
🔍 3. วิธีการทำงานของ Cookiecrumbler 3.1 สร้างรายชื่อเว็บไซต์ตามภูมิภาค
-
สร้าง Tranco list ที่แยกตามภูมิภาค เช่น top 10,000 ในยุโรป/เอเชีย
-
โหลดเว็บผ่าน proxy ตามภูมิภาคเพื่อให้แสดงแบนเนอร์จริงตามที่ผู้ใช้จะเจอ
3.2 การ crawl แบบอัตโนมัติ
-
ตั้งเวลาให้ทำงานใน CI (เช่น ทุกวัน)
-
ใช้ Puppeteer จำลองเบราว์เซอร์และรอจนสคริปต์โหลดเสร็จ
-
สแกน DOM เพื่อดึงองค์ประกอบน่าสงสัย พร้อมเก็บภาพและข้อความ
3.3 การจำแนกด้วย LLM
-
ใช้โมเดล LLM ขนาดเล็ก เช่น LLaMA Tiny
-
ป้อน prompt เพื่อถามว่า “นี่คือแบนเนอร์คุกกี้หรือไม่?”
-
ถ้าใช่ → ดึง CSS selector มาใช้, ถ้าไม่ใช่ → ข้าม
3.4 การตรวจสอบโดยมนุษย์
-
เปิด issue บน GitHub พร้อมข้อมูลเว็บไซต์ ภูมิภาค สกรีนช็อต และกฎ
-
ผู้ดูแลตรวจสอบว่าใช่แบนเนอร์จริงหรือไม่ และปรับกฎให้เหมาะสม
🌐 4. รองรับหลายภาษาและภูมิภาค
-
รองรับการตรวจจับแบนเนอร์ GDPR แบบยุโรป (อังกฤษ เยอรมัน ฝรั่งเศส ฯลฯ)
-
แบนเนอร์จากเอเชีย (ญี่ปุ่น เกาหลี จีน ไทย)
-
และอเมริกา (โปรตุเกส บราซิล, สเปน ละติน, อังกฤษ อเมริกา)
🔨 5. การเผยแพร่บน GitHub 5.1 โพสต์เป็น Issue สาธารณะ
-
ใช้ GitHub repo: github.com/iBrowe/cookiecrumbler-issues
-
มี template พร้อม title, screenshot, region, selector และหมายเหตุจากผู้ตรวจสอบ
5.2 รวมกฎเข้า iBrowe
-
หลังอนุมัติ กฎจะถูกรวมเข้าไฟล์ filters-cookie-consent.txt
-
เผยแพร่กับเวอร์ชันใหม่ของ iBrowe ทั้ง Desktop, Android และ iOS
🔒 6. ด้านความเป็นส่วนตัว 6.1 การประมวลผลทั้งหมดเกิดฝั่งเซิร์ฟเวอร์
-
ไม่มีข้อมูลผู้ใช้ถูกส่งขึ้น
-
LLM อยู่ภายในโครงสร้างปิดของ iBrowe ไม่มีการส่ง HTML หรือภาพออกไป
6.2 มีมนุษย์ตรวจสอบเสมอ
-
ลด false positive ที่อาจลบเนื้อหาสำคัญ
-
ปรับกฎให้เหมาะสมโดยใช้ selector ที่เฉพาะเจาะจงที่สุด
📈 7. ผลลัพธ์ที่ได้
-
รายงานเว็บเสียหายลดลง
-
ครอบคลุม 97% ของเว็บไซต์ยุโรป top 10,000
-
ตรวจพบแบนเนอร์ภาษาต่าง ๆ เช่น ไทย เกาหลี รัสเซีย อาหรับ
-
ความล้มเหลวของฟิลเตอร์ลดลง 40%
🔮 8. แผนในอนาคต
-
รวมระบบตรวจจับไว้ในเบราว์เซอร์ iBrowe
-
ใช้ AI แนะนำ scriptlet แทน CSS เฉย ๆ
-
ขยายไปยัง modal อื่น ๆ เช่น ป๊อปอัปแจ้งเตือนอายุ, วิดีโอเล่นอัตโนมัติ
🎉 9. สรุป Cookiecrumbler คือการพัฒนาอย่างก้าวกระโดดในการบล็อกแบนเนอร์คุกกี้ ด้วยการผสาน LLM, การ crawl อัตโนมัติ, และชุมชนผู้ร่วมตรวจสอบ เราช่วยให้เว็บ สะอาด ปลอดภัย และไม่รบกวนผู้ใช้ โดยไม่ทำให้เว็บไซต์เสีย
ร่วมกันเปลี่ยนเว็บให้ดีขึ้นทีละ “crumb” 🍪🚀