📋 ภาพรวม iBrowe บล็อกแบนเนอร์คุกกี้ตามค่าเริ่มต้นอยู่แล้ว เพื่อป้องกันป๊อปอัปที่น่ารำคาญและปกป้องความเป็นส่วนตัวของผู้ใช้ อย่างไรก็ตาม การแสดงผลแบนเนอร์คุกกี้มีความหลากหลายระหว่างเว็บไซต์ต่าง ๆ ซึ่งการจัดการด้วยตนเองอาจทำให้หน้าเว็บเสียรูปหรือมองข้ามแบนเนอร์ที่ไม่ใช่ภาษาอังกฤษได้

🍪 Cookiecrumbler เป็นเครื่องมืออัตโนมัติใหม่ของเรา ที่ใช้โมเดล LLM แบบโอเพนซอร์สในการตรวจจับแบนเนอร์คุกกี้ แนะนำกฎการบล็อกที่แม่นยำ และสามารถตรวจพบความแตกต่างตามภูมิภาคหรือภาษา เราได้เปิดโอเพนซอร์ส Cookiecrumbler แล้ว และเผยแพร่ผลการ crawl บน GitHub ในรูปของ issue เพื่อให้ชุมชนร่วมกันคัดกรอง ช่วยให้เราสามารถทำให้เว็บปลอดจากแบนเนอร์คุกกี้ในวงกว้าง โดยไม่ทำให้หน้าเว็บเสียหาย

⚠️ 1. ความท้าทายในการบล็อกแบนเนอร์คุกกี้ 1.1 ความน่ารำคาญและความเสี่ยงด้านความเป็นส่วนตัว

  • ผู้ใช้หงุดหงิด: เกือบทุกเว็บสมัยใหม่แสดงแบนเนอร์คุกกี้ในการเข้าใช้ครั้งแรก ซึ่งมักบังเนื้อหาหรือขัดจังหวะการอ่าน

  • การควบคุมการติดตามที่ไม่ได้ผล: แม้คุณจะคลิก “ปฏิเสธทั้งหมด” เฟรมเวิร์คบางตัวก็ยังโหลด tracking script อยู่เบื้องหลัง

1.2 เหตุใดกฎทั่วไปจึงไม่พอ

  • ความหลากหลายในการเขียนโค้ด: แบนเนอร์คุกกี้อาจแสดงเป็นป๊อปอัป, modal, footer คงที่ หรือ overlay โดยใช้ JavaScript, HTML หรือ CSS

  • ความแตกต่างด้านภาษาและภูมิภาค: เว็บไซต์เดียวกันอาจแสดงแบนเนอร์ต่างกันตามประเทศ เช่น ฝรั่งเศส = ภาษาฝรั่งเศส / ญี่ปุ่น = ภาษาญี่ปุ่น

  • ความเสี่ยงที่เว็บจะเสียหาย: ฟิลเตอร์ที่กว้างเกินไปอาจบล็อก <div> สำคัญหรือเนื้อหาไดนามิก

⚙️ 2. แนะนำ Cookiecrumbler 2.1 Cookiecrumbler คืออะไร 🍪 Cookiecrumbler เป็นเฟรมเวิร์คโอเพนซอร์สที่:

  • รวบรวมเว็บไซต์ยอดนิยม โดยใช้รายการ Tranco เฉพาะภูมิภาค

  • โหลดเพจด้วยเบราว์เซอร์แบบ headless จำลองการเข้าชมจากแต่ละภูมิภาค

  • ตรวจจับองค์ประกอบที่เป็นไปได้ เช่น DOM ของป๊อปอัป แถบล่าง หรือ modal

  • ใช้ LLM จำแนกและแนะนำกฎ CSS/JS

  • เผยแพร่ผลลัพธ์บน GitHub เป็น issue รายเว็บไซต์

🔍 3. วิธีการทำงานของ Cookiecrumbler 3.1 สร้างรายชื่อเว็บไซต์ตามภูมิภาค

  • สร้าง Tranco list ที่แยกตามภูมิภาค เช่น top 10,000 ในยุโรป/เอเชีย

  • โหลดเว็บผ่าน proxy ตามภูมิภาคเพื่อให้แสดงแบนเนอร์จริงตามที่ผู้ใช้จะเจอ

3.2 การ crawl แบบอัตโนมัติ

  • ตั้งเวลาให้ทำงานใน CI (เช่น ทุกวัน)

  • ใช้ Puppeteer จำลองเบราว์เซอร์และรอจนสคริปต์โหลดเสร็จ

  • สแกน DOM เพื่อดึงองค์ประกอบน่าสงสัย พร้อมเก็บภาพและข้อความ

3.3 การจำแนกด้วย LLM

  • ใช้โมเดล LLM ขนาดเล็ก เช่น LLaMA Tiny

  • ป้อน prompt เพื่อถามว่า “นี่คือแบนเนอร์คุกกี้หรือไม่?”

  • ถ้าใช่ → ดึง CSS selector มาใช้, ถ้าไม่ใช่ → ข้าม

3.4 การตรวจสอบโดยมนุษย์

  • เปิด issue บน GitHub พร้อมข้อมูลเว็บไซต์ ภูมิภาค สกรีนช็อต และกฎ

  • ผู้ดูแลตรวจสอบว่าใช่แบนเนอร์จริงหรือไม่ และปรับกฎให้เหมาะสม

🌐 4. รองรับหลายภาษาและภูมิภาค

  • รองรับการตรวจจับแบนเนอร์ GDPR แบบยุโรป (อังกฤษ เยอรมัน ฝรั่งเศส ฯลฯ)

  • แบนเนอร์จากเอเชีย (ญี่ปุ่น เกาหลี จีน ไทย)

  • และอเมริกา (โปรตุเกส บราซิล, สเปน ละติน, อังกฤษ อเมริกา)

🔨 5. การเผยแพร่บน GitHub 5.1 โพสต์เป็น Issue สาธารณะ

  • ใช้ GitHub repo: github.com/iBrowe/cookiecrumbler-issues

  • มี template พร้อม title, screenshot, region, selector และหมายเหตุจากผู้ตรวจสอบ

5.2 รวมกฎเข้า iBrowe

  • หลังอนุมัติ กฎจะถูกรวมเข้าไฟล์ filters-cookie-consent.txt

  • เผยแพร่กับเวอร์ชันใหม่ของ iBrowe ทั้ง Desktop, Android และ iOS

🔒 6. ด้านความเป็นส่วนตัว 6.1 การประมวลผลทั้งหมดเกิดฝั่งเซิร์ฟเวอร์

  • ไม่มีข้อมูลผู้ใช้ถูกส่งขึ้น

  • LLM อยู่ภายในโครงสร้างปิดของ iBrowe ไม่มีการส่ง HTML หรือภาพออกไป

6.2 มีมนุษย์ตรวจสอบเสมอ

  • ลด false positive ที่อาจลบเนื้อหาสำคัญ

  • ปรับกฎให้เหมาะสมโดยใช้ selector ที่เฉพาะเจาะจงที่สุด

📈 7. ผลลัพธ์ที่ได้

  • รายงานเว็บเสียหายลดลง

  • ครอบคลุม 97% ของเว็บไซต์ยุโรป top 10,000

  • ตรวจพบแบนเนอร์ภาษาต่าง ๆ เช่น ไทย เกาหลี รัสเซีย อาหรับ

  • ความล้มเหลวของฟิลเตอร์ลดลง 40%

🔮 8. แผนในอนาคต

  • รวมระบบตรวจจับไว้ในเบราว์เซอร์ iBrowe

  • ใช้ AI แนะนำ scriptlet แทน CSS เฉย ๆ

  • ขยายไปยัง modal อื่น ๆ เช่น ป๊อปอัปแจ้งเตือนอายุ, วิดีโอเล่นอัตโนมัติ

🎉 9. สรุป Cookiecrumbler คือการพัฒนาอย่างก้าวกระโดดในการบล็อกแบนเนอร์คุกกี้ ด้วยการผสาน LLM, การ crawl อัตโนมัติ, และชุมชนผู้ร่วมตรวจสอบ เราช่วยให้เว็บ สะอาด ปลอดภัย และไม่รบกวนผู้ใช้ โดยไม่ทำให้เว็บไซต์เสีย

ร่วมกันเปลี่ยนเว็บให้ดีขึ้นทีละ “crumb” 🍪🚀