We are consulting about Open source Statistic program.

If you want to use or analyze statistic ,Data Mining and Statistic process control (cp cpk). You know you can use OpenStat ,R programing ,Rattle or Weka ... Wow its freely. You may not familiar with these So I'll be a consulting or trainer for using these program..


E-mail : amto15@hotmail.com
Mobile: +66 97766-306

วันอาทิตย์ที่ 3 เมษายน พ.ศ. 2554

Neural Networks คือ?

เป็นแนวคิดที่เทียบเคียงกันระหว่างโครงสร้างข้อมูล กับการเรียนรู้ของระบบประสาทในสมอง

สมองมนุษย์มีเซลล์ประสาทจำนวนมาก ที่รับสัญญาณกระตุ้นแล้วตัดสินใจส่งสัญญาณแปรผลออกไป คล้ายๆ กับมามองดูว่าลักษณะเชิงประชากรศาสตร์ของลูกค้าเป็นแบบใด ก็จะมี model มาตัดสินใจให้ทราบว่า สินค้าที่ต้องการซื้อคืออะไร....

ข้อดี

  • การทำนายให้ผลแม่นยำกว่าวิธีทั่วไป
  • Model ที่ได้ยังคงใช้ได้ดี แม้ว่าข้อมูลที่ใช้มี error อยู่ด้วย
  • ผลลัพธ์ที่ต้องการเป็นได้ทั้ง ค่าต่อเนื่องหรือค่าไม่ต่อเนื่องก็ได้
  • การหาผลลัพธ์ทำได้รวดเร็ว หลังจากผ่านกรรมวิธีการเรียนรู้แล้ว

ข้อเสีย

  • ใช้เวลา training นาน (หาค่าถ่วงน้ำหนักที่ดีที่สุดในการเรียนรู้)
  • ยากที่จะทำความเข้าใจเกี่ยวกับการเลือกพารามิเตอร์ที่เหมาะสม (best topology)
  • ยากที่จะทำความเข้าใจเกี่ยวกับ learned function



Classification คือ?

วัตถุประสงค์ของ classification คือการสร้างโมเดล เพื่อสรุปข้อมูล และข้อค้นพบที่ได้มักเป็นข้อมูลที่ไม่เคยเห็นมาก่อน

Classification เป็นการเรียนรู้แบบ supervised

  • นอกจาก decision tree แล้วยังมี neural networks ; logistic regression : support vector machines เป็นประเภทเดียวกัน
  • สิ่งที่ได้ของ decision tree คือ flow-chart
  • มี node จุดยอดภายใน แทนลักษณะประจำที่ไม่ใช่ class
  • มีกิ่งก้านแทนผลลัพธ์ของการทดสอบ
  • และใบแทน class labels หรือ class distribution

ข้อสรุปของ Classification

  • เป็นวิธีการแยกข้อมูลออกเป็นกลุ่มตามลักษณะประจำเป้าหมาย หรือ class โดยมากใช้กับลักษณะประจำที่มีค่าไม่ต่อเนื่อง
  • ผลลัพธ์ที่ได้คือ ตัวแบบ classifier เพื่อนำไปใช้แยกประเภทของระเบียนข้อมูล ที่ไม่ทราบ class

Association Rule คือ?

การทำเหมืองข้อมูลแบบกฎเชื่อมโยง คือ การหารูปแบบที่เกิดบ่อย (frequent pattern) ความเชื่อมโยงที่เกิดขึ้น (association) หรือสหสัมพันธ์ (correlation) ของกลุ่ม item จากข้อมูลที่อยู่ในรูป transaction

นำไปใช้กับ

การวิเคราะห์ตะกร้าการซื้อ (Market basket analysis) การทำตลาดข้ามสายผลิตภัณฑ์ (cross-marketing) การวางรูปแบบและออกแบบ catalog การทำรายการส่งเสริมการขาย การวางแผนผังภายในร้าน เป็นต้น


คำถามของนักการตลาดในเรื่อง Association Rule.

  • ผู้ซื้อปฏิเสธหรือยอมรับการพยายามขายสินค้าต่างลักษณะหรือไม่?
  • สินค้าใดที่ปรากฎร่วมกันบ่อยในหนึ่งใบเสร็จ?
  • สินค้าใดที่ปรากฎร่วมกันบ่อยในกลุ่มสินค้าที่กำหนด?
  • อะไรคือสินค้าที่พบว่าถูกขายบ่อยให้กับลูกค้าที่มารับบริการซ้ำๆ ?
  • ลักษณะการขายของสินค้ามีการเปลี่ยนไปตามเวลาหรือไม่?
  • ลักษณะการขายของสินค้ามีการเปลี่ยนไปตามที่อยู่ของลูกค้าหรือไม่ อย่างไร?


สรุป Associate rule

  • Associate rule คือจุดเริ่มต้นการเกิดขึ้นของ data mining algorithm!
  • ปรากฎในหมู่ของนักวิจัย KDD และมีการนำเสนองานส่วนนี้จำนวนมากที่สุด
  • มีประโยชน์ในการหาความเชื่อมโยง บอกพฤติกรรมที่มีค่า ในฐานข้อมูลลูกค้าขนาดใหญ่
  • ปกติใช้กับฐานข้อมูลเชิงสัมพันธ์ที่บันทึกเป็น Transaction โดยที่แต่ละระเบียนคือการซื้อสินค้าในหนึ่งครั้ง
  • ผลลัพธ์ที่ได้คือกฎ กฎแสดงความสัมพันธ์ของการซื้อสินค้าต่างชนิดกันโดยไม่ขึ้นกับลูกค้าคนใดคนหนึ่ง


Clustering คือ?


โลกของเรามักจะแบ่งกลุ่มไว้ในธรรมชาติ อยู่ที่เราจะมองออกหรือไม่?

ถ้ามองไม่ออกเราก็สามารถใช้โปรแกรมด้าน Data mining เข้าช่วย

Cluster : คือการหาวิธีการแบ่งข้อมูลออกเป็นกลุ่มตามลักษณะประจำที่มีของแต่ละระเบียน โดยไม่มีลักษณะกลุ่ม แต่ใช้ระยะในการบ่งบอกความคล้ายและความแตกต่างของระเบียน


สามารถนำมาประยุกต์ใช้ในวงการต่างๆ ได้มากมาย


สามารถนำมาประยุกต์ใช้ในวงการต่างๆ ได้มากมาย

ในโลกความเป็นจริงเรานิยามแบ่งกลุ่มคนเป็น {คนชั่ว-คนดี} {คนรวย-คนจน}

ในทางธุรกิจเราแบ่งกลุ่มลูกค้าเป็น {คนที่ซื้อ-คนที่ไม่ซื้อ} {พึงพอใจ-ไม่พึงพอใจ}

อื่น ๆ เช่น {เครดิตดี-เครดิตแย่} {โกง-ไม่โกง} {เลือกพรรค ก.-เลือกพรรค ข.} เป็นต้น


ตัวอย่างการประยุกต์ใช้ เช่น

ด้านการตลาด : clustering สามารถช่วยนักการตลาดค้นพบกลุ่มของลูกค้าใหม่ๆ แล้วนำความรู้นี้ไปพัฒนาสินค้ามาตอบสนองให้ตรงตามกลุ่ม อาจจะมองในแง่ของการบริหาร คือ จัดหน่วยงานขึ้นมาบริการกลุ่มลูกค้าแต่ละกลุ่ม ได้อย่างโดนใจก็ได้

ด้านประกันภัย : clustering ช่วยระบุกลุ่มของผู้ถือกรมธรรม์ที่มีความเสี่ยงสูง หรือกลุ่มที่มีการเคลมประกันบ่อย (เอาไว้ออกกฎเกณฑ์หรือแนวปฏิบัติ)

ด้านการวางผังเมือง : clustering ช่วยระบุกลุ่มของที่อยู่อาศัย ที่แบ่งตามลักษณะของบ้าน ,ราคา และที่ตั้งทางภูมิศาสตร์

ด้านวิทยาศาสตร์ : clustering ช่วยให้นักวิทยาศาสตร์จัดกลุ่มของดอกไม้ ,ต้นไม้ สัตว์ โปรตีน ดีเอ็นเอ ตามลักษณะประจำของแต่ละระเบียนได้

ตัวอย่างการใช้งานใน Weka เช่น