สัญญาที่พูดเกินจริงของการขุดข้อมูลที่ไม่มีอคติ


ผู้ได้รับรางวัลโนเบล Richard Feynman เคยขอให้นักเรียนคาลเทคของเขาคำนวณความน่าจะเป็นที่ถ้าเขาเดินนอกห้องเรียนรถคันแรกในลานจอดรถจะมีป้ายทะเบียนระบุ 6ZNA74 สมมติว่าตัวเลขและตัวอักษรทุกตัวมีความเป็นไปได้และตัดสินใจอย่างเท่าเทียมกันนักเรียนประเมินความน่าจะเป็นน้อยกว่า 1 ใน 17 ล้าน เมื่อนักเรียนคำนวณเสร็จแล้วไฟน์แมนเปิดเผยว่าความน่าจะเป็นที่ถูกต้องคือ 1: เขาเห็นป้ายทะเบียนนี้ระหว่างทางเข้าห้องเรียน สิ่งที่ไม่น่าเป็นไปได้อย่างมากนั้นไม่น่าเป็นไปได้หากเกิดขึ้นแล้ว

กับดักไฟน์แมน – เก็บข้อมูลสำหรับรูปแบบโดยไม่มีการคิดล่วงหน้าเกี่ยวกับสิ่งที่เรากำลังมองหา – คือจุดอ่อนของการศึกษาบนพื้นฐานของการทำเหมืองข้อมูล การค้นหาสิ่งที่ผิดปกติหรือน่าประหลาดใจหลังจากที่มันได้เกิดขึ้นแล้วไม่แปลกประหลาดหรือน่าแปลกใจ รูปแบบที่แน่ใจว่าจะพบและมีแนวโน้มที่จะทำให้เข้าใจผิดไร้สาระหรือแย่กว่านั้น

ในหนังสือ 2001 ที่ขายดีที่สุดของเขา ดีมากจิมคอลลินส์เปรียบเทียบ บริษัท 11 แห่งที่มีผลประกอบการดีกว่าตลาดหุ้นโดยรวมในช่วง 40 ปีที่ผ่านมาถึง 11 บริษัท ที่ไม่ได้เป็น เขาระบุลักษณะที่แตกต่างห้าประการที่ บริษัท ประสบความสำเร็จมีเหมือนกัน “ เราไม่ได้เริ่มต้นโครงการนี้ด้วยทฤษฎีเพื่อทดสอบหรือพิสูจน์” คอลลินส์กล่าว "เราพยายามสร้างทฤษฎีจากพื้นดินขึ้นมาโดยตรงจากหลักฐาน"

เขาก้าวเข้าไปในกับดักไฟน์แมน เมื่อเรามองย้อนกลับไปในเวลาที่กลุ่ม บริษัท ใด บริษัท หนึ่งที่ดีที่สุดหรือแย่ที่สุดเราสามารถค้นหาลักษณะทั่วไปบางอย่างได้เสมอดังนั้นการค้นหา บริษัท เหล่านั้นจึงไม่ได้พิสูจน์อะไรเลย ติดตามสิ่งพิมพ์ของ ดีมากประสิทธิภาพของหุ้น 11 ตัวที่ยอดเยี่ยมของ Collins นั้นมีความชัดเจนปานกลาง: ห้าหุ้นทำได้ดีกว่าตลาดหุ้นโดยรวมในขณะที่อีก 6 รายนั้นแย่กว่านั้น

ในปี 2554 Google ได้สร้างโปรแกรมปัญญาประดิษฐ์ชื่อว่า Google Flu ซึ่งใช้คำค้นหาเพื่อทำนายการแพร่ระบาดของไข้หวัดใหญ่ โปรแกรมการขุดข้อมูลของ Google พิจารณาคำค้นหา 50 ล้านครั้งและระบุว่า 45 รายการนั้นมีความสัมพันธ์ใกล้ชิดที่สุดกับอุบัติการณ์ของโรคไข้หวัดใหญ่ มันเป็นอีกตัวอย่างหนึ่งของกับดักการขุดข้อมูล: การศึกษาที่ถูกต้องจะระบุคำหลักไว้ล่วงหน้า หลังจากออกรายงาน Google Flu ประเมินจำนวนผู้ป่วยไข้หวัดใหญ่เป็น 100 คนในอีก 108 สัปดาห์ข้างหน้าโดยเฉลี่ยเกือบร้อยละ 100 Google Flu ไม่ทำการคาดการณ์ไข้หวัดอีกต่อไป

นักการตลาดอินเทอร์เน็ตคิดว่าสามารถเพิ่มรายได้ด้วยการเปลี่ยนสีเว็บเพจสีน้ำเงินดั้งเดิมเป็นสีอื่น หลังจากการทดสอบเป็นเวลาหลายสัปดาห์ บริษัท พบผลลัพธ์ที่มีนัยสำคัญทางสถิติ: เห็นได้ชัดว่าอังกฤษชอบนกเป็ดน้ำ โดยการมองหาสีที่เป็นทางเลือกหลาย ๆ ประเทศเป็นร้อย ๆ ประเทศพวกเขารับประกันว่าพวกเขาจะพบว่ามีรายได้เพิ่มขึ้นสำหรับบางสีในบางประเทศ แต่พวกเขาไม่มีความคิดล่วงหน้าว่าจะขายนกเป็ดน้ำในอังกฤษมากขึ้น เมื่อมันปรากฏออกมาเมื่อสีของหน้าเว็บของอังกฤษเปลี่ยนเป็นสีเข้มรายได้ลดลง

การทดลองทางประสาทวิทยามาตรฐานเกี่ยวข้องกับการแสดงอาสาสมัครในเครื่อง MRI ภาพต่างๆและถามคำถามเกี่ยวกับภาพ การตรวจวัดนั้นมีเสียงดังเก็บสัญญาณแม่เหล็กจากสภาพแวดล้อมและจากการเปลี่ยนแปลงของความหนาแน่นของเนื้อเยื่อไขมันในส่วนต่าง ๆ ของสมอง บางครั้งพวกเขาพลาดการทำงานของสมอง บางครั้งพวกเขาแนะนำกิจกรรมที่ไม่มี

นักศึกษาปริญญาโทดาร์ทเมาท์ใช้เครื่อง MRI เพื่อศึกษาการทำงานของสมองของปลาแซลมอนเนื่องจากมีรูปถ่ายและคำถามที่ถาม สิ่งที่น่าสนใจที่สุดเกี่ยวกับการศึกษาไม่ใช่ว่ามีการศึกษาปลาแซลมอน แต่ปลาแซลมอนนั้นตายไปแล้ว ใช่ปลาแซลมอนที่ตายแล้วที่ซื้อในตลาดท้องถิ่นถูกนำไปใส่ในเครื่อง MRI และค้นพบบางรูปแบบ มีรูปแบบที่หลีกเลี่ยงไม่ได้ – และพวกมันไร้ความหมายอย่างคงเส้นคงวา

ในปี 2561 อาจารย์เศรษฐศาสตร์ของมหาวิทยาลัยเยลและนักศึกษาระดับบัณฑิตศึกษาได้คำนวณความสัมพันธ์ระหว่างการเปลี่ยนแปลงรายวันของราคา Bitcoin และตัวแปรทางการเงินอื่น ๆ หลายร้อยรายการ พวกเขาพบว่าราคา Bitcoin มีความสัมพันธ์เชิงบวกกับผลตอบแทนสต็อกในสินค้าอุปโภคบริโภคและอุตสาหกรรมการดูแลสุขภาพและพวกเขามีความสัมพันธ์เชิงลบกับผลตอบแทนสต็อกในผลิตภัณฑ์ประดิษฐ์และอุตสาหกรรมเหมืองโลหะ "เราไม่ได้ให้คำอธิบาย" ศาสตราจารย์กล่าว "เราแค่บันทึกพฤติกรรมนี้" กล่าวอีกนัยหนึ่งพวกเขาอาจได้ดูความสัมพันธ์ของราคา Bitcoin พร้อมกับหมายเลขโทรศัพท์หลายร้อยรายการและรายงานความสัมพันธ์ที่สูงที่สุด

ผู้อำนวยการห้องปฏิบัติการด้านอาหารและแบรนด์ของ Cornell University เขียน (หรือร่วม) เอกสารที่ผ่านการตรวจสอบโดยเพื่อนมากกว่า 200 คนและเขียนหนังสือยอดนิยมสองเล่มซึ่งแปลเป็นภาษามากกว่า 25 ภาษา

ในโพสต์บล็อกปี 2016 ชื่อ“ นักศึกษาที่จบไม่เคยพูดไม่ได้เลย” เขาเขียนเกี่ยวกับนักศึกษาปริญญาเอกที่ได้รับข้อมูลที่รวบรวมได้จากบุฟเฟ่ต์อาหารอิตาเลียนที่ทานได้ไม่อั้น

จดหมายโต้ตอบทางอีเมลที่อาจารย์แนะนำให้นักศึกษาระดับบัณฑิตศึกษาเพื่อแยกไดเนอร์สออกเป็น "เพศชายเพศหญิงผู้ทานอาหารกลางวันผู้ร่วมรับประทานอาหารค่ำคนที่นั่งอยู่คนเดียวคนที่กินกลุ่มละ 2 คนกลุ่มที่กิน 2+ คนที่สั่งเครื่องดื่มแอลกอฮอล์ คนที่สั่งน้ำอัดลมคนที่นั่งใกล้กับบุฟเฟ่ต์คนที่นั่งไกลและต่อไป … "จากนั้นเธอสามารถดูวิธีที่กลุ่มย่อยเหล่านี้อาจแตกต่างกัน:" # ชิ้นของพิซซ่า, # ทริป, เติมระดับ ของจานพวกเขาได้รับของหวานพวกเขาสั่งเครื่องดื่มและอื่น ๆ … ”

เขาสรุปว่าเธอควร“ ทำงานอย่างหนักบีบเลือดออกจากหินก้อนนี้” โดยไม่เคยบอกเลยว่านักเรียนได้รับเอกสารสี่ฉบับ (ตอนนี้รู้จักกันในชื่อ“ เอกสารพิซซ่า”) ตีพิมพ์โดยศาสตราจารย์ของ Cornell ในฐานะผู้เขียนร่วม กระดาษที่มีชื่อเสียงที่สุดรายงานว่าผู้ชายกินพิซซ่าเพิ่มขึ้น 93% เมื่อพวกเขากินกับผู้หญิง มันยังไม่จบดี ในเดือนกันยายนปี 2561 คณะกรรมการประจำคณะคอร์เนลล์สรุปว่าเขา“ กระทำผิดทางวิชาการในการวิจัย” เขาลาออกโดยมีผลในเดือนมิถุนายนปีหน้า

การวิจัยที่ดีเริ่มต้นด้วยแนวคิดที่ชัดเจนว่าใครกำลังมองหาและคาดหวังว่าจะพบ การขุดข้อมูลนั้นมองหารูปแบบและพบว่ามีบางอย่างหลีกเลี่ยงไม่ได้

ปัญหาได้กลายเป็นโรคประจำถิ่นในปัจจุบันเนื่องจากคอมพิวเตอร์ที่มีประสิทธิภาพดีในการปล้นข้อมูลขนาดใหญ่ นักขุดข้อมูลพบความสัมพันธ์ระหว่างคำใน Twitter หรือคำค้นหาของ Google และกิจกรรมทางอาญา, โรคหัวใจ, ราคาหุ้น, ผลการเลือกตั้ง, ราคา Bitcoin และการแข่งขันฟุตบอล คุณอาจคิดว่าฉันกำลังทำตัวอย่างเหล่านี้ ฉันไม่.

มีความสัมพันธ์ที่แข็งแกร่งยิ่งขึ้นกับตัวเลขสุ่มล้วนๆ บิ๊กดาต้าดาต้าคิดว่าสหสัมพันธ์ข้อมูลที่ขุดได้จะต้องมีความหมาย การหารูปแบบที่ผิดปกติใน Big Data นั้นไม่น่าเชื่อ (หรือมีประโยชน์) มากกว่าการหาป้ายทะเบียนที่ผิดปกตินอกห้องเรียนของ Feynman

ความคิดเห็นที่มีสาย เผยแพร่ชิ้นส่วนที่เขียนโดยผู้มีส่วนร่วมภายนอกและแสดงถึงมุมมองที่หลากหลาย อ่านความคิดเห็นเพิ่มเติมได้ที่นี่ ส่ง op-ed ที่ comments@wired.com


เรื่องราวยิ่งใหญ่มากขึ้น WIRED