Epigenome Analysis (1)

 This is my article posted on April 15, 2008 in http://www.u-sabai-d.com/blogWP/?p=28

ชื่อบทความเดิม คือ ข้อมูลและการวิเคราะห์อิพิจีโนม (1)

คุณลักษณะต่างๆของสิ่งมีชีวิต นอกจากจะถูกถ่ายทอด สู่รุ่นลูกรุ่นหลาน ผ่านทางสารพันธุกรรมที่เป็นดีเอ็นเอ โดยอาศัยลำดับเบสที่เก็บเป็นรหัสไว้แล้ว ยังเกิดผ่านกลไกการควบคุม การแสดงออกของยีน ที่ไม่ได้เก็บข้อมูลไว้ ในดีเอ็นเอด้วย ศาสตร์ที่เกี่ยวข้องกับ การศึกษากลไกชนิดหลังนี้ คือ อิพิจีเนติกส์ (epigenetics) ไดเจ็สท์นี้เกี่ยวกับเรื่อง ชีวสารสนเทศกับอิพิจีเนติกส์ ก่อนที่จะกล่าวถึงข้อมูล และการวิเคราะห์ (ในตอนที่สอง) ควรทำความ เข้าใจเกี่ยวกับอิพิจีเนติกส์ก่อน 

อิพิจีเนติกส์ คืออะไร

นิยามที่นิยม คือ การศึกษาการเปลี่ยนแปลงหน้าที่ของยีน ที่ถ่ายทอดได้ ผ่านการแบ่งตัวแบบไมโอซิส และ(หรือ) แบบไมโตซิส ซึ่งไม่เกี่ยวข้องกับ การเปลี่ยนแปลงลำดับของดีเอ็นเอ วัตถุประสงค์ที่สำคัญ ของการศึกษานี้ คือต้องการทราบว่า ข้อมูลพันธุกรรมที่เก็บในลำดับดีเอ็นเอ และส่วนที่ไม่ เกี่ยวข้องกับยีนเลย (เช่น วิธีการจัดเก็บดีเอ็นเอเข้าในนิวเคลียส) ทำงานร่วมกันอย่างไร ในการควบคุม การแสดงออกของยีน ดังนั้น การศึกษานี้ จะเกี่ยวข้องกับ คำถามหลักสองคำถาม คือ (1) เซลล์ของสิ่งมีชีวิต หลายเซลล์ชั้นสูง เปลี่ยนแปลงเพื่อ ทำงานจำเพาะได้อย่างไร ภายหลังจากพัฒนาการจากไข่ที่ผสมแล้ว (2) กลไกในระดับโมเลกุลชนิดใด ที่มีผลต่อการถ่าย ทอดคุณลักษณะ (phenotype) ของสิ่งมีชีวิต >>>Read more

Data Mining (4)

 

องค์ประกอบของอัลกอริธึมสำหรับทำเหมืองข้อมูล

ประกอบด้วย 4 ส่วน คือ

1. โครงสร้างแบบจำลองหรือรูปแบบ (Model or Pattern Structure)
2. ฟังก์ชันกำหนดคะแนน
(Score Function)
3. วิธีปรับให้เหมาะที่สุด และวิธีค้นหา
(Optimization and Search Method)
4. วิธีการที่ใช้ในการจัดการข้อมูล (Data Management Strategy)

 

ส่วนที่ 1 จะกำหนดโครงสร้าง หรือรูปแบบที่จะค้นหาจากข้อมูล โดยความแตกต่าง ระหว่างแบบจำลองและรูปแบบ ได้กล่าวแล้วในตอนที่สาม ในส่วนนี้จะกล่าวถึง องค์ประกอบที่เหลือโดยสังเขป >>>Read more

Data Mining (3)

 

ชนิดของการแทนค่าข้อมูล

ตามที่ได้กล่าวในตอนแรก คือ ขั้นตอนแรก ของกระบวนการ ค้นหาความสัมพันธ์ ภายในชุดข้อมูล คือ การหาการแทนค่าข้อมูล (representations) ซึ่งมีแตกต่างกันหลายชนิดนั้น สามารถแจงได้หลายวิธี ลักษณะหนึ่งที่ชัดเจนคือระหว่าง แบบจำลอง และรูปแบบ

ชนิดของโครงสร้างที่เป็น แบบจำลอง (models) และรูปแบบ (patterns) มีความแตกต่างกัน คือ แบบจำลอง จะสรุปชุดข้อมูลในภาพรวม (global summary) โดยแบบจำลองจะสร้างนิยาม (statements) ให้ทุกจุด ภายในค่าทั้งหมด ดังนั้นสามารถใช้แบบจำลองที่ได้ กำหนดจุดใดๆเข้ากลุ่ม หรือทำนาย ค่าของตัวแปรได้ แบบจำลองสามารถสร้างนิยามของจุดได้แม้ว่า ค่าบางค่าจะหายไป (missing measurements) ตัวอย่างแบบจำลองอย่างง่าย คือ Y = aX + c โดย X และ Y เป็นตัวแปร และ a และ c เป็นพารามิเตอร์หรือ ค่าคงที่ ที่หาจากการทำเหมืองข้อมูล กรณีตัวอย่างนี้เป็นเชิงเส้นตรง แต่ถ้าโครงสร้างของแบบจำลองเป็น Y = aX2 + bX +c แบบจำลองนี้ จะไม่เป็นเส้นตรง แต่เป็น 2nd-degree polynomial

ส่วน รูปแบบ จะตรงข้ามกับแบบจำลอง คือ จะนิยามเพียงบางบริเวณ (restricted regions) เช่น ค่าความน่าจะเป็น ถ้า X>x1 แล้ว prob(Y>y1) = p1 ซึ่งสามารถเขียนเป็น p(Y > y1| X > x1) = p1 ในกรณีนี้ค่าพารามิเตอร์ คือ x1, y1, และ p1 ดังนั้นรูปแบบจึงอธิบาย โครงสร้างใน ส่วนเล็กๆของข้อมูล บางครั้งมีเพียงบางแถวที่มีลักษณะคอลัมน์ ที่มีลักษณะเดียวกัน สามารถสกัด เอารูปแบบ ที่เป็นลักษณะนั้นๆออกมาได้

>>>Read more

Data Mining (2)

ชุดข้อมูล (data set) คือ ชุดของค่า (measurements) ที่ได้จากกระบวนการ หรือในสภาวะแวดล้อมบางอย่าง ถ้ามีจำนวน p ค่าสำหรับแต่ละหน่วย ซึ่งมีจำนวน n หน่วย สามารถเขียนลงตาราง n x p เรียกว่า n x p data matrix โดย n จะเท่ากับจำนวนแถว แต่ละแถวอาจเป็น แต่ละปัจเจกบุคคล (individuals), แต่ละหน่วย (entities), แต่ละราย (cases), แต่ละชิ้นวัตถุ (objects), หรือ แต่ละระเบียนบันทึก (records) ขึ้นอยู่กับว่าใช้กับอะไร ส่วนคอลัมน์ p อาจหมายถึง ตัวแปร (variables), ลักษณะรูปลักษณ์ (features), คุณลักษณะหรือคุณสมบัติ (attributes), หรือในด้านหรือแง่ต่างๆ (fields) การใช้คำใดขึ้นกับว่าเกี่ยวกับงานวิจัยด้านใด ตัวอย่าง ตารางข้อมูล แสดงดังต่อไปนี้

table1 >>>Read more

Data Mining (1)

 

This is my article posted on April 5, 2008 at http://www.u-sabai-d.com/blogWP/?p=24

ผลจากเทคโนโลยีที่พัฒนาขึ้น ทำให้ฐานข้อมูลชนิดต่างๆ เพิ่มจำนวนขึ้น อย่างมากมาย และข้อมูลที่ถูกเก็บไว้มีทุกชนิด ตัวอย่างของ ฐานข้อมูลดังกล่าว คือ ฐานข้อมูลโมเลกุล ฐานข้อมูลสำหรับธุรกิจ สังคมและเวชระเบียน การสกัดเอาสารสนเทศ มาจากข้อมูลเหล่านี้ จะได้สิ่งที่มีคุณค่า และเป็นประโยชน์ เรียกว่าเป็นการขุดเหมืองข้อมูล (Data mining) ซึ่งพอจะนิยาม ได้ดังนี้

Data mining is the analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner”

ผู้ให้คำนิยามข้างต้น แม้จะเกรงอยู่บ้างว่าอาจมีผู้ไม่เห็นด้วย แต่คำนิยาม ดังกล่าวก็น่าจะพอเพียง สำหรับใช้งาน กล่าวคือ

การทำเหมืองข้อมูล เป็นการวิเคราะห์ ชุดข้อมูล เพื่อค้นหาความสัมพันธ์ และเพื่อสรุปข้อมูล ในรูปแบบใหม่ที่เข้าใจได้ และเกิดเป็นประโยชน์ขึ้นมา ความสัมพันธ์และข้อสรุปที่ได้มานั้น มักจะเป็น แบบจำลอง หรือ รูปแบบ (patterns) เช่น สมการความสัมพันธ์เชิงเส้น เช่น ความถดถอยเชิงเส้นตรง (linear regression), หลักเกณฑ์ (rules), การจัดเข้าพวก (clusters), กราฟ และแผนภูมิต้นไม้ >>>Read more

Multipred Server

This is my article posted on March 23 last year at Bioinformatics Digest blog.

ชื่อบทความ เซิร์ฟเวอร์ Multipred สำหรับทำนายเปปไทด์ที่สามารถจับ HLA ได้หลายชนิด

เปปไทด์ที่ สามารถจับกับกับ HLA ได้หลายรูป (เรียกว่า promiscuous peptide) เป็นเป้าหมายของการพัฒนาวัคซีน และการรักษาทางภูมิคุ้มกัน ทั้งนี้เพราะว่า สามารถนำไปใช้ได้กับคนจำนวนมาก

เนื่องจากโมเลกุล HLA มีเป็นจำนวนมาก ในการค้นหาเปปไทด์นี้ โดยการทดลองทั้งหมดจะต้องใช้เวลามาก และมีค่าใช้จ่ายสูง ดังนั้นการใช้ คอมพิวเตอร์ จะช่วยลดจำนวนการทดลอง และช่วยเร่งระยะเวลาการพัฒนาวัคซีน

เซิร์ฟเวอร์ Multipred (SunOS 5.9 UNIX) จะทำนาย เปปไทด์ที่สามารถจับกับ HLA หลายๆอัลลีล ปัจจุบันใช้ได้กับ supertype A2, A3 และ DR (ซึ่งในอนาคตจะขยายไปยังอัลลีลอิ่นๆต่อไป) นอกจากนี้ ยังทำนายบริเวณบนแอนติเจนที่มี promiscuous peptide อยู่หนาแน่น เรียกว่า immunological hotspots (หรือ T-cell epitope hotspots)

  >>>Read more

Prediction and Computational Simulation of Specific Immunity (2)

 This is my article posted on March 23, 2008 at Bioinformatics Digest.

4. การทำนายการจับกับ MHC กลุ่มที่ 1

การทำนายการจับกับ MHC กลุ่มที่ 1 ก้าวหน้าไปมาก และครอบคลุม โมเลกุล MHC ของอัลลีลส่วนมาก ระบบนี้ใช้ได้ดีใน การค้นหาอิพิโทพใหม่ๆ

ส่วนมากเปปไทด์ที่จับกับ MHC กลุ่มที่ 1 จะมีความยาวระหว่าง 8-10 เรสิดิวซ์ ที่ตำแหน่งที่สองและ ตำแหน่งปลายคาร์บอกซิ ที่เป็นตำแหน่งสำคัญ ในการจับ เรียกว่า ตำแหน่งแองเคอร์ บางอัลลีลอาจมีตำแหน่งเสริม เช่น อัลลีล HLA-A*0101 มีตำแหน่งแองเคอร์ เป็น 2, 3, และ 9

วิธีการทำนายมีหลายวิธี

ก. อัลกอลิธึมที่ใช้ในการทำนาย ครั้งแรกๆ มีการบวกรวม ค่าพลังงาน การจับ (binding energy) ของกรดอะมิโน เพื่อหาค่าพลังงานการจับรวม ของทั้งสายเปปไทด์

ข. วิธี EpiMatrix, BIMAS, SYFPEITHI, RANKPEP, และ Gibbs sampler method มีความคล้ายกัน คือ จะสร้างจากตัวอย่างที่ให้ผลบวก เช่น ผลการไล่ที่เปปไทด์ ออกจากการทดลองการจับกัน

ค. วิธี SMM มุ่งทำนาย ค่าความชอบในการจับ (affinity) และสร้างมาจาก ข้อมูลความชอบในการจับ

>>>Read more

Prediction and Computational Simulation of Specific Immunity (1)

 This is my article posted March 22, 2008 (Bioinformatics Digest: http://www.u-sabai-d.com/blogWP/?p=21) The article is based on a review article in 2007.

 ชื่อเรื่องเดิม รีวิว 2550 เรื่อง การทำนายและการใช้คอมพิวเตอร์จำลองการทำงาน ของระบบภูมิคุ้มกันจำเพาะ (1)

ทีมผู้วิจัยจากเดนมาร์ก และฮอลแลนด์ ได้ร่วมกันทบทวนงานวิจัย เรื่องการสร้างแบบจำลอง ระบบภูมิคุ้มกันจำเพาะ ในแง่วิธีการทำนาย และวิธีการจำลองการทำงาน ด้วยคอมพิวเตอร์ มีประเด็นที่น่าสนใจ คือ

1. ชีวสารสนเทศสำหรับระบบภูมิคุ้มกัน จะสามารถนำไปประยุกต์ใช้กับ การออกแบบวัคซีน การรักษาทางภูมิคุ้มกัน และพัฒนาการตรวจวินิจฉัย

2. การเลือกใช้วิธีการทำนาย ควรทำความเข้าใจ พื้นฐานหรือหลักการ หรือสมมุติฐานที่ใช้สร้าง รวมทั้งจุดแข็ง และข้อจำกัดของวิธีนั้นๆ

ยังไม่พบว่า วิธีการประเมินการทำนายวิธีใดวิธีหนึ่ง จะสามารถบอก คุณภาพของการทำนายทั้งหมด ในขณะเดียวกันข้อมูลและวิธีการทำนายทุกชนิด ก็ไม่สามารถที่จะอธิบาย ได้ด้วยเครื่องมือวัดคุณภาพเพียงชนิดเดียวกัน

  >>>Read more

Classification of HLA (Supertypes) (1)

This is my article originally posted on March 7, 2008 at http://www.u-sabai-d.com/blogWP/?p=12.

ชื่อเดิมของบทความคือ วิธีจัดจำแนกโมเลกุล MHC ตามกลุ่ม Supertypes

ไดเจ็สท์ หัวข้อนี้จะกล่าวถึง การจัดจำแนกโมเลกุล HLA อัลลีล ต่างๆเป็น Supertype โดยใช้ชีวสารสนเทศต่างๆ ดังนั้นเนื้อหาจะเป็นลำดับ ดังนี้

1) Supertype ของ HLA

2) การจัดจำแนกโดยใช้ ชีวสารสนเทศ

3) การจัดจำแนกโดยใช้ การจับเป็นกลุ่ม (clustering) ตามตารางความ จำเพาะ (specificity matrices) ของโมเลกุลของ HLA

Supertype ของ HLA

โมเลกุล MHC ต่างชนิดกัน จะมีลิแกนด์ (คือสายเปปไทด์ที่ไปจับ) จำเพาะที่แตกต่างกัน การทดลองแยกเอาสายเปปไทด์ ที่จับกับโมเลกุล MHC ตามธรรมชาติ ออกมาแล้วหา ลำดับของกรดอะมิโน ทำให้ทราบโมทีฟที่จำเพาะ ต่ออัลลีลนั้นๆ หรือถ้าวิเคราะห์โดยใช้โมเลกุล HLA บริสุทธิ์โดยตรง ก็สามารถกำหนดความจำเพาะในการจับ กับสายเปปไทด์ของโมเลกุล HLA ที่แตกต่างชนิดกันได้

  >>>Read more

Syndicate content