تخمین شاخص بی طرفی

آخرین مطالب

امکانات وب

تخمین شاخص بی طرفی

آزمایش مک دونال د-کریتمن (MK) یک آزمایش ساده و به طور گسترده ای از انتخاب است که در آن تعداد تعویض های غیرخطی و خاموش (D_nو د_s) با تعداد پلی مورفیسم های غیرخطی و ساکت مقایسه می شوند (P_nو ص_s). شاخص بی طرفی (ni = d_sپ_n/ د_nپ_s) ، نسبت شانس (یا) جدول MK ، جهت و درجه عزیمت از تکامل خنثی را اندازه گیری می کند. میانگین مقادیر Ni در ژن ها اغلب برای خلاصه کردن الگوهای انتخاب در یک گونه انجام می شود. در اینجا ، ما نشان می دهیم که این منجر به تعصب آماری در هر دو داده شبیه سازی شده و واقعی می شود تا حدی که گونه ها ، که الگوی تکامل تطبیقی را نشان می دهند ، ظاهراً می توانند در معرض انتخاب تصفیه ضعیف و برعکس باشند. ما نشان می دهیم که این تعصب را می توان با استفاده از یک نوع از روش کوکران - مانت ل-هانسیل برای تخمین میانگین وزنی یا. ما همچنین نشان می دهیم که چندین برآوردگر نقطه ای از NI حتی در هنگام استفاده از مقادیر قطع ، از نظر آماری مغرضانه هستند. بنابراین ما پیشنهاد می کنیم که یک آمار جدید برای مطالعه الگوهای انتخاب در هنگام پراکنده بودن داده ها استفاده شود ، جهت انتخاب: DOS = D_n/(D_n+ D_s) - ص_n/( پ_n+ p_s).

معرفی

درک ماهیت انتخاب طبیعی در توالی DNA یکی از اهداف اصلی تکامل مولکولی است. آزمون انتخاب مک دونال د-کریتمن (MK) انتخاب (مک دونالد و کریتمن 1991) تعداد غیرقانونی ها را مقایسه می کند (P_n) و ساکت (ص_s) پلی مورفیسم به تعداد غیرقانونی (D_n) و ساکت (D_s) تعویض در هر مکان. هنگامی که تعویض های ساکت و غیرقانونی از هم جدا می شوند ، و بنابراین یک تبارشناسی مشترک یا تبارشناسی و طرح نمونه گیری مشترک را به اشتراک می گذارند ، ممکن است یک آزمایش ساده از استقلال در جدول احتمالی 2 × 2 انجام شود تا برای انحراف از بی طرفی آزمایش شود. تحت بی طرفی دقیق ، جایی که جهش ها به شدت مضر یا خنثی هستند ، انتظار داریم دو نسبت ، P_n/ پ_sو د_n/ د_sیکسان بودنجهت و درجه عزیمت از بی طرفی می تواند با استفاده از شاخص بی طرفی (NI ؛ Rand and Kann 1996) ، نسبت شانس (یا) جدول احتمالی MK اندازه گیری شود. NI به عنوان (P) تعریف شده است_n/ پ_s)/(د_n/ د_s), however, the inverse of the NI has also been used (e.g., Tachida 2000; Presgraves 2005). Under the assumption that silent mutations are neutral, NI >1 نشانگر بیش از حد پلی مورفیسم اسید آمینه (همانطور که انتظار می رود جهش های اندکی مضر وجود داشته باشد) و نیکل< 1 indicates an excess of nonsilent divergence (as expected under positive selection). Typically, the MK test is applied to protein-coding data, but it can be applied to any two categories of sites that are interspersed, such as protein and nonprotein-binding sites in a regulatory element (e.g., Jenkins et al. 1995).

با این حال ، در استفاده از OR هایی مانند NI ، مشکلاتی وجود دارد: اول اینکه ، نسبت به دو نسبت ، NI تمایل به مغرضانه بودن و داشتن واریانس بزرگ دارد ، به خصوص هنگامی که تعداد مشاهدات اندک است. علاوه بر این ، NI در صورت D تعریف نشده است_nیا پ_s0 است. یک تخمین میانگین NI اغلب با میانگین NI پس از حذف ژن هایی که NI برای آنها تعریف نشده است یا پس از حذف ژن هایی که تعداد جایگزینی یا چندشکلی کافی ندارند به دست می آید (به عنوان مثال، Bazin و همکاران 2006؛ Meiklejohn et al. را ببینید. همکاران 2007؛ هیوز و همکاران 2008). چنین میانگینی مغرضانه خواهد بود و از دست دادن ژن ها می تواند شدید باشد. به عنوان مثال، در تجزیه و تحلیل اخیر مقادیر NI در باکتری ها، هیوز و همکاران.(2008) مجبور شد یک سوم تمام ژن ها را به دلیل مقادیر NI تعریف نشده حذف کند. در اینجا، ما سوگیری‌هایی را که می‌تواند در تخمین NI در داده‌های واقعی و شبیه‌سازی شده ایجاد شود، نشان می‌دهیم.

مواد و روش ها

ما D را تجزیه و تحلیل کردیم_n، دی_s، پ_n، و P_sمقادیر تعدادی از مطالعات: 1) 115 ژن که برای آنها داده های چندشکلی از Drosophila simulans و واگرایی بین D. simulans و D. yakuba (ولش 2006) داریم، 2) 98 ژن که داده های پلی مورفیسم از D. melanogaster وواگرایی از جد D. melanogaster-D. شبیه‌سازی به D. melanogaster (Presgraves 2005)، 3) 410 ژن که برای آنها داده‌های پلی‌مورفیسم از Escherichia coli و Salmonella enterica و واگرایی بین دو گونه (چارلزورث و ایر-واکر 2006) و 4) 11624 ژن برای آنها داریم. دارای داده های چندشکلی از انسان و واگرایی بین انسان و شامپانزه (Bustamante et al. 2005).

شبیه سازی ها

برای بررسی اثر پیوند کامل بر بایاس در تخمین‌های NI، یعنی زمانی که نوترکیبی وجود ندارد، ما به‌طور تصادفی طول کل یک تبارشناسی را با نمونه‌برداری از مجموعه‌ای از توزیع‌های نمایی تولید کردیم. یعنی زمان ادغام شاخه های m به m − 1 شاخه به صورت نمایی با میانگین θ /(m (m − 1) توزیع می شود که θ ثابت است.، پس اگر طول کل درختی که به طور تصادفی تولید می شود λ باشد، تعداد چندشکلی های غیر مترادف و مترادف توزیع پواسون با میانگین λE است (P_n) و λE (P_s)، به ترتیب.

نتایج و بحث

خلاصه برآوردگرها

تعصبی که می‌تواند با میانگین‌گیری مقادیر NI ایجاد شود، پس از حذف مقادیر تعریف‌نشده، در جدول 1 نشان داده شده است. در اینجا، هر جفت جداول MK همان مقدار NI، NI را به اشتراک می‌گذارد._{درست است، واقعی}= E (D_s) E (ص_n)/( E (D_n) E (ص_s))، که در آن E (x) به مقدار مورد انتظار x (یعنی مقدار میانگین برای نمونه ای با اندازه بی نهایت) اشاره دارد. اگر نوترکیبی آزاد و بدون اپیستاز را فرض کنیم، P_s، دی_s، پ_n، و D_nبه طور مستقل و پواسون توزیع می شوند و ما می توانیم مقدار مورد انتظار NI را به استثنای مواردی که در آن NI تعریف نشده است ، محاسبه کنیم._سادهبه شرح زیر است:

جداول MK مثال. جداول حاوی تعداد مورد انتظار D است_n، دی_s، پ_n، و P_{s .}میانگین نیکل_TGبا خطای استاندارد داده می شود. اینها با تولید 100 مجموعه داده از 100 جدول احتمالی با استفاده از اعداد مورد انتظار بدست آمد. سپس من_TGمقدار در پرانتز برای شبیه سازی هایی است که در آن NI به صورت طبیعی با یک پارامتر واریانس یک توزیع می شود.

NI_{درست است، واقعی} = 1

(آ)

پلی مورفیسم

واگرایی

NI_ساده= 0. 83

(ب)

پلی مورفیسم

واگرایی

NI_ساده= 1. 53

بی صدا

NI_R= 0. 55

بی صدا

NI_R= 0. 85

غیر قابل مرگ

NI_TG= 0. 01 ± 1. 00

غیر قابل مرگ

NI_TG= 0. 02 ± 0. 98

(نی._TG= 0. 03 ± 1. 06)

(نی._TG= 0. 02 ± 1. 03)

NI_{درست است، واقعی}= 1. 5

(ج)

پلی مورفیسم

واگرایی

NI_ساده= 0. 88

(د)

پلی مورفیسم

واگرایی

NI_ساده= 2. 49

بی صدا

1.5

NI_R= 0. 60

بی صدا

7.5

NI_R= 1. 48

غیر قابل مرگ

NI_TG= 0. 04 ± 1. 53

غیر قابل مرگ

NI_TG= 0. 01 ± 1. 51

(نی._TG= 0. 04 ± 1. 48)

(نی._TG= 0. 02 ± 1. 51)

NI_{درست است، واقعی}= 0. 75

(ه)

پلی مورفیسم

واگرایی

NI_ساده= 0. 44

(f)

پلی مورفیسم

واگرایی

NI_ساده= 1. 30

بی صدا

0. 75

NI_R= 0. 30

بی صدا

NI_R= 0. 72

غیر قابل مرگ

NI_TG= 0. 02 ± 0. 77

غیر قابل مرگ

NI_TG= 0. 01 ± 0. 73

(نی._TG= 0. 03 ± 0. 79)

(نی._TG= 0. 01 ± 0. 78)

NI_{درست است، واقعی} = 1
(آ)	پلی مورفیسم	واگرایی	NI_ساده= 0. 83	(ب)	پلی مورفیسم	واگرایی	NI_ساده= 1. 53
بی صدا	2	1	NI_R= 0. 55	بی صدا	4	4	NI_R= 0. 85
غیر قابل مرگ	1	1	NI_TG= 0. 01 ± 1. 00	غیر قابل مرگ	2	2	NI_TG= 0. 02 ± 0. 98
(نی._TG= 0. 03 ± 1. 06)	(نی._TG= 0. 02 ± 1. 03)
NI_{درست است، واقعی}= 1. 5
(ج)	پلی مورفیسم	واگرایی	NI_ساده= 0. 88	(د)	پلی مورفیسم	واگرایی	NI_ساده= 2. 49
بی صدا	1	1.5	NI_R= 0. 60	بی صدا	5	7.5	NI_R= 1. 48
غیر قابل مرگ	1	1	NI_TG= 0. 04 ± 1. 53	غیر قابل مرگ	5	5	NI_TG= 0. 01 ± 1. 51
(نی._TG= 0. 04 ± 1. 48)	(نی._TG= 0. 02 ± 1. 51)
NI_{درست است، واقعی}= 0. 75
(ه)	پلی مورفیسم	واگرایی	NI_ساده= 0. 44	(f)	پلی مورفیسم	واگرایی	NI_ساده= 1. 30
بی صدا	1	0. 75	NI_R= 0. 30	بی صدا	4	3	NI_R= 0. 72
غیر قابل مرگ	1	1	NI_TG= 0. 02 ± 0. 77	غیر قابل مرگ	4	4	NI_TG= 0. 01 ± 0. 73
(نی._TG= 0. 03 ± 0. 79)	(نی._TG= 0. 01 ± 0. 78)

NI_{درست است، واقعی} = 1

(آ)

پلی مورفیسم

واگرایی

NI_ساده= 0. 83

(ب)

پلی مورفیسم

واگرایی

NI_ساده= 1. 53

بی صدا

NI_R= 0. 55

بی صدا

NI_R= 0. 85

غیر قابل مرگ

NI_TG= 0. 01 ± 1. 00

غیر قابل مرگ

NI_TG= 0. 02 ± 0. 98

(نی._TG= 0. 03 ± 1. 06)

(نی._TG= 0. 02 ± 1. 03)

NI_{درست است، واقعی}= 1. 5

(ج)

پلی مورفیسم

واگرایی

NI_ساده= 0. 88

(د)

پلی مورفیسم

واگرایی

NI_ساده= 2. 49

بی صدا

1.5

NI_R= 0. 60

بی صدا

7.5

NI_R= 1. 48

غیر قابل مرگ

NI_TG= 0. 04 ± 1. 53

غیر قابل مرگ

NI_TG= 0. 01 ± 1. 51

(نی._TG= 0. 04 ± 1. 48)

(نی._TG= 0. 02 ± 1. 51)

NI_{درست است، واقعی}= 0. 75

(ه)

پلی مورفیسم

واگرایی

NI_ساده= 0. 44

(f)

پلی مورفیسم

واگرایی

NI_ساده= 1. 30

بی صدا

0. 75

NI_R= 0. 30

بی صدا

NI_R= 0. 72

غیر قابل مرگ

NI_TG= 0. 02 ± 0. 77

غیر قابل مرگ

NI_TG= 0. 01 ± 0. 73

(نی._TG= 0. 03 ± 0. 79)

(نی._TG= 0. 01 ± 0. 78)

NI_{درست است، واقعی} = 1
(آ)	پلی مورفیسم	واگرایی	NI_ساده= 0. 83	(ب)	پلی مورفیسم	واگرایی	NI_ساده= 1. 53
بی صدا	2	1	NI_R= 0. 55	بی صدا	4	4	NI_R= 0. 85
غیر قابل مرگ	1	1	NI_TG= 0. 01 ± 1. 00	غیر قابل مرگ	2	2	NI_TG= 0. 02 ± 0. 98
(نی._TG= 0. 03 ± 1. 06)	(نی._TG= 0. 02 ± 1. 03)
NI_{درست است، واقعی}= 1. 5
(ج)	پلی مورفیسم	واگرایی	NI_ساده= 0. 88	(د)	پلی مورفیسم	واگرایی	NI_ساده= 2. 49
بی صدا	1	1.5	NI_R= 0. 60	بی صدا	5	7.5	NI_R= 1. 48
غیر قابل مرگ	1	1	NI_TG= 0. 04 ± 1. 53	غیر قابل مرگ	5	5	NI_TG= 0. 01 ± 1. 51
(نی._TG= 0. 04 ± 1. 48)	(نی._TG= 0. 02 ± 1. 51)
NI_{درست است، واقعی}= 0. 75
(ه)	پلی مورفیسم	واگرایی	NI_ساده= 0. 44	(f)	پلی مورفیسم	واگرایی	NI_ساده= 1. 30
بی صدا	1	0. 75	NI_R= 0. 30	بی صدا	4	3	NI_R= 0. 72
غیر قابل مرگ	1	1	NI_TG= 0. 02 ± 0. 77	غیر قابل مرگ	4	4	NI_TG= 0. 01 ± 0. 73
(نی._TG= 0. 03 ± 0. 79)	(نی._TG= 0. 01 ± 0. 78)

توزیع پواسون است. توجه داشته باشید که مخرج در معادله (1) می توانند به ترتیب به 1 - E - E [D N] و 1 - E - E [P S] ساده شوند.

ما آن را پیدا می کنیم_سادهبه طور قابل توجهی بالاتر یا پایین NI است_{درست است، واقعی}به دلیل محرومیت ژن ها و تعصب نمونه کوچک. در این مثالها تعصب کافی برای جداول سمت چپ وجود دارد تا انتخاب مثبت را نشان دهد ، در حالی که جداول دست راست نشانگر انتخاب منفی است. این بدان معنی است که دو گونه در معرض همان سطوح یکسان از انتخاب مثبت و منفی می توانند میانگین مقادیر NI متفاوت داشته باشند زیرا یک گونه دارای پلی مورفیسم کم و بیش داده های تعویض در هر ژن نسبت به دیگری است. چنین تعصب به وضوح نامطلوب است.

تعصب در NI_سادهاز دو منبع ناشی می شود: اول ، محرومیت از ژنهایی که Ni در آن تعریف نشده و دوم است ، از تمایل به مقدار متوسط یک نسبت برای بیش از حد ارزش واقعی (حتی اگر مخرج نسبتاً بزرگ باشد). دو منبع تعصب نیز می توانند به شرح زیر نشان داده شوند (جدول 1). ما می توانیم مقدار مورد انتظار Ni را برای مجموعه محدود ژنهایی که دارای NI تعریف شده هستند ، تخمین بزنیم_R، به عنوان e [d تخمین زده می شود_s] E [P_n]/(e [d_n] E [P_s]) ، هنگامی که d_n >0 و P_s >0. ni_Rبه طور قابل توجهی زیر NI واقعی برای همه ژن ها قرار دارد ، نشان می دهد که به استثنای ژن های دارای NI تعریف نشده ، تمایل به کاهش تخمین Ni دارند. این امر به این دلیل است که ژن ها را با هر دو تعریف نشده d_s/ د_nیا با P تعریف نشده_n/ پ_sمقادیر بالقوه بزرگ NI را حذف نمی کند. با این حال ، NI_سادهبیشتر از NI است_Rدر هر حالت ، نشان می دهد که حتی برای ژنهایی که Ni برای آنها تعریف شده است ، NI_سادهبه دلیل کمبود توزیع یک نسبت ، تمایل به بیش از حد است.

تعصب را می توان به طور رسمی به شرح زیر اندازه گیری کرد. NI محصول دو نسبت مستقل است و اگر نوترکیبی رایگان را فرض کنیم ، شمارنده و مخرج مستقل از یکدیگر هستند. بنابراین ما فقط باید تعصب ذاتی را در تخمین 1/ x در نظر بگیریم تا تعصبات موجود در NI را درک کنیم. این می تواند به شرح زیر محاسبه شود. مقدار مورد انتظار یک آماری که در معرض مقدار قطع Z قرار دارد ، که در زیر آن مقادیر مستثنی هستند ،

در مورد 1/ x این به معنای تنظیم z = 1 و تقسیم مقدار مورد انتظار 1/ x به 1/ e [x] است. این در برابر E [x] در شکل 1 ترسیم شده است. وقتی E [x] کوچک است ، E [1/ x] به دلیل از دست دادن مواردی که x = 0 و 1/ x تعریف نشده است ، 1/ e [x] را دست کم می گیرد. با این حال ، E [1/ x] افزایش می یابد و از 1/ E [x] برای E [x] بزرگ به دلیل وجود شکاف در توزیع 1/ x بیشتر می شود. بنابراین 1/ x به طور متوسط بیش از حد 1/ e [x] حتی با اندازه نمونه بسیار بزرگ است.

تعصب مرتبط با NI_سادهبشرشکل نشان می دهد E [1/ x]/ (1/ e [x]) به عنوان تابعی از E [x] برای مقادیر مختلف برش ، z ، که در زیر موارد حذف نشده است. از چپ به راست z = 1 ، 2 و 5. خط مستقیم نشان دهنده وضعیت عدم تعصب است.

تعصب مرتبط با NI_{جواهرات}بشرشکل نشان می دهد E [1/(x + 1)]/(1/e [x]) به عنوان تابعی از E [x] برای مقادیر مختلف برش ، Z ، که در زیر موارد حذف نشده است. از چپ به راست z = 0 ، 1 ، 2 و 5. خط مستقیم نشانگر وضعیت عدم تعصب است.

نتایج فوق با فرض نوترکیبی آزاد به دست آمد اما در صورت وجود پیوند کامل ، از نظر کیفی بی تأثیر باقی مانده است. بدون نوترکیب ، توزیع P_nو ص_sپیچیده می شوند زیرا آنها هم به واریانس نمونه برداری بستگی دارند ، به دلیل این که ما از توالی های طول محدود نمونه برداری کرده ایم و واریانس ناشی از همبستگی. با این حال ، این منبع دوم متغیرهای متغیر بین P_nو ص_s(به عنوان مثال ، آنها همان تبارشناسی را به اشتراک می گذارند) با این تأثیر که این امر تا حد زیادی بی ربط می شود (نتایج نشان داده نشده است).

مشکل تخمین رویکردهای و یا بالقوه برای مقابله با آنها توجه زیادی در ادبیات آماری داشته است (به عنوان مثال ، کوکران 1954 ؛ هالدان 1956 ؛ مانتل و هانزل 1959 ؛ جواهل 1984 ، 1986). مناسب نیست که جداول احتمالی را به دلیل پارادوکس سیمپسون خلاصه کنیم (سیمپسون 1951). جمع بندی دو میز احتمالی با یکسان یا می تواند یک جدول احتمالی با یک یا متفاوت باشد (به عنوان مثال ، شاپیرو و همکاران 2007 مراجعه کنید). یک روش رایج برای به دست آوردن میانگین یا استفاده از روش مانتل و Haenszel (1959) ، که نمونه خاصی از یک روش کلی است که توسط کوکران (1954 ؛ از این پس ، روش Cochran-Mantel [CMH]) که در آن انجام می شود ، پیشنهاد شده است. میانگین وزنی یا محاسبه می شود. روش CMH کلاسیک قبلاً در خلاصه جداول MK اعمال شده است (بارتولوم و همکاران 2005 ؛ ماساید و چارلزورث 2007). با این حال ، گرینلند (1982) خاطرنشان كرد كه روش CMH ممكن است تخمین مغرضانه ای از یا در صورت عدم وجود ناهمگونی در یا بین جداول موجود باشد. از آنجا که ممکن است به طور منطقی انتظار داشته باشیم که NI بین ژن ها متفاوت باشد - یا به دلیل اینکه نسبت های متفاوتی از جهش های کمی مضر یا تعویض های سودمند دارند - ما به یک برآوردگر نیاز داریم که ناهمگونی را در نظر بگیرد. توجه به این نکته حائز اهمیت است که آزمایشات ناهمگونی در OR به طور کلی ضعیف است (جونز و همکاران 1989 ؛ اوگورمن و همکاران 1990). در نتیجه ، OR ها ممکن است هنوز ناهمگن باشند ، حتی اگر ناهمگونی قابل توجهی تشخیص داده نشود ، و برآورد CMH از OR یا ممکن است مغرضانه باشد. خوشبختانه ، یک نوع بسیار ساده از روش CMH تخمین بی طرفانه از میانگین نیکل را به دست می آورد ، هنگامی که ناهمگونی وجود دارد ، در اکثر شرایط (Tarone 1981 ؛ Greenland 1982):

جایی که این شاخص به ژن من اشاره دارد. برای نشان دادن قدرت این برآوردگر برای غلبه بر تعصبات ذاتی در میانگین مقادیر NI ، ما 100 مجموعه داده از 100 جدول احتمالی را بر اساس مقادیر مورد انتظار برای P ایجاد کردیم_s، دی_s، پ_n، و D_nبرای هر یک از موارد موجود در جدول 1_TGتقریباً دقیقاً برابر است و با NI تفاوت معنی داری ندارد_{درست است، واقعی}بشراین حتی اگر داده هایی را که در آن NI بین ژن ها متفاوت است ، شبیه سازی می کنیم. برای مثالهای موجود در جدول 1 ، ما اجازه دادیم Ni به صورت طبیعی با یک پارامتر واریانس یک توزیع شود. این بدان معنی است که 5 ٪ ژنهای با کمترین NI حداقل 30 برابر NI پایین تر از 5 ٪ ژن های دارای بالاترین NI دارند. نتایج حاصل از این شبیه سازی ها در جدول 1 آورده شده است و نشان می دهد که NI_TGتقریباً کاملاً بی‌طرفانه است حتی با تغییرات بسیار قابل توجهی در NI. هر گونه سوگیری باقیمانده را می توان با افزایش اندازه نمونه ژن ها حذف کرد (نتایج نشان داده نشده است).

مشابه با دیگر برآوردگرهای نوع CMH، NI_TGانتظار می رود که تخمین بی طرفانه ای از NI ارائه دهد، حتی اگر داده های بسیار کمی برای هر ژن وجود داشته باشد، تا زمانی که اندازه کلی نمونه قابل توجه باشد (مجموع D_n، دی_s، پ_n، و P_sاز مرتبه 100 ثانیه است، و هیچ ارتباط سیستماتیک (یعنی به دلیل خطای نمونه برداری) بین NI و هیچ یک از سلول های جدول MK وجود ندارد. با این حال، اگر همبستگی سیستماتیک NI وجود دارد_TGمغرضانه خواهد بود؛به عنوان مثال، NI_TGاگر همبستگی مثبتی بین NI وجود داشته باشد، نسبت به NI ژن‌هایی با چند شکلی مترادف زیاد سوگیری خواهد کرد._{درست است، واقعی}و E [P_s]. متأسفانه هیچ راه حل واضحی برای این مشکل وجود ندارد، اما بعید است که مشکل بزرگی باشد زیرا NI_{درست است، واقعی}و E [P_s] عموماً همبستگی ندارند (T. Gossman و A. Eyre-Walker، نتایج منتشر نشده).

برای بررسی سوگیری NI در داده‌های واقعی، مجموعه داده‌های منتشر شده D را انتخاب کردیم_n، دی_s، پ_n، و P_sاز مگس سرکه (Presgraves 2005؛ Welch 2006)، باکتری های روده ای (چارلزورث و ایر-واکر 2006)، و انسان ها (Bustamante و همکاران 2005). چون ما NI را نمی شناسیم_{درست است، واقعی}، ما آن را با استفاده از NI تخمین می زنیم_TG. با این حال، NI_TGاگر داده‌های کافی در همه ژن‌ها وجود نداشته باشد، می‌تواند سوگیری شود. برای بررسی اینکه آیا داده های کافی وجود دارد یا خیر، ما هر مجموعه داده را به چهار گروه تقسیم کردیم که NI تخمین زده شد_TGبرای هر کدام و سپس میانگین محاسبه شد. این را 1000 بار تکرار کردیم. ما متوجه شدیم که NI به معنای آن است_TGزیرا نمونه های فرعی مشابه NI هستند_TGبرای کل مجموعه داده (Drosophila-Presgraves NI_TG= 0. 833، میانگین NI_{TG (نمونه فرعی)}= 0. 905; مگس سرک ه-ولش NI_TG=0. 601، میانگین NI_{TG (نمونه فرعی)}= 0. 614; E. coli NI_TG= 0. 826، میانگین NI_{TG (نمونه فرعی)}= 0. 827; S. enterica NI_TG= 1. 609، میانگین NI_{TG (نمونه فرعی)}= 1. 615; و انسان NI_TG= 1. 594، میانگین NI_{TG (نمونه فرعی)}= 1. 596). این نشان می دهد که حجم نمونه کافی و NI است_TGاحتمالاً یک برآورد بی طرفانه از NI است_{درست است، واقعی}.

همانطور که انتظار می رود، میانگین NI در بین ژن ها، به استثنای آنهایی که مقادیر تعریف نشده دارند، NI_ساده، بزرگتر از NI است_TG(جدول 2). این برآورد بیش از حد می تواند قابل توجه باشد و ممکن است گمراه کننده باشد (جدول 2). در هر دو E. coli و Drosophila، NI_TGنشان‌دهنده تکامل تطبیقی است، همانطور که دیگران قبلاً استنباط کرده‌اند (چارلزورث و ایر-واکر 2006؛ ولش 2006)، در حالی که میانگین ساده NI را به استثنای مقادیر NI تعریف‌نشده، نشان می‌دهد، نشان می‌دهد که جهش‌های اندکی مضر در E. coli و یکی از مجموعه داده‌های مگس سرکه غالب هستند.; مجموعه داده های دیگر مگس سرکه یک الگوی خنثی را نشان می دهد. در مجموعه داده های سالمونلا و انسان نما، NI_سادهاز نظر کیفی شبیه NI است_TGاما از نظر ارزش بسیار بزرگتر است.

کتاب دستیار معامله گر...

ما را در سایت کتاب دستیار معامله گر دنبال می کنید

برچسب : نویسنده : عزت‌الله انتظامی بازدید : 60 تاريخ : پنجشنبه 3 فروردين 1402 ساعت: 15:44

تخمین شاخص بی طرفی

آخرین مطالب

امکانات وب