لینک دانلود و خرید پایین توضیحات
فرمت فایل word و قابل ویرایش و پرینت
تعداد صفحات: 12
فنون دیگری برای جمع آوری محصول Partial
چندین تکنیک دیگر برای اصلاح ساختار درختان CSA معرفی شده است که از کنتورهای 302 برای رسیدن به طرح منظم تر و Lass arebconsuming استفاده می کند. چنین ساختارهای درختی اصلاح شده ممکن است مستلزم تعداد بیشتری از سطوح CSA با تأخیر کلی بیشتر باشد. دو نمونه از این فنون بعداً تشریح می شود. نمونة اول، درختان تأخیر موازنه شده [24] ( همچنین با 19 رجوع شود) را تعیین می کند در حالیکه نمونة دوم، درختان پلکان واژگون را تعیین می کند [15] . شکل 13- 6 ساختار bit – slices را برای دو تکنیک نشان می دهد و آنها را با Wallace tree bit8slice متناظر مقایسه می کند. تمام bit – slices در شکل 13- 6 برای 18 operands است که ممکن است بوسیله الگوریتم بزرگ مضاربه ای پایه تولید شود. در این مورد، 18 مثلث واژگون در شکل 13-6 3و 2 هستند و اعداد روی این کنتورها، تأخیر تجربه شده توسط operands داده را نشان می دهند. بنابر این ع پس از اینکه نتایج 2~ 64 توسط Wallae و درختان پلکان واژگون تولید شدند، درخت متوازن مستلزم ~ AFA است.
توجه کنید که تمام 3 ساختار درختی ، شامل 15 Carries حاصل بیرون رونده و 15 حاصل وارده شونده هستند و هر حامل بیرون رونده در مسیر حامل وارد شوندة خود قرار دارد، برای اینکه با bit – slices مجاور ، متصل شود. حاملان وارد شونده با کنتورهای مختلف (3 و 29 ronted درگیر می شوند، برای اینکه تمام داده ها به یک کنتور قبل یا در زمان لازم معتبر هستند . تنها برای درختان متوازن تمام 15 حامل وارد شوندهه هنگامی که لازم هستند به طور کامل تولید می شوند چون تمام مسیرها متوازن هستند در 2 درخت دیگر، کنتورهایی وجود دارد که تمام حاملان وارد شوند به طور همزمان تولید نشوند. برای مثال، منتور پایینی در درخت پلکان واژگون ، حاملان وارد شونده ای دارد که تأخیرهای مرتبط،44 و54 هستند.
3 ساختار درختی همچنین در تعداد مسیر کشی لازم بین bit – slices مجاور متفاوت هستند، این در عوض بر مساخت طرح اثر می گذارد. درخت Wallae مستلزم 6 مسیر سیم کشی است، پلکان واژگون و درخت متوازن به ترتیب مستلزم 3 و 2 مسیر هستند. به رابطة trabeoff لاینفک بین اندازه و سرعت توجه فرمائید. درخت Wallae، پائین ترین تأخیر کلی را تضمین می کند اما بیشترین تعداد مسیرهای سیم کشی است.
درخت متوازن، از سوی دیگر، مستلزم کمترین تعداد مسیر سیم کشی است اما بیشترین تأخیر کلی را دارد. درختان متوازن و پلکان واژگون ساختار منظمی دارند و می توانند به روش قانونمندی طراحی شوند این به سختی از شکل 13- 6 دیده می شود، اما از شکل 13- 6 که ساختار کامل دو درخت را مانند آن درخت Wallae متناظر نشان می دهد می توان نتیجه گیری کرد. آجرهای ساختمان درختان متوازن و پلکان واژگون، با خطوط منظم و برخی انحرافات آنها می توانند از 1241 و [15] مشخص شوند. در هنگام تعیین طرح نهایی یک درخت SCA، باید دقت شود تا اطمینان حاصل شود که سیم ها، داده ها را به Carry – Save adder با طولی تقریباً مشابه وصل می کنند، در غیر اینصورت مسیرهای متوازن تأخیر دیگر متوازن نخواهند بود.
برای مثال ، یک درخت CSA را برای 27 محصول operands بدست آمده از bit – 53 افزاینده با استفاده از الگوریتم اصلاح شدة پایة Booth 4، یک درخت CSA از کمپرسورهای 2 و 4 نشان داده شده در شکل 15- 6 ساخته می شود و طرح متناظر در شکل 15 – 6 (ب) 1251 نشان داده شده است. توجه کنید که کمپرسور پائینی (13# در وسط قرار دارد، برای اینکه کمپرسورهای 11# و 12# در فاصله نسبتاً مشابهی از آن هستند. کمپرسور 11# در عوض سیم هایی با طول مشابه از 8# و 9# و ... دارد.)
5 - 6 واحد افزودن مضرب ترکیبی (FMA)
یک واحد FMA، ضرب A * B زیر را فوراً بوسیله یک محصول اضافی و operand سوم (C) انجام می دهد برای اینکه محاسبه A * b + C یک عمل واحد و منفرد انجام می گیرد. واضح است که چنین واحدی قادر به انجام ضرب تنها با قرار دادن C=0 و جمع (یا تفریق) تنها با قرار دادن برای مثال B=1 می باشد.
یک واحد FMA می تواند زمان کلی استخراج ضرب زنجیره ای 0 را کاهش دهد وسپس عملیات تفریق را اضافه نماید. یک مثال برای این مورد زمانی که این ضرب و جمع زنجیره ای مفیدند، در ارزیابی چند اسمی an * n + a , -1 * n-1 + … + aa از طریق
{(GX + an -1) X + an -2} X + … است. از سوی دیگر ، ضرب مستقل و عملیات جمع نمی توانند به موازات هم انجام گیرند.
مزیت دیگر یک واحد FMA در مقایسه با افزاینده و جمع کنندة مجزا، زمان اجرای عملیات نقطة شناور است، چون گرد کردن تنها یکبار برای نتیجه A * B + C انجام می گیرید نه دوبار (ضرب وسپس برای جمع). چون گرد کردن ممکن است خطا های محاسبه را نشان دهد، کاهش تعداد گرد کردن ها ممکن است اثر مثبتی بر خطای کلی داشته باشد. در طرح گزارش شده در 1141، این صحت اضافی زمانی مفید بود که به طور صحیحی خارج قسمت را در تقسیم بر الگوریتم متناوب گرد کند. (رجوع شود به بخش 2 – 8).
شکل 16- 6 اجرای یک واحد FMA را برای محاسبات نقطة شناور نشان می دهد. در اینجا C , B , A قابل توجه هستند در حالیکهE c ,Eg , Eaبه ترکیب نمونه های operands هستند درخت CSA تمام محصولات نسبی را تولید می کند و جمع آوری Carry – Save را برای تولید 2 نتیجه ای که سپس با operand مرتب شدة C به طور صحیح جمع می شود. جمع کنندة 3 operands را می پذیرد و بنابر این، ابتدا باید آنها را به 2 (با استفاده از کنتورهای 2 و 3) کاهش دهد و سپس افزایش حمل – تکثیر را انجام می دهد. مراحل طرح و نرمال سازی و گرد کردن سپس انجام می گیرند. طرح نشان داده شده در شکل 16- 6 ، 2 تکنیک را برای کاهش زمان اجرای کلی بکار می برد. ابتدا، مدار مهم پیش بینی کنندة صفر، از تکثیر استفاده می کند و علائم تولید شده توسط adder را برای پیش بینی نوع تغییری که در مرحله پس از نرمال سازی مورد نیاز است، تولید کند. این مدار به موازات خود جمع عمل می کند برای اینکه تأخیر مرحلة نرمال سازی کوتاه تر است. ثانیاًو مهمتر اینکه ، مرتب کردن C برجسته در Ea + Eg – Ec به موازات ضرب A و B انجام می گیرد. به طور معمول، یک جمع نقطة شناور، ما اهمیت operand کوچک تر را مرتب می کنیم. این دلالت دارد بر اینکه اگر محصول AXBکوچکتر از C باشد. باید محصول را پس از تولید، تغییر دهیم و تأخیر اضافی را نشان دهیم. ترجیح می دهیم همیشه C را مرتب کنیم حتی اگر بزرگتر از AXB باشد، تا تغییر به موازات ضرب باشد. برای رسیدن به این ، باید اجازه دهیم که C به راست یا چپ تغییر کند (مسیری که به ترتیب با مثبت یا منفی بودن نتیجة Ea + EB – Ec دیکته می شود). اگر اجازه بدهیم C به چپ تغییر کند باید عدد کلی Bits در adder افزایش یابد. برای مثال ، اگر تمام operands، اعداد نقطة شناور در قالب طولانی IEEE هستند، ترتیب ممکن C در رابطه با محصول AXB به صورت زیر نشان داده می شود.
این ترتیب برای 53 – 2 EA + EB – EC 2 53 است. اگر 54 2 EA + Eg – EC باشد، بیت های C بیشتر به راست تغییر کرده اند، جایگزین بیت چسبنده می شود و اگر 54-5 EA + ED – EC باشد تمام بیت های A * B جایگزین یک بیت چسبنده می گردند. بنابر این penaity جریمة کلیع 50 درصد افزایش در پهنای adder می باشد که در عوض، زمان اجرای adder را افزایش خواهد داد. به هر حال توجه کنید که 53 بیت بالای adderتنها لازم است قادر به افزایش محتویات اصلی 53 بیت باشد (اگر یک Carry از106 بیت پائینی تکثیر یابد).
مسیر از محصول مدار گردشی در شکل 16 – 6 به مضرب در سمت راست زمانی بکار می رود که محاسبه ای نظیر (xy + z) + AXB انجام می شود. مسیر از محصول مدار نرمال سازی به مضرب سمت چپ زمانی بکار می رود که محاسباه ای نظیر (X * Y + Z) + C انجام می شود. در این مورد مرحلة گرد کردن برای (A * B + C) در زمانی مشابه با ضرب در D با افزودن محصول نسبی 1nn * D به درخت CSA انجام می گیرد.
6 – 6 تنظیم مضرب ها
در عمل اساسی (تولید محصولات نسبی و جمع) ممکن است ظاهر شوند. در این روش، از افراطب overhead که بخاطر کنترل های جداگانة این دو عمل است جلوگیری می کنیم و بنابر این سرعت ضرب را بالا می بریم. این مضرب ها که شامل سلولهای یکسانی است که قارد به تشکیل یک محصول نسبی جدید و افزودن آن به محصول نسبی جمع شده از قبل می باشد، مضرب های کناری نامیده می شوند. واضح است که هر سودی در سرعت، به هزینه سخت افزار اضافی بدست می آید. ویژگی مهم دیگر تنظیم مضرب ها این است که آنها می توانند برای حمایت سرعت بالای لوله کشی بکار روند. برای نشان دادن عمل تنظیم یک مضرب، متوازی الاضلاع 5 * 5 نشان داده شده در شکل 17- 6 را آزمایش می کنیم که شامل 25 بیت محصول نسبی به شکل a4 . xjاست که به طور صحیحی مرتب شده است.
دانلود تحقیق کامل درباره فنون دیگری برای جمع آوری محصول Partial 12 ص