[ARM] Replace arm_neon_vqadds with sadd_sat (9f15fcc2) · Commits · llvm-doe / llvm-project

clang/lib/CodeGen/CGBuiltin.cpp

+6 −6

Original line number	Diff line number	Diff line
		@@ -4621,10 +4621,10 @@ static const NeonIntrinsicInfo ARMSIMDIntrinsicMap [] = {
		NEONMAP2(vpmin_v, arm_neon_vpminu, arm_neon_vpmins, Add1ArgType \| UnsignedAlts),
		NEONMAP1(vqabs_v, arm_neon_vqabs, Add1ArgType),
		NEONMAP1(vqabsq_v, arm_neon_vqabs, Add1ArgType),
		NEONMAP2(vqadd_v, arm_neon_vqaddu, arm_neon_vqadds, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqaddq_v, arm_neon_vqaddu, arm_neon_vqadds, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqdmlal_v, arm_neon_vqdmull, arm_neon_vqadds, 0),
		NEONMAP2(vqdmlsl_v, arm_neon_vqdmull, arm_neon_vqsubs, 0),
		NEONMAP2(vqadd_v, uadd_sat, sadd_sat, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqaddq_v, uadd_sat, sadd_sat, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqdmlal_v, arm_neon_vqdmull, sadd_sat, 0),
		NEONMAP2(vqdmlsl_v, arm_neon_vqdmull, ssub_sat, 0),
		NEONMAP1(vqdmulh_v, arm_neon_vqdmulh, Add1ArgType),
		NEONMAP1(vqdmulhq_v, arm_neon_vqdmulh, Add1ArgType),
		NEONMAP1(vqdmull_v, arm_neon_vqdmull, Add1ArgType),
		@@ -4642,8 +4642,8 @@ static const NeonIntrinsicInfo ARMSIMDIntrinsicMap [] = {
		NEONMAP2(vqshlq_v, arm_neon_vqshiftu, arm_neon_vqshifts, Add1ArgType \| UnsignedAlts),
		NEONMAP1(vqshlu_n_v, arm_neon_vqshiftsu, 0),
		NEONMAP1(vqshluq_n_v, arm_neon_vqshiftsu, 0),
		NEONMAP2(vqsub_v, arm_neon_vqsubu, arm_neon_vqsubs, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqsubq_v, arm_neon_vqsubu, arm_neon_vqsubs, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqsub_v, usub_sat, ssub_sat, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqsubq_v, usub_sat, ssub_sat, Add1ArgType \| UnsignedAlts),
		NEONMAP1(vraddhn_v, arm_neon_vraddhn, Add1ArgType),
		NEONMAP2(vrecpe_v, arm_neon_vrecpe, arm_neon_vrecpe, 0),
		NEONMAP2(vrecpeq_v, arm_neon_vrecpe, arm_neon_vrecpe, 0),

clang/test/CodeGen/arm-v8.1a-neon-intrinsics.c

+16 −16

Original line number	Diff line number	Diff line
		@@ -13,7 +13,7 @@
		// CHECK-LABEL: test_vqrdmlah_s16
		int16x4_t test_vqrdmlah_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqadds.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.sadd.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqadd.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -23,7 +23,7 @@ int16x4_t test_vqrdmlah_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-LABEL: test_vqrdmlah_s32
		int32x2_t test_vqrdmlah_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqadds.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.sadd.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqadd.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -33,7 +33,7 @@ int32x2_t test_vqrdmlah_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-LABEL: test_vqrdmlahq_s16
		int16x8_t test_vqrdmlahq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqadds.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqadd.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -43,7 +43,7 @@ int16x8_t test_vqrdmlahq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-LABEL: test_vqrdmlahq_s32
		int32x4_t test_vqrdmlahq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqadds.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.sadd.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqadd.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		@@ -54,7 +54,7 @@ int32x4_t test_vqrdmlahq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		int16x4_t test_vqrdmlah_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqadds.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.sadd.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -66,7 +66,7 @@ int16x4_t test_vqrdmlah_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		int32x2_t test_vqrdmlah_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqadds.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.sadd.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -78,7 +78,7 @@ int32x2_t test_vqrdmlah_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		int16x8_t test_vqrdmlahq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqadds.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -90,7 +90,7 @@ int16x8_t test_vqrdmlahq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		int32x4_t test_vqrdmlahq_lane_s32(int32x4_t a, int32x4_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqadds.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.sadd.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		@@ -101,7 +101,7 @@ int32x4_t test_vqrdmlahq_lane_s32(int32x4_t a, int32x4_t b, int32x2_t c) {
		// CHECK-LABEL: test_vqrdmlsh_s16
		int16x4_t test_vqrdmlsh_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqsubs.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.ssub.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqsub.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -111,7 +111,7 @@ int16x4_t test_vqrdmlsh_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-LABEL: test_vqrdmlsh_s32
		int32x2_t test_vqrdmlsh_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqsubs.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.ssub.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqsub.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -121,7 +121,7 @@ int32x2_t test_vqrdmlsh_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-LABEL: test_vqrdmlshq_s16
		int16x8_t test_vqrdmlshq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqsubs.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.ssub.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqsub.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -131,7 +131,7 @@ int16x8_t test_vqrdmlshq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-LABEL: test_vqrdmlshq_s32
		int32x4_t test_vqrdmlshq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqsubs.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.ssub.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqsub.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		@@ -142,7 +142,7 @@ int32x4_t test_vqrdmlshq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		int16x4_t test_vqrdmlsh_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqsubs.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.ssub.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -154,7 +154,7 @@ int16x4_t test_vqrdmlsh_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		int32x2_t test_vqrdmlsh_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqsubs.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.ssub.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -166,7 +166,7 @@ int32x2_t test_vqrdmlsh_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		int16x8_t test_vqrdmlshq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqsubs.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.ssub.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -178,7 +178,7 @@ int16x8_t test_vqrdmlshq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		int32x4_t test_vqrdmlshq_lane_s32(int32x4_t a, int32x4_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqsubs.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.ssub.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

clang/test/CodeGen/arm_neon_intrinsics.c

+44 −44

File changed.

Preview size limit exceeded, changes collapsed.

llvm/include/llvm/IR/IntrinsicsARM.td

+0 −4

Original line number	Diff line number	Diff line
		@@ -426,8 +426,6 @@ let IntrProperties = [IntrNoMem, Commutative] in {
		def int_arm_neon_vhaddu : Neon_2Arg_Intrinsic;
		def int_arm_neon_vrhadds : Neon_2Arg_Intrinsic;
		def int_arm_neon_vrhaddu : Neon_2Arg_Intrinsic;
		def int_arm_neon_vqadds : Neon_2Arg_Intrinsic;
		def int_arm_neon_vqaddu : Neon_2Arg_Intrinsic;
		def int_arm_neon_vraddhn : Neon_2Arg_Narrow_Intrinsic;

		// Vector Multiply.
		@@ -459,8 +457,6 @@ let IntrProperties = [IntrNoMem, Commutative] in {
		// Vector Subtract.
		def int_arm_neon_vhsubs : Neon_2Arg_Intrinsic;
		def int_arm_neon_vhsubu : Neon_2Arg_Intrinsic;
		def int_arm_neon_vqsubs : Neon_2Arg_Intrinsic;
		def int_arm_neon_vqsubu : Neon_2Arg_Intrinsic;
		def int_arm_neon_vrsubhn : Neon_2Arg_Narrow_Intrinsic;

		// Vector Absolute Compare.

llvm/lib/IR/AutoUpgrade.cpp

+20 −0

Original line number	Diff line number	Diff line
		@@ -559,6 +559,26 @@ static bool UpgradeIntrinsicFunction1(Function F, Function &NewFn) {
		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::thread_pointer);
		return true;
		}
		if (Name.startswith("arm.neon.vqadds.")) {
		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::sadd_sat,
		F->arg_begin()->getType());
		return true;
		}
		if (Name.startswith("arm.neon.vqaddu.")) {
		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::uadd_sat,
		F->arg_begin()->getType());
		return true;
		}
		if (Name.startswith("arm.neon.vqsubs.")) {
		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::ssub_sat,
		F->arg_begin()->getType());
		return true;
		}
		if (Name.startswith("arm.neon.vqsubu.")) {
		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::usub_sat,
		F->arg_begin()->getType());
		return true;
		}
		if (Name.startswith("aarch64.neon.addp")) {
		if (F->arg_size() != 2)
		break; // Invalid IR.

Original line number	Diff line number	Diff line
		@@ -13,7 +13,7 @@
		// CHECK-LABEL: test_vqrdmlah_s16
		int16x4_t test_vqrdmlah_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqadds.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.sadd.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqadd.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -23,7 +23,7 @@ int16x4_t test_vqrdmlah_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-LABEL: test_vqrdmlah_s32
		int32x2_t test_vqrdmlah_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqadds.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.sadd.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqadd.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -33,7 +33,7 @@ int32x2_t test_vqrdmlah_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-LABEL: test_vqrdmlahq_s16
		int16x8_t test_vqrdmlahq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqadds.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqadd.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -43,7 +43,7 @@ int16x8_t test_vqrdmlahq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-LABEL: test_vqrdmlahq_s32
		int32x4_t test_vqrdmlahq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqadds.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.sadd.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqadd.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		@@ -54,7 +54,7 @@ int32x4_t test_vqrdmlahq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		int16x4_t test_vqrdmlah_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqadds.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.sadd.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -66,7 +66,7 @@ int16x4_t test_vqrdmlah_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		int32x2_t test_vqrdmlah_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqadds.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.sadd.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -78,7 +78,7 @@ int32x2_t test_vqrdmlah_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		int16x8_t test_vqrdmlahq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqadds.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -90,7 +90,7 @@ int16x8_t test_vqrdmlahq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		int32x4_t test_vqrdmlahq_lane_s32(int32x4_t a, int32x4_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqadds.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.sadd.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		@@ -101,7 +101,7 @@ int32x4_t test_vqrdmlahq_lane_s32(int32x4_t a, int32x4_t b, int32x2_t c) {
		// CHECK-LABEL: test_vqrdmlsh_s16
		int16x4_t test_vqrdmlsh_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqsubs.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.ssub.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqsub.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -111,7 +111,7 @@ int16x4_t test_vqrdmlsh_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-LABEL: test_vqrdmlsh_s32
		int32x2_t test_vqrdmlsh_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqsubs.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.ssub.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqsub.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -121,7 +121,7 @@ int32x2_t test_vqrdmlsh_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-LABEL: test_vqrdmlshq_s16
		int16x8_t test_vqrdmlshq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqsubs.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.ssub.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqsub.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -131,7 +131,7 @@ int16x8_t test_vqrdmlshq_s16(int16x8_t a, int16x8_t b, int16x8_t c) {
		// CHECK-LABEL: test_vqrdmlshq_s32
		int32x4_t test_vqrdmlshq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqsubs.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.ssub.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqsub.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		@@ -142,7 +142,7 @@ int32x4_t test_vqrdmlshq_s32(int32x4_t a, int32x4_t b, int32x4_t c) {
		int16x4_t test_vqrdmlsh_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.arm.neon.vqsubs.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		// CHECK-ARM: call <4 x i16> @llvm.ssub.sat.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> {{%.}}, <4 x i16> {{%.}})
		@@ -154,7 +154,7 @@ int16x4_t test_vqrdmlsh_lane_s16(int16x4_t a, int16x4_t b, int16x4_t c) {
		int32x2_t test_vqrdmlsh_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.arm.neon.vqsubs.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		// CHECK-ARM: call <2 x i32> @llvm.ssub.sat.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <2 x i32> <i32 1, i32 1>
		// CHECK-AARCH64: call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> {{%.}}, <2 x i32> {{%.}})
		@@ -166,7 +166,7 @@ int32x2_t test_vqrdmlsh_lane_s32(int32x2_t a, int32x2_t b, int32x2_t c) {
		int16x8_t test_vqrdmlshq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		// CHECK-ARM: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.arm.neon.vqsubs.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		// CHECK-ARM: call <8 x i16> @llvm.ssub.sat.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})

		// CHECK-AARCH64: shufflevector <4 x i16> {{%.}}, <4 x i16> {{%.}}, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
		// CHECK-AARCH64: call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> {{%.}}, <8 x i16> {{%.}})
		@@ -178,7 +178,7 @@ int16x8_t test_vqrdmlshq_lane_s16(int16x8_t a, int16x8_t b, int16x4_t c) {
		int32x4_t test_vqrdmlshq_lane_s32(int32x4_t a, int32x4_t b, int32x2_t c) {
		// CHECK-ARM: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.arm.neon.vqsubs.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})
		// CHECK-ARM: call <4 x i32> @llvm.ssub.sat.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})

		// CHECK-AARCH64: shufflevector <2 x i32> {{%.}}, <2 x i32> {{%.}}, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
		// CHECK-AARCH64: call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> {{%.}}, <4 x i32> {{%.}})