[AArch64] Add IR intrinsics for sq(r)dmulh_lane(q) (2939fc13) · Commits · llvm-doe / llvm-project

clang/include/clang/Basic/arm_neon.td

+12 −4

Original line number	Diff line number	Diff line
		@@ -528,9 +528,16 @@ def VMULL_LANE : SOpInst<"vmull_lane", "(>Q)..I", "siUsUi", OP_MULL_LN>;
		def VQDMULL_N : SOpInst<"vqdmull_n", "(>Q).1", "si", OP_QDMULL_N>;
		def VQDMULL_LANE : SOpInst<"vqdmull_lane", "(>Q)..I", "si", OP_QDMULL_LN>;
		def VQDMULH_N : SOpInst<"vqdmulh_n", "..1", "siQsQi", OP_QDMULH_N>;
		def VQDMULH_LANE : SOpInst<"vqdmulh_lane", "..qI", "siQsQi", OP_QDMULH_LN>;
		def VQRDMULH_N : SOpInst<"vqrdmulh_n", "..1", "siQsQi", OP_QRDMULH_N>;

		let ArchGuard = "!defined(__aarch64__)" in {
		def VQDMULH_LANE : SOpInst<"vqdmulh_lane", "..qI", "siQsQi", OP_QDMULH_LN>;
		def VQRDMULH_LANE : SOpInst<"vqrdmulh_lane", "..qI", "siQsQi", OP_QRDMULH_LN>;
		}
		let ArchGuard = "defined(__aarch64__)" in {
		def A64_VQDMULH_LANE : SInst<"vqdmulh_lane", "..qI", "siQsQi">;
		def A64_VQRDMULH_LANE : SInst<"vqrdmulh_lane", "..qI", "siQsQi">;
		}

		let ArchGuard = "defined(__ARM_FEATURE_QRDMX)" in {
		def VQRDMLAH_LANE : SOpInst<"vqrdmlah_lane", "...qI", "siQsQi", OP_QRDMLAH_LN>;
		@@ -951,9 +958,10 @@ def VQDMULL_HIGH_LANE : SOpInst<"vqdmull_high_lane", "(>Q)Q.I", "si",
		def VQDMULL_HIGH_LANEQ : SOpInst<"vqdmull_high_laneq", "(>Q)QQI", "si",
		OP_QDMULLHi_LN>;

		def VQDMULH_LANEQ : SOpInst<"vqdmulh_laneq", "..QI", "siQsQi", OP_QDMULH_LN>;
		def VQRDMULH_LANEQ : SOpInst<"vqrdmulh_laneq", "..QI", "siQsQi", OP_QRDMULH_LN>;

		let isLaneQ = 1 in {
		def VQDMULH_LANEQ : SInst<"vqdmulh_laneq", "..QI", "siQsQi">;
		def VQRDMULH_LANEQ : SInst<"vqrdmulh_laneq", "..QI", "siQsQi">;
		}
		let ArchGuard = "defined(__ARM_FEATURE_QRDMX) && defined(__aarch64__)" in {
		def VQRDMLAH_LANEQ : SOpInst<"vqrdmlah_laneq", "...QI", "siQsQi", OP_QRDMLAH_LN>;
		def VQRDMLSH_LANEQ : SOpInst<"vqrdmlsh_laneq", "...QI", "siQsQi", OP_QRDMLSH_LN>;

clang/lib/CodeGen/CGBuiltin.cpp

+26 −0

Original line number	Diff line number	Diff line
		@@ -4969,14 +4969,22 @@ static const NeonIntrinsicInfo AArch64SIMDIntrinsicMap[] = {
		NEONMAP2(vqaddq_v, aarch64_neon_uqadd, aarch64_neon_sqadd, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqdmlal_v, aarch64_neon_sqdmull, aarch64_neon_sqadd, 0),
		NEONMAP2(vqdmlsl_v, aarch64_neon_sqdmull, aarch64_neon_sqsub, 0),
		NEONMAP1(vqdmulh_lane_v, aarch64_neon_sqdmulh_lane, 0),
		NEONMAP1(vqdmulh_laneq_v, aarch64_neon_sqdmulh_laneq, 0),
		NEONMAP1(vqdmulh_v, aarch64_neon_sqdmulh, Add1ArgType),
		NEONMAP1(vqdmulhq_lane_v, aarch64_neon_sqdmulh_lane, 0),
		NEONMAP1(vqdmulhq_laneq_v, aarch64_neon_sqdmulh_laneq, 0),
		NEONMAP1(vqdmulhq_v, aarch64_neon_sqdmulh, Add1ArgType),
		NEONMAP1(vqdmull_v, aarch64_neon_sqdmull, Add1ArgType),
		NEONMAP2(vqmovn_v, aarch64_neon_uqxtn, aarch64_neon_sqxtn, Add1ArgType \| UnsignedAlts),
		NEONMAP1(vqmovun_v, aarch64_neon_sqxtun, Add1ArgType),
		NEONMAP1(vqneg_v, aarch64_neon_sqneg, Add1ArgType),
		NEONMAP1(vqnegq_v, aarch64_neon_sqneg, Add1ArgType),
		NEONMAP1(vqrdmulh_lane_v, aarch64_neon_sqrdmulh_lane, 0),
		NEONMAP1(vqrdmulh_laneq_v, aarch64_neon_sqrdmulh_laneq, 0),
		NEONMAP1(vqrdmulh_v, aarch64_neon_sqrdmulh, Add1ArgType),
		NEONMAP1(vqrdmulhq_lane_v, aarch64_neon_sqrdmulh_lane, 0),
		NEONMAP1(vqrdmulhq_laneq_v, aarch64_neon_sqrdmulh_laneq, 0),
		NEONMAP1(vqrdmulhq_v, aarch64_neon_sqrdmulh, Add1ArgType),
		NEONMAP2(vqrshl_v, aarch64_neon_uqrshl, aarch64_neon_sqrshl, Add1ArgType \| UnsignedAlts),
		NEONMAP2(vqrshlq_v, aarch64_neon_uqrshl, aarch64_neon_sqrshl, Add1ArgType \| UnsignedAlts),
		@@ -5754,6 +5762,24 @@ Value *CodeGenFunction::EmitCommonNeonBuiltinExpr(
		Ops.resize(2);
		return EmitNeonCall(CGM.getIntrinsic(AltLLVMIntrinsic, Ty), Ops, NameHint);
		}
		case NEON::BI__builtin_neon_vqdmulhq_lane_v:
		case NEON::BI__builtin_neon_vqdmulh_lane_v:
		case NEON::BI__builtin_neon_vqrdmulhq_lane_v:
		case NEON::BI__builtin_neon_vqrdmulh_lane_v: {
		llvm::Type *Tys[2] = {
		Ty, GetNeonType(this, NeonTypeFlags(Type.getEltType(), false,
		/isQuad/ false))};
		return EmitNeonCall(CGM.getIntrinsic(Int, Tys), Ops, NameHint);
		}
		case NEON::BI__builtin_neon_vqdmulhq_laneq_v:
		case NEON::BI__builtin_neon_vqdmulh_laneq_v:
		case NEON::BI__builtin_neon_vqrdmulhq_laneq_v:
		case NEON::BI__builtin_neon_vqrdmulh_laneq_v: {
		llvm::Type *Tys[2] = {
		Ty, GetNeonType(this, NeonTypeFlags(Type.getEltType(), false,
		/isQuad/ true))};
		return EmitNeonCall(CGM.getIntrinsic(Int, Tys), Ops, NameHint);
		}
		case NEON::BI__builtin_neon_vqshl_n_v:
		case NEON::BI__builtin_neon_vqshlq_n_v:
		return EmitNeonCall(CGM.getIntrinsic(Int, Ty), Ops, "vqshl_n",

clang/test/CodeGen/aarch64-neon-2velem.c

+160 −160

File changed.

Preview size limit exceeded, changes collapsed.

llvm/include/llvm/IR/IntrinsicsAArch64.td

+8 −0

Original line number	Diff line number	Diff line
		@@ -133,6 +133,10 @@ let TargetPrefix = "aarch64" in { // All intrinsics start with "llvm.aarch64.".
		: Intrinsic<[llvm_anyvector_ty],
		[LLVMHalfElementsVectorType<0>, llvm_anyvector_ty],
		[IntrNoMem]>;
		class AdvSIMD_2VectorArg_Lane_Intrinsic
		: Intrinsic<[llvm_anyint_ty],
		[LLVMMatchType<0>, llvm_anyint_ty, llvm_i32_ty],
		[IntrNoMem]>;

		class AdvSIMD_3VectorArg_Intrinsic
		: Intrinsic<[llvm_anyvector_ty],
		@@ -207,9 +211,13 @@ let TargetPrefix = "aarch64", IntrProperties = [IntrNoMem] in {

		// Vector Saturating Doubling Multiply High
		def int_aarch64_neon_sqdmulh : AdvSIMD_2IntArg_Intrinsic;
		def int_aarch64_neon_sqdmulh_lane : AdvSIMD_2VectorArg_Lane_Intrinsic;
		def int_aarch64_neon_sqdmulh_laneq : AdvSIMD_2VectorArg_Lane_Intrinsic;

		// Vector Saturating Rounding Doubling Multiply High
		def int_aarch64_neon_sqrdmulh : AdvSIMD_2IntArg_Intrinsic;
		def int_aarch64_neon_sqrdmulh_lane : AdvSIMD_2VectorArg_Lane_Intrinsic;
		def int_aarch64_neon_sqrdmulh_laneq : AdvSIMD_2VectorArg_Lane_Intrinsic;

		// Vector Polynominal Multiply
		def int_aarch64_neon_pmul : AdvSIMD_2VectorArg_Intrinsic;

llvm/lib/Target/AArch64/AArch64InstrFormats.td

+61 −0

Original line number	Diff line number	Diff line
		@@ -360,6 +360,9 @@ def am_indexed7s128 : ComplexPattern<i64, 2, "SelectAddrModeIndexed7S128", []>;
		def am_indexedu6s128 : ComplexPattern<i64, 2, "SelectAddrModeIndexedU6S128", []>;
		def am_indexeds9s128 : ComplexPattern<i64, 2, "SelectAddrModeIndexedS9S128", []>;

		def UImmS1XForm : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant(N->getZExtValue(), SDLoc(N), MVT::i64);
		}]>;
		def UImmS2XForm : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant(N->getZExtValue() / 2, SDLoc(N), MVT::i64);
		}]>;
		@@ -7968,6 +7971,64 @@ multiclass SIMDFPIndexedTied<bit U, bits<4> opc, string asm> {
		}
		}

		multiclass SIMDIndexedHSPatterns<SDPatternOperator OpNodeLane,
		SDPatternOperator OpNodeLaneQ> {

		def : Pat<(v4i16 (OpNodeLane
		(v4i16 V64:$Rn), (v4i16 V64_lo:$Rm),
		VectorIndexS32b:$idx)),
		(!cast<Instruction>(NAME # v4i16_indexed) $Rn,
		(SUBREG_TO_REG (i32 0), (v4i16 V64_lo:$Rm), dsub),
		(UImmS1XForm $idx))>;

		def : Pat<(v4i16 (OpNodeLaneQ
		(v4i16 V64:$Rn), (v8i16 V128_lo:$Rm),
		VectorIndexH32b:$idx)),
		(!cast<Instruction>(NAME # v4i16_indexed) $Rn, $Rm,
		(UImmS1XForm $idx))>;

		def : Pat<(v8i16 (OpNodeLane
		(v8i16 V128:$Rn), (v4i16 V64_lo:$Rm),
		VectorIndexS32b:$idx)),
		(!cast<Instruction>(NAME # v8i16_indexed) $Rn,
		(SUBREG_TO_REG (i32 0), $Rm, dsub),
		(UImmS1XForm $idx))>;

		def : Pat<(v8i16 (OpNodeLaneQ
		(v8i16 V128:$Rn), (v8i16 V128_lo:$Rm),
		VectorIndexH32b:$idx)),
		(!cast<Instruction>(NAME # v8i16_indexed) $Rn, $Rm,
		(UImmS1XForm $idx))>;

		def : Pat<(v2i32 (OpNodeLane
		(v2i32 V64:$Rn), (v2i32 V64:$Rm),
		VectorIndexD32b:$idx)),
		(!cast<Instruction>(NAME # v2i32_indexed) $Rn,
		(SUBREG_TO_REG (i32 0), (v2i32 V64_lo:$Rm), dsub),
		(UImmS1XForm $idx))>;

		def : Pat<(v2i32 (OpNodeLaneQ
		(v2i32 V64:$Rn), (v4i32 V128:$Rm),
		VectorIndexS32b:$idx)),
		(!cast<Instruction>(NAME # v2i32_indexed) $Rn, $Rm,
		(UImmS1XForm $idx))>;

		def : Pat<(v4i32 (OpNodeLane
		(v4i32 V128:$Rn), (v2i32 V64:$Rm),
		VectorIndexD32b:$idx)),
		(!cast<Instruction>(NAME # v4i32_indexed) $Rn,
		(SUBREG_TO_REG (i32 0), $Rm, dsub),
		(UImmS1XForm $idx))>;

		def : Pat<(v4i32 (OpNodeLaneQ
		(v4i32 V128:$Rn),
		(v4i32 V128:$Rm),
		VectorIndexS32b:$idx)),
		(!cast<Instruction>(NAME # v4i32_indexed) $Rn, $Rm,
		(UImmS1XForm $idx))>;

		}

		multiclass SIMDIndexedHS<bit U, bits<4> opc, string asm,
		SDPatternOperator OpNode> {
		def v4i16_indexed : BaseSIMDIndexed<0, U, 0, 0b01, opc, V64, V64,